Académique Documents
Professionnel Documents
Culture Documents
comentrios
MVP
favorito
para impresso
anotar
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
Minerao de Texto
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
Similaridade de documentos
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
a normalizao de d2. Quanto mais prximo de zero for o valor do cosseno, menos similares
so os documentos. J quando for mais prximo de um, mais similares eles so;
INICIAR
MVP
o peso do termo j em d1 e
INICIAR
MVP
o peso do termo j em d1 e
INICIAR
MVP
o peso do termo j em d1 e
INICIAR
MVP
INICIAR
MVP
Classificado como
Classe Atual
Classe 1
Classe 1
Classe 2
...
Classe n
V1,1
V1,2
...
V1,n
INICIAR
MVP
...
...
...
...
...
Classe n
Vn,1
Vn,2
...
Vn,n
Predicted class
Actual class
Positiv e
Negativ e
Positiv e
Negativ e
INICIAR
MVP
A avaliao de um classificador se dar pela anlise dos valores nela contidos, bem como
na verificao do somatrio dos elementos das diagonais principal e secundria. Um bom
classificador aquele que possui a soma da diagonal principal maior que a da secundria.
Um classificador considerado ideal quando a soma da diagonal secundria igual a zero,
contudo esse ser considerado um pssimo classificador se possuir o somatrio da
diagonal principal igual a zero.
De posse dos valores da matriz de confuso, podem ser utilizadas as mtricas de avaliao
de desempenho e qualidade de um classificador. As principais mtricas de desempenho e
qualidade so:
Acurcia (accuracy): o percentual de instncias classificadas corretamente;
Preciso (precision): o percentual de instncias classificadas como positive que so
realmente positive;
Cobertura ou Revocao (recall): o percentual de instncias positive que foram
classificadas corretamente como positive;
Medida F (F1 Score): a medida que combina a preciso e revocao (cobertura), ou seja,
a mdia harmnica da preciso e revocao.
Ferramenta TextMining
O TextMining permite determinar se informaes so ou no evidncias de irregularidades,
ou seja, se uma descrio est ou no de acordo com a lei e com o que se espera dos
jurisdicionados. Desta forma, a ferramenta tem como objetivo tornar efetivo o trabalho do
auditor na identificao de irregularidades. Suas principais funcionalidades so o
gerenciamento de perfis, de dicionrios e de classificaes. Considera-se gerenciamento o
INICIAR
MVP
informaes.
Iniciando pelo gerenciamento de perfis, este um mecanismo que auxilia nas consultas por
meio dos filtros anexados aos perfis. Conforme mostrado na Figura 14, por meio deles
que o usurio poder determinar dinamicamente os campos que deseja filtrar nas telas, nas
quais poder escolher o perfil. Na TextMining, est disponvel para o usurio as
funcionalidades de cadastro, consulta e excluso.
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
DIM_CLASSIFICACAO.
Mdulo Dicionrio:
o A tela de criao de dicionrios foi alterada para permitir a incluso de amostras avulsas;
o A tela de consulta de dicionrios foi alterada para que os botes Editar e Excluir
ficassem desabilitados quando no existissem dicionrios cadastrados;
o A tela Dicionrios Bloqueados foi alterada para que o boto Liberar ficasse desabilitado
quando no existissem dicionrios bloqueados.
Mdulo Classificao:
o Criao da classe similaridade, algoritmo de classificao;
o Criao da classe abstrata Classificador, superclasse das classes Similaridade e
NaiveBayes. A classe Classificador possui um mtodo esttico ClassificadorFactory que
retorna um objeto do tipo Classificador, o qual pode ser uma instncia das classes
NaiveBayes ou Similaridade;
o Na tela Classificao, o algoritmo Similaridade foi includo nas opes de mtodos de
classificao;
o Na tela Classificao, foram adicionados os percentuais 51 e 55 ao componente Limiar
Classificao %;
o A tela Classificao foi alterada para os componentes Dicionrios, Perfil, Limiar
Classificao %, Mtodo, Medidas, Filtros, Classificar e Descrio da Classificao
serem desabilitados quando um processo classificatrio fosse iniciado;
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
2. Para cada amostra que contenha pelo menos um termo de sc, calcular o score para cada
amostra, criar um objeto ResultadoGenerico para cada amostra analisada, contendo nesse
objeto a classe da amostra e o score calculado e, por fim, armazenar o objeto no vetor de
ResultadoGenerico.
3. Ordenar o vetor de ResultadoGenerico em ordem crescente pelo score.
4. Se o vetor estiver vazio Ento
Retorne um objeto ResultadoGenerico com classe igual a falso e score igual a zero.
Seno
5. Se o vetor possuir apenas um elemento Ento
Retorne o nico objeto ResultadoGenerico dentro do vetor.
Seno
6. Se dentre os objetos ResultadoGenerico no vetor existe apenas uma ocorrncia de um
objeto com o maior score Ento
Retorne o objeto ResultadoGenerico com maior score.
Seno
7. Para todas as ocorrncias dos objetos ResultadoGenerico com maior score, realizar a
contagem de objetos que possuem classe igual a falso (Em Conformidade) e tambm os
que possuem classe igual a verdadeiro (Evidncia).
8. Se a quantidade de verdadeiro for maior que a de falso Ento
INICIAR
MVP
score.
Seno
9. Se a quantidade de falso for maior que a de verdadeiro Ento
Retorne um objeto ResultadoGenerico com classe igual a falso e score igual ao maior score.
Seno
10. Enquanto no for possvel classificar a sentena (quantidade de verdadeiros e falsos
forem iguais) e nem todos os objetos do vetor foram analisados, realizar os passos 6 a 9,
considerando que o novo maior score ser o score do objeto ResultadoGenerico que
antecede a primeira ocorrncia do objeto que possui o atual maior score.
11. Se no foi possvel classificar analisando todos os elementos do vetor Ento
Retorne um objeto ResultadoGenerico com classe igual a falso e score igual a zero.
Estudo de caso
A realizao do estudo de caso teve por objetivo principal a validao dos resultados
emitidos pela ferramenta TextMining para deteco de irregularidades nos pagamentos de
dirias contidos nos histricos de contas pblicas sob custdia da organizao ABC. Para
atingir este objetivo, necessria a efetivao dos seguintes passos:
Selecionar os participantes e objetos do estudo de caso;
Definir o dicionrio a ser utilizado;
Executar o processo classificatrio nas amostras dos participantes envolvidos para cada
INICIAR
MVP
Verificar e validar os resultados obtidos por meio das mtricas de Tempo Mdio de
Execuo, Acurcia, Preciso, Cobertura e Medida F;
Realizar alteraes na ferramenta, se necessrios.
Primeiramente foram selecionados os participantes e objetos, em seguida, a definio do
dicionrio utilizado, a determinao das mtricas para a avaliao de desempenho e
qualidade dos algoritmos e, por fim, foi realizada a execuo do estudo.
Para a seleo dos participantes, foi necessrio analisar dois critrios: os participantes
devem ser unidades gestoras cadastradas e que possuam uma quantidade considervel de
registros cadastrados. De acordo com o DW cedido, existem 481 unidades gestoras
cadastradas, sendo assim, sero escolhidas, aleatoriamente, trs unidades para a
realizao do estudo. Por questo de sigilo das informaes, os nomes das unidades
gestoras no sero revelados.
As unidades escolhidas, com a quantidade de registros especificados entre parnteses,
foram: Unidade A (8872), Unidade B (625) e Unidade C (1855). importante ressaltar que
para as unidades A e C, tambm foram escolhidas dentro da quantidade de registros,
aleatoriamente, amostras de 500 registros para o estudo. fundamental frisar que a base de
treinamento ser constituda pela Unidade A, j a base de teste ser formada pelas
unidades B e C.
Aps a escolha das unidades, fundamental determinar o atributo na tabela de fato a ser
minerado, ou seja, o campo descritivo. De acordo com a Figura 19, existem cinco campos
descritivos: IdDw_Fato_Diaria, Matricula_Funcionario, Destino_Viagem, Motivo_Viagem e
Numero_Empenho. Dentre estes, para detectar irregularidades no pagamento de dirias, o
atributo mais significativo Motivo_Viagem, porque o mesmo representa a justificativa da
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
Diria uma espcie de auxlio financeiro ou ajuda de custo para um colaborador prestar
algum servio fora da localidade do rgo ao qual esteja vinculado. Em outras palavras, um
auxlio recebido pelo colaborador com o intuito de custear seus gastos para a realizao de
servio fora do local de trabalho. A concesso de dirias diversificada, pois abrange gastos
referentes capacitao, viagens para reunies com superiores, entre outras.
Diante do exposto, proibida a concesso de dirias para fins que no sejam relacionados
prestao de servio. Existem inmeras justificativas consideradas evidncias de
irregularidades para concesso de dirias como realizao de uma viagem particular. Assim,
para a definio do dicionrio a ser utilizado neste estudo, optou-se em restringir esse
conjunto para evidncias relacionadas ao uso de dirias para tratamento de sade.
O modelo de conhecimento (dicionrio a ser utilizado) possuir, no total, 60 sentenas
constitudas de amostras da prpria base e de amostras avulsas para classificar registros.
Para as amostras da prpria base foram escolhidas, aleatoriamente, 40 sentenas da
Unidade A, sendo 20 classificadas como Evidncia e as outras 20 como Em
Conformidade.
Para as amostras avulsas, foram definidas 20 sentenas, sendo 10 classificadas como
Evidncia e as outras 10 como Em Conformidade. As sentenas avulsas classificadas
como Em Conformidade so similares s da prpria base, as quais foram formuladas por
meio de uma anlise das amostras dos dados das unidades gestoras envolvidas.
J das sentenas avulsas classificadas como Evidncia, apenas duas so similares s da
prpria base, por meio da anlise da amostra dos dados da Unidade A. Para formular as
sentenas avulsas restantes, com o intuito de obter termos da Medicina sobre
procedimentos, tratamentos e cirurgias mdicas, profissionais da sade, doenas e
exames, foram realizadas algumas pesquisas sobre Medicina.
INICIAR
MVP
Sentena Ev idncia
ACOMPANHAMENTO DE TRATAMENTO DE
DESPESAS MDICA
FAZER EXAMES PARA LIBERAO DE
INICIAR
MVP
TRATAMENTO DE SADE
AMOSTRAS AVULSAS
INICIAR
MVP
ELETROENCEFALOGRAMA; EMERGNCIA;
EXAMES MDICOS; HISTRICO DE SADE;
HOSPITAL; LAUDO; PERCIA MDICA;
INICIAR
MVP
unidade
ESPOSA E FILHOS.
INICIAR
MVP
Classificao Correta
Ev idncia
Em Conformidade
Ev idncia
NSCCE
NSCEC
Em Conformidade
NSCEE
NSCCC
INICIAR
MVP
Resultados
Aps a realizao do estudo de caso, foram coletados os valores das matrizes de confuso
de cada execuo para cada algoritmo e unidade escolhida. Com os valores das matrizes de
confuso foi possvel coletar as mtricas para avaliar todas as abordagens. Vale ressaltar
que para um mesmo algoritmo e unidade gestora, a matriz de confuso foi a mesma para as
trs execues (processos classificatrios). Nas Tabelas 6 e 7 apresentado um resumo
dos valores das matrizes de confuso por algoritmo e unidade.
NSCCC (TN)
Unidades
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
F.I.
H.
F.
Unidade A
136
137
137
137
363
363
363
362
Unidade B
613
603
603
588
Unidade C
457
449
449
430
SIM.
SIM.
NSCEC (FN)
Unidades
N.B.
N.B.
N.B.
N.B.
SIM.
N.B.
N.B.
SIM.
INICIAR
MVP
Unidade A
Unidade B
11
21
21
36
Unidade C
40
48
48
67
Preciso
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
F.I.
H.
F.
99,80
99,80
100 % 100 %
1 Exec.
%
2 Exec.
99,80
SIM.
99,28
100 % 100 % 100 %
100 % 100 %
99,80
99,28
INICIAR
MVP
99,80
99,80
100 % 100 %
3 Exec.
%
99,80
Mdia
99,28
100 % 100 % 100 %
%
99,80
100 % 100 %
99,28
100 % 100 % 100 %
Tabela 8. Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade A.
Medida F
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
F.I.
H.
F.
99,27
99,63
100 % 100 %
1 Exec.
100 %
100 %
99,64
100 % 100 %
99,27
99,63
100 % 100 %
100 %
99,64
100 % 100 %
99,27
Mdia
99,63
100 % 100 %
3 Exec.
99,64
100 % 100 %
99,27
2 Exec.
SIM.
99,63
100 % 100 %
100 %
99,64
100 % 100 %
Tabela 9. Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade A.
INICIAR
MVP
SIM.
F.I.
H.
F.
1 Exec.
84,78 s
2 Exec.
83,39 s
3 Exec.
82,22 s
135,25
135,86
152,37
Mdia
83,46 s
Tabela 10. Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade A.
A prxima unidade analisada foi a Unidade B. Tambm foram analisados os resultados das
trs classificaes realizadas para cada algoritmo na referida unidade. De acordo com as
Tabelas 11, 13 e 13, o algoritmo similaridade obteve um melhor desempenho do que os
demais apenas na mtrica de tempo de execuo. J o Nave Bayes Frequncia Inversa
obteve um melhor desempenho na mtrica acurcia (98,08 %). J Similaridade obteve a
menor porcentagem de acurcia. importante verificar que todas as abordagens tiveram um
pssimo desempenho na mtrica preciso (valor abaixo de 50 %), mas Nave Bayes
Hbrido e Nave Bayes Frequncia tiveram desempenho melhor que os demais.
Apesar dos pssimos resultados, Nave Bayes Frequncia Inversa foi a melhor
abordagem, pois o mesmo classificou, erroneamente, um nmero muito inferior de
evidncias do que os outros algoritmos, como mostrado nas Tabelas 8 e 9. Em outras
palavras, comparando-se o resultado da soma entre NSCCE e NSCCC (soma da diagonal
principal da matriz de confuso) de cada algoritmo, o resultado de Nave Bayes Frequncia
Inversa foi superior aos resultados das demais abordagens, portanto, Nave Bayes
Frequncia Inversa foi o algoritmo que apresentou melhor desempenho e qualidade na
classificao das sentenas dessa unidade.
INICIAR
MVP
Acurcia
Preciso
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
SIM.
SIM.
F.I.
H.
F.
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
1 Exec.
2 Exec.
3 Exec.
Mdia
Tabela 11. Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade B.
Medida F
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
8,70
8,70
0,00
8,70
8,70
8,70
8,70
SIM.
F.I.
H.
F.
0,00
100 %
1 Exec.
100 %
2 Exec.
100 % 0,00 %
100 % 0,00 %
3 Exec.
0,00
100 %
SIM.
100 % 0,00 %
INICIAR
MVP
0,00
Mdia
100 %
8,70
8,70
100 % 0,00 %
Tabela 12. Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade
B.
N.B.
N.B.
F.I.
H.
F.
SIM.
1 Exec.
2 Exec.
3 Exec.
266,17
278,04
158,95
Mdia
Tabela 13. Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade B.
Encerrando a primeira anlise, a prxima unidade analisada foi a Unidade C. Tambm foram
analisados os resultados das trs classificaes realizadas para cada algoritmo nessa
unidade. Conforme visto nas Tabelas 14, 16 e 16, similaridade obteve um melhor
desempenho do que os demais apenas na mtrica de tempo de execuo, bem como
obteve os menores percentuais nas outras mtricas. J o Nave Bayes Frequncia Inversa
obteve as melhores porcentagens de acurcia, preciso, cobertura e medida F, seguido das
abordagens Nave Bayes Hbrido e Nave Bayes Frequncia. Sendo assim, o algoritmo
INICIAR
MVP
dessa unidade. Contudo, importante observar que, apesar do timo desempenho, Nave
Bayes Frequncia Inversa classificou, erroneamente, uma quantidade considervel de
sentenas como Evidncia, como mostrado na Tabela 7.
Preciso
Execues
N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
F.I.
H.
F.
F.I.
H.
F.
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
SIM.
SIM.
1 Exec.
2 Exec.
3 Exec.
Mdia
Tabela 14. Comparativo das mtricas acurcia e preciso para cada algoritmo na Unidade C.
Medida F
Execues
N.B.
N.B.
N.B.
F.I.
H.
F.
N.B.
N.B.
N.B.
F.I.
H.
F.
13,04
11,11
11,11
SIM.
66,67
1 Exec.
SIM.
5,56
INICIAR
2 Exec.
3 Exec.
Mdia
MVP
13,04
11,11
11,11
5,56
66,67
13,04
11,11
11,11
5,56
66,67
13,04
11,11
11,11
5,56
Tabela 15. Comparativo das mtricas cobertura e medida F para cada algoritmo na Unidade
C.
N.B.
N.B.
SIM.
F.I.
H.
F.
1 Exec.
2 Exec.
3 Exec.
193,95
271,26
117,03
Mdia
Tabela 16. Comparativo da mtrica tempo de execuo para cada algoritmo na Unidade C.
Encerrando a anlise comparativa dos algoritmos, foi feita uma anlise por mtrica utilizada.
Verificando o grfico da Figura 20, correspondente mtrica acurcia, notvel os timos
desempenhos dos Nave Bayes Hbrido e Nave Bayes Frequncia na Unidade A e o
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
INICIAR
MVP
DevMedia
A DevMedia um portal para analistas, desenvolvedores de sistemas, gerentes e DBAs com milhares de
artigos, dicas, cursos e videoaulas gratuitos e exclusivos para assinantes.
Publicado em 2016
INICIAR
MVP
(0)
No h comentrios
Meus comentarios
Publicidade
Mais posts
Artigo
INICIAR
MVP
Artigo