Académique Documents
Professionnel Documents
Culture Documents
Resumo: Este relatrio descreve brevemente o funcionamento do KNN (K- Nearest Neighbor) em
uma determinada base de dados, descrevendo o algoritmo utilizado e os resultados obtidos nos
testes aps o treinamento.
1. Descrio
um dos algoritmos de classificao mais simples. Usado para classificar objetos com base em
exemplos de treinamento que esto mais prximos no espao de caractersticas. O algoritmo de
classificao baseia-se no vizinho mais prximo (Nearest Neighbor NN) uma tcnica amplamente
empregada para reconhecer padres. O principal objetivo desse algoritmo descobrir o vizinho mais
prximo de uma dada instncia e classificar tal instncia com a classe desse vizinho.
Ento basicamente, o kNN classifica um dado elemento de acordo com as respectivas classes dos k (k 1)
vizinhos mais prximos pertencentes a uma base de treinamentos dada. O algoritmo calcula a distncia
do elemento dado para cada elemento da base de treinamento e ento ordenar os elementos da base de
treinamento do mais prximo ao de maior distncia. Dos elementos ordenados selecionam-se apenas os k
primeiros, que servem de parmetro para a regra de classificao.
2. Algoritmo
O fluxo bsico para classificar um exemplo desconhecido com o algoritmo KNN ::
4. Testes
Os seguintes resultados foram observados a partir dos testes de cdigo que com o K variando de 1 a
11:
Distncia Euclidiana:
Valor de K = 1
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 22
Classe 2- Total: 56 Acertos: 13
Classe 3- Total: 7 Acertos: 2
Valor de K = 7
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 27
Classe 2- Total: 56 Acertos: 16
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 2
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 51.0%
______________________________________________________________
Valor de K = 11
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 29
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 5
Classe 5- Total: 4 Acertos: 1
Classe 6- Total: 19 Acertos: 17
______________________________________________________________
Percentual total de acertos: 52.0%
______________________________________________________________
Distncia Minkowski:
Valor de K=1
Potncia : 8
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 22
Classe 2- Total: 56 Acertos: 12
Classe 3- Total: 7 Acertos: 3
Valor de K=7
Potncia: 10
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 29
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 4
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 0
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 52.0%
______________________________________________________________
Valor de K=11
Potncia: 4
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 23
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 6
Classe 4- Total: 8 Acertos: 5
Classe 5- Total: 4 Acertos: 0
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 48.0%
______________________________________________________________
Distncia Manhattan:
Valor de K = 1
Total de Amostras Analisadas: 214
Total de classificaes:
Valor de K = 7
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 29
Classe 2- Total: 56 Acertos: 15
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 2
Classe 6- Total: 19 Acertos: 17
______________________________________________________________
Percentual total de acertos: 51.0%
______________________________________________________________
Valor de K = 11
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 31
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 5
Classe 5- Total: 4 Acertos: 1
Classe 6- Total: 19 Acertos: 17
______________________________________________________________
Percentual total de acertos: 53.0%
______________________________________________________________
5. Concluso
Aps os experimentos, foi possvel inferir que a porcentagem de acertos no foi muito alta devido
existncia frequente de dados no to significativos na base de dados.
Foi observado nos experimentos que para a maioria dos casos, quanto maior o nmero de amostras
vizinhas para serem avaliadas, maior a porcentagem de acertos nas classificaes.
O melhores resultados foram obtidos utilizando a distncia de Manhattan. Embora s fora obtido apenas um
aumento de 2% a 11% em relao a utilizao de outos mtodos de clculo de distncia.
O pior resultado obtido foi quando a distncia de Minkowski foi utilizada. A porcentagem de acertos caiu de
2% a 11% em relao a utilizao de outos mtodos de clculo de distncia.
6. Referncias
1. http://edirlei.3dgb.com.br/aulas/ia_2012_1/IA_Aula_16_KNN.pdf
2. pt.slideshare.net/jonmagal/knearest-neighbor