KNN em classificação de vidros

Curso: Tecnologia em Anlise e Desenvolvimento de Sistemas
Disciplina: Inteligncia Artificial

Professora: Renata Freire
Aluna: Pmela Beatriz Lins da Silva Matrcula: 20112y6-RC0273
Resumo: Este relatrio descreve brevemente o funcionamento do KNN (K- Nearest Neighbor) em
uma determinada base de dados, descrevendo o algoritmo utilizado e os resultados obtidos nos
testes aps o treinamento.
1. Descrio
um dos algoritmos de classificao mais simples. Usado para classificar objetos com base em
exemplos de treinamento que esto mais prximos no espao de caractersticas. O algoritmo de
classificao baseia-se no vizinho mais prximo (Nearest Neighbor NN) uma tcnica amplamente
empregada para reconhecer padres. O principal objetivo desse algoritmo descobrir o vizinho mais
prximo de uma dada instncia e classificar tal instncia com a classe desse vizinho.
Ento basicamente, o kNN classifica um dado elemento de acordo com as respectivas classes dos k (k 1)
vizinhos mais prximos pertencentes a uma base de treinamentos dada. O algoritmo calcula a distncia
do elemento dado para cada elemento da base de treinamento e ento ordenar os elementos da base de
treinamento do mais prximo ao de maior distncia. Dos elementos ordenados selecionam-se apenas os k
primeiros, que servem de parmetro para a regra de classificao.
2. Algoritmo
O fluxo bsico para classificar um exemplo desconhecido com o algoritmo KNN ::
1- Calcular a distncia entre o exemplo desconhecido e o outros exemplos do conjunto de

treinamento;
2- Identificar os K vizinhos mais prximos;
3- Utilizar o valor da classe dos vizinhos mais prximos para determinar o valor de classe do exemplo
desconhecido (votao majoritria - classe mais frequente nos K vizinhos).
possvel calcular a distncia utilizando uma das trs tcnicas abaixo:
3. Pr- processamento base de dados

Para a realizar a classificao da rede foi utilizada uma base de classificao de vidros. A
base pode ser encontrada no link: http://archive.ics.uci.edu/ml/datasets/Glass+Identification .
A base fornecida possui no total: 6 classes, 9 caractersticas e 214 amostras. Como
importante normalizar os dados da base, antes do treinamento, foi removido a primeira coluna que
representava o id da amostra na base, e as classes possuam uma certa descontinuidade
(1,2,3,5,6,e 7). Ento, para fins de normalizao a classe 5 foi substituda por 4, a 6 por 5 e a
classe 7 por 6. Alm disso, foram coletadas 70 das amostras para a base de treinamento e 144
das amostras de cada classe para a base de classificao.
4. Testes
Os seguintes resultados foram observados a partir dos testes de cdigo que com o K variando de 1 a
11:
Distncia Euclidiana:
Valor de K = 1
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 22

______________________________________________________________
Percentual total de acertos: 45.0%
______________________________________________________________
Valor de K = 7
______________________________________________________________
______________________________________________________________
Valor de K = 11
______________________________________________________________
______________________________________________________________
Distncia Minkowski:
Valor de K=1
Potncia : 8

______________________________________________________________
______________________________________________________________
Valor de K=7
Potncia: 10
______________________________________________________________
______________________________________________________________
Valor de K=11
Potncia: 4
______________________________________________________________
______________________________________________________________
Distncia Manhattan:
Valor de K = 1

______________________________________________________________
______________________________________________________________
Valor de K = 7
______________________________________________________________
______________________________________________________________
Valor de K = 11
______________________________________________________________
______________________________________________________________
5. Concluso
Aps os experimentos, foi possvel inferir que a porcentagem de acertos no foi muito alta devido
existncia frequente de dados no to significativos na base de dados.
Foi observado nos experimentos que para a maioria dos casos, quanto maior o nmero de amostras
vizinhas para serem avaliadas, maior a porcentagem de acertos nas classificaes.
O melhores resultados foram obtidos utilizando a distncia de Manhattan. Embora s fora obtido apenas um
aumento de 2% a 11% em relao a utilizao de outos mtodos de clculo de distncia.
O pior resultado obtido foi quando a distncia de Minkowski foi utilizada. A porcentagem de acertos caiu de
2% a 11% em relao a utilizao de outos mtodos de clculo de distncia.
6. Referncias
1. http://edirlei.3dgb.com.br/aulas/ia_2012_1/IA_Aula_16_KNN.pdf
2. pt.slideshare.net/jonmagal/knearest-neighbor

KNN em classificação de vidros

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

KNN em classificação de vidros

Transféré par

Droits d'auteur :

Formats disponibles

Curso: Tecnologia em Anlise e Desenvolvimento de Sistemas

Disciplina: Inteligncia Artificial

1- Calcular a distncia entre o exemplo desconhecido e o outros exemplos do conjunto de

possvel calcular a distncia utilizando uma das trs tcnicas abaixo:

3. Pr- processamento base de dados

Classe 4- Total: 8 Acertos: 8

Classe 4- Total: 8 Acertos: 6

Classe 1- Total: 50 Acertos: 25

Vous aimerez peut-être aussi