Vous êtes sur la page 1sur 6

Curso: Tecnologia em Anlise e Desenvolvimento de Sistemas

Disciplina: Inteligncia Artificial


Professora: Renata Freire
Aluna: Pmela Beatriz Lins da Silva Matrcula: 20112y6-RC0273

Resumo: Este relatrio descreve brevemente o funcionamento do KNN (K- Nearest Neighbor) em
uma determinada base de dados, descrevendo o algoritmo utilizado e os resultados obtidos nos
testes aps o treinamento.

1. Descrio
um dos algoritmos de classificao mais simples. Usado para classificar objetos com base em
exemplos de treinamento que esto mais prximos no espao de caractersticas. O algoritmo de
classificao baseia-se no vizinho mais prximo (Nearest Neighbor NN) uma tcnica amplamente
empregada para reconhecer padres. O principal objetivo desse algoritmo descobrir o vizinho mais
prximo de uma dada instncia e classificar tal instncia com a classe desse vizinho.
Ento basicamente, o kNN classifica um dado elemento de acordo com as respectivas classes dos k (k 1)
vizinhos mais prximos pertencentes a uma base de treinamentos dada. O algoritmo calcula a distncia
do elemento dado para cada elemento da base de treinamento e ento ordenar os elementos da base de
treinamento do mais prximo ao de maior distncia. Dos elementos ordenados selecionam-se apenas os k
primeiros, que servem de parmetro para a regra de classificao.

2. Algoritmo
O fluxo bsico para classificar um exemplo desconhecido com o algoritmo KNN ::

1- Calcular a distncia entre o exemplo desconhecido e o outros exemplos do conjunto de


treinamento;
2- Identificar os K vizinhos mais prximos;
3- Utilizar o valor da classe dos vizinhos mais prximos para determinar o valor de classe do exemplo
desconhecido (votao majoritria - classe mais frequente nos K vizinhos).

possvel calcular a distncia utilizando uma das trs tcnicas abaixo:

3. Pr- processamento base de dados


Para a realizar a classificao da rede foi utilizada uma base de classificao de vidros. A
base pode ser encontrada no link: http://archive.ics.uci.edu/ml/datasets/Glass+Identification .
A base fornecida possui no total: 6 classes, 9 caractersticas e 214 amostras. Como
importante normalizar os dados da base, antes do treinamento, foi removido a primeira coluna que
representava o id da amostra na base, e as classes possuam uma certa descontinuidade
(1,2,3,5,6,e 7). Ento, para fins de normalizao a classe 5 foi substituda por 4, a 6 por 5 e a
classe 7 por 6. Alm disso, foram coletadas 70 das amostras para a base de treinamento e 144
das amostras de cada classe para a base de classificao.

4. Testes
Os seguintes resultados foram observados a partir dos testes de cdigo que com o K variando de 1 a
11:

Distncia Euclidiana:
Valor de K = 1
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 22
Classe 2- Total: 56 Acertos: 13
Classe 3- Total: 7 Acertos: 2

Classe 4- Total: 8 Acertos: 8


Classe 5- Total: 4 Acertos: 2
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 45.0%
______________________________________________________________

Valor de K = 7
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 27
Classe 2- Total: 56 Acertos: 16
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 2
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 51.0%
______________________________________________________________
Valor de K = 11
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 29
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 5
Classe 5- Total: 4 Acertos: 1
Classe 6- Total: 19 Acertos: 17
______________________________________________________________
Percentual total de acertos: 52.0%
______________________________________________________________

Distncia Minkowski:
Valor de K=1
Potncia : 8
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 22
Classe 2- Total: 56 Acertos: 12
Classe 3- Total: 7 Acertos: 3

Classe 4- Total: 8 Acertos: 6


Classe 5- Total: 4 Acertos: 0
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 42.0%
______________________________________________________________

Valor de K=7
Potncia: 10
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 29
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 4
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 0
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 52.0%
______________________________________________________________
Valor de K=11
Potncia: 4
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 23
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 6
Classe 4- Total: 8 Acertos: 5
Classe 5- Total: 4 Acertos: 0
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 48.0%
______________________________________________________________

Distncia Manhattan:
Valor de K = 1
Total de Amostras Analisadas: 214
Total de classificaes:

Classe 1- Total: 50 Acertos: 25


Classe 2- Total: 56 Acertos: 15
Classe 3- Total: 7 Acertos: 3
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 2
Classe 6- Total: 19 Acertos: 18
______________________________________________________________
Percentual total de acertos: 47.0%
______________________________________________________________

Valor de K = 7
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 29
Classe 2- Total: 56 Acertos: 15
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 6
Classe 5- Total: 4 Acertos: 2
Classe 6- Total: 19 Acertos: 17
______________________________________________________________
Percentual total de acertos: 51.0%
______________________________________________________________

Valor de K = 11
Total de Amostras Analisadas: 214
Total de classificaes:
Classe 1- Total: 50 Acertos: 31
Classe 2- Total: 56 Acertos: 18
Classe 3- Total: 7 Acertos: 5
Classe 4- Total: 8 Acertos: 5
Classe 5- Total: 4 Acertos: 1
Classe 6- Total: 19 Acertos: 17
______________________________________________________________
Percentual total de acertos: 53.0%
______________________________________________________________

5. Concluso
Aps os experimentos, foi possvel inferir que a porcentagem de acertos no foi muito alta devido
existncia frequente de dados no to significativos na base de dados.

Foi observado nos experimentos que para a maioria dos casos, quanto maior o nmero de amostras
vizinhas para serem avaliadas, maior a porcentagem de acertos nas classificaes.
O melhores resultados foram obtidos utilizando a distncia de Manhattan. Embora s fora obtido apenas um
aumento de 2% a 11% em relao a utilizao de outos mtodos de clculo de distncia.
O pior resultado obtido foi quando a distncia de Minkowski foi utilizada. A porcentagem de acertos caiu de
2% a 11% em relao a utilizao de outos mtodos de clculo de distncia.

6. Referncias
1. http://edirlei.3dgb.com.br/aulas/ia_2012_1/IA_Aula_16_KNN.pdf
2. pt.slideshare.net/jonmagal/knearest-neighbor

Vous aimerez peut-être aussi