2011 Dis Clcmattos

Universidade Federal do Cear
Departamento de Engenharia de Teleinformtica

Programa de Ps-Graduao em Engenharia de Teleinformtica
Csar Lincoln Cavalcante Mattos
Comits de Classicadores Baseados nas Redes
SOM e Fuzzy ART com Sintonia de Parmetros e
Seleo de Atributos via Metaheursticas
Evolucionrias
Fortaleza Cear
Novembro 2011
Csar Lincoln Cavalcante Mattos
Comits de Classicadores Baseados nas Redes SOM e Fuzzy
ART com Sintonia de Parmetros e Seleo de Atributos via
Metaheursticas Evolucionrias
Dissertao de Mestrado apresentada
Coordenao do Programa de
Ps-Graduao em Engenharia de
Teleinformtica da Universidade
Federal do Cear como parte dos
requisitos para obteno do grau
de Mestre em Engenharia de
Teleinformtica.
rea de Concentrao: Sinais e
Sistemas
Orientador : Prof. Dr. Guilherme de
Alencar Barreto
Fortaleza Cear
Novembro 2011
Resumo
O
paradigma de classicao baseada em comits tem recebido considervel
ateno na literatura cientca em anos recentes. Neste contexto, redes neurais
supervisionadas tm sido a escolha mais comum para compor os classicadores
base dos comits. Esta dissertao tem a inteno de projetar e avaliar comits
de classicadores obtidos atravs de modicaes impostas a algoritmos de
aprendizado no-supervisionado, tais como as redes Fuzzy ART e SOM, dando
origem, respectivamente, s arquiteturas ARTIE (ART in Ensembles) e MUSCLE
(Multiple SOM Classiers in Ensembles). A sintonia dos parmetros e a seleo
dos atributos das redes neurais que compem as arquiteturas ARTIE e MUSCLE
foram tratados por otimizao metaheurstica, a partir da proposio do algoritmo
I-HPSO (Improved Hybrid Particles Swarm Optimization). As arquiteturas ARTIE
e MUSCLE foram avaliadas e comparadas com comits baseados nas redes Fuzzy
ARTMAP, LVQ e ELM em 12 conjuntos de dados reais. Os resultados obtidos
indicam que as arquiteturas propostas apresentam desempenhos superiores aos dos
comits baseados em redes neurais supervisionadas.
Palavras-chaves: Redes Neurais Competitivas, Redes Fuzzy ART,
Redes SOM, Comits de Classicadores, Algoritmos Metaheursticos
Abstract
T
he ensemble-based classication paradigm has received considerable attention
in scientic literature in recent years. In this context, supervised neural
networks have been the most common choice for ensembles base classiers. This
dissertation has the intention of projecting and evaluating ensembles of classiers
built through modications on non-supervised learning algorithms, such as the
Fuzzy ART and SOM networks, originating, respectively, the ARTIE (ART in
Ensembles) and MUSCLE (Multiple SOM Classiers in Ensembles) models. The
parameters tunning and the feature selection of the neural networks which compose
the ARTIE and MUSCLE models were tackled by metaheuristic optimization,
with the proposal of the I-HPSO (Improved Hybrid Particles Swarm Optimization)
algorithm. The ARTIE and MUSCLE models were evaluated and compared
with ensembles based on Fuzzy ARTMAP, LVQ and ELM networks in 12 real
world datasets. The obtained results indicate that the proposed models present
performance superior to the ensembles of supervised neural networks.
Keywords: Competitive Neural Networks, Fuzzy ART Network,
SOM Network, Ensembles of Classiers, Metaheuristic Algorithms
Dedico este trabalho aos meus pais, Fernando Lincoln e Carmen,
pelo apoio indispensvel e incondicional.
Agradecimentos
Aos meus pais, Fernando Lincoln e Carmen, cujos ensinamentos preciosos me
permitiram ter a pacincia e dedicao necessrias para mais esta realizao,
minha irm, Fernanda, e aos amigos extra-universidade, por me permitirem
momentos de lazer fundamentais para a execuo deste trabalho,
Aos estudantes de ps-graduao em Engenharia de Teleinformtica, pelos
momentos de estudo e descontrao,
Ao Professor Guilherme de Alencar Barreto, pela conana, incentivo e
dedicao constante durante todo o perodo de orientao, sendo apoio fundamental
para a realizao desta dissertao,
Aos demais professores do Departamento de Engenharia de Teleinformtica,
pelas importantes discusses durante o meu curso de mestrado,
Universidade Federal do Cear, por permitir este importante passo na minha
carreira prossional.
A razo pode responder perguntas, mas a imaginao tem que pergunt-las.
Ralph Gerard
Sumrio
Lista de Figuras xi
Lista de Tabelas xii
Lista de Smbolos xiv
Lista de Siglas xvi
1 Introduo 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Objetivos Especcos . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Publicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Organizao da Dissertao . . . . . . . . . . . . . . . . . . . . . . . 5
2 Fundamentos de Comits de Classicadores 6
2.1 Combinao de resultados de classicadores . . . . . . . . . . . . . . 6
2.2 Diversividade em comits de classicadores . . . . . . . . . . . . . . . 8
2.3 Reviso Bibliogrca . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Redes Neurais Competitivas 14
3.1 Redes Neurais Competitivas No-Supervisionadas . . . . . . . . . . . 14
vi
3.1.1 Redes Fuzzy ART . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1.1 Arquitetura da rede Fuzzy ART . . . . . . . . . . . . 16
3.1.1.2 Treinamento da rede Fuzzy ART . . . . . . . . . . . 18
3.1.1.3 Interpretao geomtrica da Rede Fuzzy ART . . . . 19
3.1.1.4 O papel dos parmetros ajustveis . . . . . . . . . . 22
3.1.2 Redes SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.2.1 Arquitetura Geral . . . . . . . . . . . . . . . . . . . 25
3.1.2.2 Treinamento da rede SOM . . . . . . . . . . . . . . . 26
3.1.2.3 Sobre a convergncia da rede SOM . . . . . . . . . . 28
3.1.3 Comparao entre as redes Fuzzy ART e SOM . . . . . . . . . 30
3.2 Redes Neurais Competitivas Supervisionadas . . . . . . . . . . . . . . 32
3.2.1 Redes Fuzzy ARTMAP . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1.1 Arquitetura da rede Fuzzy ARTMAP . . . . . . . . . 33
3.2.1.2 Treinamento da rede Fuzzy ARTMAP . . . . . . . . 35
3.2.1.3 Interpretao geomtrica da Rede Fuzzy ARTMAP . 36
3.2.2 Redes Learning Vector Quantization (LVQ) . . . . . . . . . . 38
3.2.2.1 Arquitetura geral das redes LVQ . . . . . . . . . . . 39
3.2.2.2 Algoritmo OLVQ1 . . . . . . . . . . . . . . . . . . . 40
3.3 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4 Arquiteturas ARTIE e MUSCLE 46
4.1 Redes Neurais No-Supervisionadas para Classicao . . . . . . . . . 46
4.1.1 Rotulao a Posteriori por Voto Majoritrio (C1) . . . . . . . 47
4.1.2 Rotulao a Priori por Redes Individuais (C2) . . . . . . . . . 49
4.1.3 Rotulao Auto-Supervisionada (C3) . . . . . . . . . . . . . . 50
4.2 Arquitetura ARTIE: ART in Ensembles . . . . . . . . . . . . . . . . 52
4.3 Arquitetura MUSCLE: Multiple SOM Classiers in Ensembles . . . . 54
4.4 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 Otimizao Metaheurstica: Fundamentos e um Novo Algoritmo 56
5.1 Denio do Problema de Otimizao . . . . . . . . . . . . . . . . . . 56
vii
5.2 Otimizao estocstica . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Mtodos metaheursticos . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4 Otimizao por Enxame de Partculas . . . . . . . . . . . . . . . . . . 59
5.4.1 PSO original . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.4.2 PSO padro 2007 . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.4.2.1 Algoritmo PSO padro 2007 . . . . . . . . . . . . . . 61
5.4.3 Algoritmo PSO binrio . . . . . . . . . . . . . . . . . . . . . . 63
5.5 Uma Verso Hbrida Melhorada do Algoritmo PSO . . . . . . . . . . 65
5.5.1 Recozimento Simulado . . . . . . . . . . . . . . . . . . . . . . 65
5.5.2 Algoritmo I-HPSO (Improved Hybrid PSO) . . . . . . . . . . 66
5.6 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6 Metodologia de Projeto e Comparao 72
6.1 Construo dos Comits de Classicadores . . . . . . . . . . . . . . . 72
6.2 Otimizao Metaheurstica dos Classicadores Base . . . . . . . . . . 74
6.3 Comparao de Desempenho via Teste de Hiptese . . . . . . . . . . 76
6.3.1 Teste t-Pareado . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.2 Teste de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . 78
6.4 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7 Resultados Experimentais 81
7.1 Experimentos de otimizao dos classicadores base . . . . . . . . . . 82
7.2 Resultados de classicao . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 Testes estatsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.4 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8 Concluses e Perspectivas 102
8.1 Perspectivas para trabalhos futuros . . . . . . . . . . . . . . . . . . . 103
A Redes ELM 105
B Tabela de Valores para o Teste t-Pareado 107
viii
C Tabela de Valores Crticos para o Teste de Wilcoxon 108
Referncias Bibliogrcas 120
ix
Lista de Figuras
3.1 Diagrama de blocos da rede Fuzzy ART. . . . . . . . . . . . . . . . . 17
3.2 Interpretao geomtrica da evoluo dos pesos da rede Fuzzy ART. . 22
3.3 Efeito da variao do parmetro de vigilncia na rede Fuzzy ART. . . 23
3.4 Efeito da variao do parmetro de escolha na rede Fuzzy ART. . . . 24
3.5 Exemplo de rede SOM bidimensional. . . . . . . . . . . . . . . . . . . 26
3.6 Mapeamento entre espaos realizado pela rede SOM. . . . . . . . . . 26
3.7 Exemplos de decaimento do parmetro da rede SOM. . . . . . . . . 30
3.8 Efeito do treinamento da rede SOM nos pesos dos neurnios. . . . . . 31
3.9 Exemplo de convergncia da rede SOM. . . . . . . . . . . . . . . . . . 31
3.10 Diagrama de blocos da rede Fuzzy ARTMAP. . . . . . . . . . . . . . 34
3.11 Exemplo de operao da rede Fuzzy ARTMAP. . . . . . . . . . . . . 38
3.12 Diagrama de blocos de uma rede LVQ. . . . . . . . . . . . . . . . . . 39
3.13 Exemplo de diagrama de Voronoi para dados bidimensionais. . . . . . 41
3.14 Exemplo de aplicao da rede OLVQ1 a um conjunto de dados
bidimensionais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1 Ilustrao da rotulao a posteriori por voto majoritrio. . . . . . . . 47
4.2 Ilustrao da etapa de treinamento da rotulao a priori por redes
individuais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Ilustrao da etapa de teste da rotulao a priori por redes individuais. 51
4.4 Arquiteturas dos modelos ARTIE e MUSCLE. . . . . . . . . . . . . . 53
5.1 Topologias de enxame mais comuns na aplicao do algoritmo PSO. . 60
x
6.1 Fluxograma da metodologia de projeto e avaliao dos comits de
classicadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.2 Diagrama de blocos do processo de otimizao do classicador base. . 75
7.1 Processo de otimizao dos classicadores base ELM, FAM e LVQ via
algoritmo I-HPSO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2 Processo de otimizao dos classicadores base Fuzzy ART e SOM
via algoritmo I-HPSO. . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3 Histogramas dos atributos selecionados para os classicadores base
ELM, FAM e LVQ via algoritmo I-HPSO. . . . . . . . . . . . . . . . 87
7.4 Histogramas dos atributos selecionados para os classicadores base
Fuzzy ART e SOM via algoritmo I-HPSO. . . . . . . . . . . . . . . . 88
7.5 Mdia de atributos usados pelos classicadores base otimizados para
o conjunto de dados Heart. . . . . . . . . . . . . . . . . . . . . . . . . 89
7.6 Grcos de caixa dos classicadores e comits de classicadores
avaliados (Parte 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
avaliados (Parte 2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
avaliados (Parte 3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
avaliados (Parte 4). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
xi
Lista de Tabelas
3.1 Comparao entre as redes Fuzzy ART e SOM. . . . . . . . . . . . . 32
6.1 Vetores de solues usados na otimizao metaheurstica dos
classicadores base dos comits avaliados. . . . . . . . . . . . . . . . . 76
6.2 Situaes possveis na aplicao do teste t-pareado. . . . . . . . . . . 77
7.1 Resumo dos conjuntos de dados usados nos testes. . . . . . . . . . . . 81
7.2 Parmetros do algoritmo I-HPSO durante a otimizao dos
classicadores base para os conjuntos de dados avaliados. . . . . . . . 82
7.3 Valores mdios para os parmetros otimizados via I-HPSO para o
conjunto Heart. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.4 Resultados obtidos nos problemas de classicao (Parte 1). . . . . . 90
7.5 Resultados obtidos nos problemas de classicao (Parte 2). . . . . . 91
7.6 Resultados do teste t-pareado para os 12 conjuntos de dados usados. . 99
7.7 Resultados do teste de Wilcoxon para os 12 conjuntos de dados usados.100
B.1 Tabela resumida de valores crticos para teste t-pareado. . . . . . . . 107
C.1 Tabela resumida de valores crticos para teste de Wilcoxon. . . . . . . 108
xii
Lista de Algoritmos
2.1 Algoritmo Bagging com voto majoritrio simples. . . . . . . . . . . . 10
3.1 Algoritmo de treinamento da rede Fuzzy ART. . . . . . . . . . . . . . 20
3.2 Algoritmo de treinamento da rede SOM. . . . . . . . . . . . . . . . . 29
3.3 Algoritmo de treinamento da rede Fuzzy ARTMAP. . . . . . . . . . . 37
3.4 Algoritmo de treinamento da rede OLVQ1. . . . . . . . . . . . . . . . 43
5.1 Algoritmo I-HPSO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Busca Local do algoritmo I-HPSO. . . . . . . . . . . . . . . . . . . . 70
xiii
Lista de Smbolos
L Nmero de classicadores do comit
g() Operador de agregao do comit de classicadores
N Nmero de amostras disponveis para treinamento
a Vetor de atributos que representa um padro
x
i
i-simo vetor de entrada no classicador
y
i
Classe do vetor de entrada x
i
W Matriz de pesos neuronais
w
i
i-simo vetor de pesos neuronais
Parmetro de vigilncia
Parmetro de escolha
Parmetro de aprendizado
0
Valor inicial do parmetro
f
Valor nal do parmetro
Operador de mnimo fuzzy
N
w Nmero de neurnios da rede
N
c
Nmero de neurnios por classe da rede LVQ
t Vetor de aptides dos neurnios das redes ART
X Espao de entrada contnuo da rede SOM
Y Espao de sada discreto da rede SOM
P
1
P
2 Dimenses de uma rede SOM bidimensional
h() Funo de vizinhana da rede SOM
r
i
Posio do i-simo neurnio na rede SOM
Parmetro de largura de vizinhana da rede SOM
0
Valor inicial do parmetro
f
Valor nal do parmetro
n Iterao de treinamento atual
n
MAX
Nmero mximo de iteraes de treinamento
C Nmero de classes do problema analisado
W Matriz de pesos da camada Inter-MAP da rede Fuzzy ARTMAP
w
i
i-simo vetor de pesos da camada Inter-MAP da rede Fuzzy ARTMAP
f() Funo objetivo
x
i
Vetor de posio da i-sima partcula (PSO)
xiv
v
i
Vetor de velocidade da i-sima partcula
p
i
Vetor de melhor posio histrica da i-sima partcula
pl
k
Vetor de melhor posio histrica da k-sima vizinhana de partculas
x
min
Vetor dos menores valores possveis para as variveis de uma soluo
x
max
Vetor dos os maiores valores possveis para as variveis de uma soluo
c
1
e c
2
Coecientes aceleradores
Fator de constrio
SA Passo de controle do Recozimento Simulado

t Parmetro de temperatura do Recozimento Simulado
Taxa de recozimento
L
PSO
Nmero de iteraes da etapa PSO do algoritmo I-HPSO
L
SA
Nmero de iteraes da etapa de Recozimento Simulado do algoritmo
I-HPSO
xv
Lista de Siglas
ART (Adaptive Resonance Theory)
ARTIE (ART in Ensembles)
ELM (Extreme Learning Machine)
HPSO (Hybrid Particles Swarm Optimization)
I-HPSO (Improved Hybrid Particles Swarm Optimization)
LVQ (Learning Vector Quantization)
MUSCLE (Multiple SOM Classiers in Ensembles)
PSO (Particles Swarm Optimization)
RNA (Redes Neurais Articiais)
SA (Simulated Annealing)
SOM (Self-Organizing Maps)
xvi
Captulo 1
Introduo
A classicao de amostras desconhecidas um problema recorrente na pesquisa
cientca. Seja no diagnstico de doenas (ROCHA NETO; BARRETO, 2009), no
reconhecimento de faces (MONTEIRO, 2009), no controle de qualidade (NIEMINEN
et al., 2011), na deteco de invases a sistemas computacionais (PILLAY, 2011),
dentre outras, o ato de reconhecer e categorizar diferentes objetos ou situaes
necessrio.
A tarefa de reconhecimento de padres pode ser denida informalmente como
o processo pelo qual a uma nova amostra atribuda uma dentre um nmero
pr-denido de classes (HAYKIN, 2008). Enquanto seres humanos costumam ter
facilidade em reconhecer diferentes padres (e.g. faces, sons, objetos, etc.), o
desenvolvimento de mtodos computacionais que sejam, pelos menos em parte,
capazes de tal feito objetivo contnuo de muitos estudos.
Uma abordagem especialmente interessante consiste em modelar certas
caractersticas do crebro humano que lhe permite realizar tarefas complexas, como
o reconhecimento de padres. Esses modelos, chamados genericamente de Redes
Neurais Articiais (RNA), so capazes de adquirir e armazenar conhecimento atravs
de um processo de aprendizado (HAYKIN, 2008).
Algumas caractersticas importantes das RNAs podem ser destacadas (SILVA;
SPATTI; FLAUZINO, 2010):
- Adaptao por experincia: os parmetros internos da rede so ajustados
a partir da apresentao de exemplos (e.g. padres de treinamento);
1
1.1. Motivao 2
- Habilidade de generalizao: em geral, RNAs buscam otimizar o erro
emprico, ou seja, o erro no conjunto de treinamento. Apesar de no haver
garantia de bom desempenho em um conjunto de teste, constata-se que RNAs
so capazes de estimar solues a partir da generalizao do conhecimento
adquirido;
- Organizao dos dados: atravs da organizao interna de sua arquitetura,
uma RNA capaz de reconhecer dados com padres semelhantes.
Em problemas de classicao de padres, deseja-se que a RNA consiga estimar
o rtulo de uma amostra desconhecida a partir da generalizao do conhecimento
adquirido durante uma fase anterior de treinamento, realizada a partir de uma
quantidade nita de padres de treinamento. Dessa maneira, o projeto de um
classicador neural envolve a determinao de uma arquitetura de RNA, a escolha
de um algoritmo de treinamento e a disposio de um conjunto de padres para
treinamento.
Assim como um grupo de especialistas (e.g. uma junta mdica) pode se
reunir para, a partir de diferente pontos de vista, resolver uma questo complexa,
classicadores de padres tambm podem ser agrupados em comits. Dessa maneira,
surgem sistemas cuja resposta composta pela associao de decises de mltiplos
classicadores, com a inteno de obter menores erros de generalizao.
Nos ltimos anos diferentes estratgias de construo de comits de
classicadores tem sido alvo de pesquisas diversas (GUNES; M.; PETITRENAUD,
2010). de interesse desta dissertao contribuir com os estudos nesse tpico.
1.1 Motivao
Classicadores neurais so tipicamente obtidos a partir de tcnicas de
aprendizagem supervisionada, tais como redes MLP (Multi-Layer Perceptron) e RBF
(Radial Basis Function) (HAYKIN, 2008), redes Fuzzy ARTMAP (CARPENTER;
GROSSBERG; REYNOLDS, 1991), redes LVQ (Learning Vector Quantization)
(KOHONEN, 1988a) e, mais recentemente, redes ELM (Extreme Learning Machine)
(HUANG; ZHU; SIEW, 2004). Uma caracterstica comum a esses mtodos a
necessidade do conhecimento das classes dos exemplos usados na fase de treinamento.
Algoritmos de aprendizagem no-supervisionada, como rede SOM
(Self-Organizing Maps) (KOHONEN, 1982), rede ART2 (Adaptive Resonance
1.2. Objetivos 3
Theory 2) (CARPENTER; GROSSBERG, 1987c) e rede Fuzzy ART
(CARPENTER; GROSSBERG; ROSEN, 1991), costumam ser aplicados em
problemas de agrupamento de dados, quantizao vetorial e reduo de
dimensionalidade. Entretanto, possvel usar tais tcnicas em tarefas de
classicao de padres a partir de modicaes nos seus processos de aprendizagem.
Em Monteiro et al. (2006) so listadas alguns desses mtodos, com nfase na rede
SOM. Existe a possibilidade de aplicao dos mesmos mtodos em redes no
supervisionadas da famlia ART, assunto ainda no explorado na literatura.
As redes Fuzzy ART e SOM compartilham com as redes Fuzzy ARTMAP e LVQ
o paradigma da aprendizagem competitiva, em que neurnios da rede se especializam
em representar determinados grupos de padres (HAYKIN, 2008). de interesse
desta dissertao explorar o uso de redes desse tipo em problemas de classicao de
padres, mais especicamente na composio de comits, uma vez que este assunto
no tem sido amplamente abordado na literatura especializada.
RNAs de uma maneira geral apresentam um conjunto de parmetros a serem
determinados antes da etapa de treinamento. comum obter valores para tais
parmetros a partir de mtodos de busca exaustiva, como o chamado grid search
(LIN; CHANG; HSU, 2004). Pode-se ainda abordar o problema de escolha desses
parmetros como um problema de otimizao do algoritmo de treinamento. Uma
alternativa vivel o uso de tcnicas de otimizao estocstica (LVBJERG,
2002). Mtodos de otimizao metaheursticos, tais como Otimizao por Enxame
de Partculas (PSO, Particles Swarm Optimization) (KENNEDY; EBERHART,
1995), Algoritmos Genticos (AG) (HOLLAND, 1975), Recozimento Simulado (SA,
Simulated Annealing) (KIRKPATRICK et al., 1983) e Otimizao por Colnia de
Formigas (ACO, Ant Colony Optimization) (DORIGO, 1992), so exemplos dessa
ltima categoria de ferramenta, que far parte da metodologia desta dissertao.
1.2 Objetivos
O objetivo geral desta dissertao, assim como seus objetivos especcos, so
apresentados nesta seo.
1.2.1 Objetivo Geral
O principal objetivo desta dissertao consiste em construir e avaliar comits
de classicadores de padres obtidos a partir de redes neurais competitivas
1.3. Publicaes 4
supervisionadas e no-supervisionadas. Includo nesse objetivo est uma abordagem
metaheurstica para a tarefa de otimizao dos parmetros dos classicadores e
seleo de atributos usados.
1.2.2 Objetivos Especcos
Os objetivos especcos desta dissertao esto listados a seguir:
1 Construir comits de classicadores baseados nas redes neurais supervisionadas
Fuzzy ARTMAP, LVQ e ELM.
2 Desenvolver um modelo de comit de classicadores baseados na rede Fuzzy
ART.
3 Desenvolver um modelo de comit de classicadores baseados na rede SOM.
4 Propor um novo algoritmo de otimizao hbrido metaheurstico para sintonia
de parmetros e seleo de atributos dos classicadores de padres a serem
usados nos comits de classicadores.
5 Comparar os comits de classicadores avaliados atravs de testes estatsticos.
1.3 Publicaes
Os resultados parciais do presente trabalho foram reunidos nos artigos cientcos
listados a seguir.
- "ARTIE and MUSCLE Models: Building Ensemble Classiers from Fuzzy
ART and SOM Networks", submetido ao peridico Neural Computing &
Applications e aceito para publicao.
- "On the Use of Fuzzy ART and SOM Networks in Ensemble Classiers:
A Performance Comparison", apresentado no VIII Encontro Nacional de
Inteligncia Articial.
Sobre outra aplicao do algoritmo metaheurstico hbrido proposto, foram
submetidos ainda os artigos cientcos a seguir.
1.4. Organizao da Dissertao 5
- "An Improved Hybrid Particle Swarm Optimization Algorithm Applied to
Economic Modeling of Radio Resource Management", submetido ao peridico
Memetic Computing Journal, aguardando conrmao de aceitao.
- "Economic Modeling of Radio Resource Management: A Novel Metaheuristic
Approach", apresentado no XXIX Simpsio Brasileiro de Telecomunicaes.
1.4 Organizao da Dissertao
O restante desta dissertao est organizado da seguinte forma:
No Captulo 2 so descritos os passos envolvidos no processo de construo de
comits de classicadores.
O Captulo 3 faz um resumo dos algoritmos de aprendizado das redes neurais
competitivas Fuzzy ART, Fuzzy ARTMAP, SOM e LVQ.
O Captulo 4 introduz duas novas arquiteturas de comits de classicadores,
uma baseada na rede SOM e outra basada na rede Fuzzy ART.
O Captulo 5 resume as operaes e conceitos que suportam a tcnica de
otimizao metaheurstica baseada no algoritmo PSO, voltada para sintonia
dos parmetros e seleo de atributos das redes que compem os comits de
classicadores propostos.
O Captulo 6 descreve as metodologias usadas para construo e avaliao
dos comits de classicadores a partir das redes neurais listadas nos Captulos
3 e 4 e da tcnica de otimizao metaheurstica introduzida no Captulo 5.
Tambm so apresentados neste captulo os mtodos de avaliao estatstica
a serem usados.
No Captulo 7 so apresentados e discutidos os resultados obtidos a partir de
simulaes computacionais.
No Captulo 8 so feitas as concluses nais e perspectivas para futuros
trabalhos.
Captulo 2
Fundamentos de Comits de
Classicadores
Um comit de classicadores de padres pode ser analisado como uma coleo
de classicadores individuais que apresentam diversidade em sua construo e que
conduzem a uma maior capacidade de generalizao do que quando trabalhando
em separado (DIETTERICH, 2000). sabido ainda que comits garantem erro
quadrtico mdio e varincia menores ou iguais aos classicadores que o compem
(KROGH; VEDELSBY, 1995; HAYKIN, 2008), sendo portanto tema relevante para
a rea de reconhecimento de padres.
Neste captulo so discutidos conceitos fundamentais para a utilizao de
comits, mais especicamente a combinao de classicadores, o papel da diversidade
em um comit e a caracterizao dos classicadores base que o compe quanto ao
paradigma de aprendizado usado.
2.1 Combinao de resultados de classicadores
Seja uma coleo de L classicadores de padres, ao utiliz-los em comits
preciso denir tambm um mtodo para combinar as respostas dos classicadores
isolados, denominados neste trabalho classicadores base. Seja um determinado
padro de teste, caracterizado pelo vetor de entrada x R
D
. Seja ainda o cdigo
da classe, ou rtulo, inferida pelo classicador base l para essa entrada denida por
Y
l
(x). A combinao de L resultados como este pode ser descrita matematicamente
6
2.1. Combinao de resultados de classicadores 7
por (KUNCHEVA; JAIN, 2000)
Y
(x) = g(Y
1
(x), Y
2
(x) , Y
L
(x)), (2.1)
em que Y

(x) a sada do comit formado pelos L classicadores base considerados
e g() um operador de agregao.
Uma das formas mais simples de realizar a combinao anterior por votao
(KOTSIANTIS; ZAHARAKIS; PINTELAS, 2006). No caso de votao majoritria
simples, cada classicador base tem direito a votar em uma classe, sendo a classe
mais votada a escolhida para representar a amostra na entrada do comit.
Seja y
l
(x) R
C
o vetor de sada do l-simo classicador base para uma entrada
x, em que C o nmero de classes possveis e o vetor y
l
(x) binrio e possui
somente uma componente no-nula, em geral, de valor 1.
Seja ainda v(x) R
C
= um vetor de votos em que cada elemento v
k
(x), k =
1, 2, . . . , C possui um valor proporcional frequncia de escolha da classe k entre os
classicadores base. O vetor v(x) pode ser calculado pela Equao (2.2) (ROCHA
NETO; BARRETO, 2009).
v(x) =
L
l=1
y
l
(x) = [v
1
(x), , v
C
(x)]
T
. (2.2)
Finalmente, a classe Y
(x) inferida pelo comit para a amostra x ser dada por

Y
(x) = arg max

k=1,2,...,C
{v
k
(x)} . (2.3)
Este sistema pode ainda ser aplicado de forma ponderada, em que cada
classicador base recebe antes da votao um peso proporcional ao seu nvel de
conana, determinado, por exemplo, pelo seu desempenho em um conjunto de
validao (KOTSIANTIS; ZAHARAKIS; PINTELAS, 2006). Nesse caso, o vetor
de votos seria dados por v(x) =
L
l=1
w
l
y
l
(x), em que w
l
o peso dado ao l-simo
classicador.
Alguns autores investigam formas de combinar no-linearmente as sadas dos
classicadores base, utilizando para tanto um algoritmo de aprendizagem adicional,
denominado mtodo de meta-aprendizagem, tais como algoritmos de cascateamento
2.2. Diversividade em comits de classicadores 8
(GAMA; BRAZDIL, 2000) e rvores de meta-deciso (TODOROVSKI; DEROSKI,
2003).
A escolha de qual mtodo de combinao o mais adequado depende da
metodologia de formao do comit de classicadores, como por exemplo, o mtodo
escolhido para promover diversidade entre os classicadores base, como ser visto
na prxima sesso.
2.2 Diversividade em comits de classicadores
Caso os classicadores base da Equao (2.1) fossem todos idnticos, i.e.
apresentassem as mesmas sadas para um dado conjunto de entradas, o comit
resultante no teria qualquer incremento na sua capacidade de generalizao em
relao aos classicadores que o compe. Por esse motivo, mtodos de formao de
comits de classicadores buscam gerar diversidade nos classicadores base (ZHOU;
WU; TANG, 2002).
Uma primeira abordagem consiste em construir diferentes conjuntos de
treinamento para cada um dos classicadores base. Esta estratgia explorada por
algoritmos populares, como Bagging (Bootstrap Aggregating) (BREIMAN, 1996) e
Boosting (FREUND; SCHAPIRE, 1995; SCHWENK; BENGIO, 2000).
A estrategia Bagging cria L subconjuntos de treinamento ao amostrar
aleatoriamente, com reposio, exemplos de um conjunto de treinamento original.
Por causa da reposio durante a amostragem, os subconjuntos formados podem
conter exemplos duplicados e omisses de exemplos. Para subconjuntos de tamanho
N, amostrados a partir de um conjunto de treinamento tambm com N exemplos,
tem-se a probabilidade de
_
N1
N
_
N
para que uma determinada amostrada no
seja selecionada em um dos subconjuntos. Para N sucientemente grande, esta
probabilidade pode ser aproximada para
_
N1
N
_
N
e
1
0, 368.
Assim como a estratgia Bagging, o objetivo das estratgias de Boosting tambm
gerar subconjuntos de treinamento diversos. Entretanto, nos mtodos de Boosting
esse procedimento feito de formal serial, em que um classicador treinado por
vez. O algoritmo AdaBoost (Adaptive Boosting) (FREUND; SCHAPIRE, 1995), por
exemplo, mantm um conjunto de pesos para cada um dos exemplos no conjunto
de treinamento original. Esses pesos so incrementados no caso de classicao
incorreta ou decrementados, no caso de classicao correta (DIETTERICH,
2.3. Reviso Bibliogrca 9
2000). Dessa forma, o prximo classicador treinado ressaltando-se os exemplos
incorretamente classicados pelos classicadores anteriores.
Existem diferenas substanciais entre as estratgias Bagging e Boosting. A
diferena mais imediata a capacidade de se treinar mltiplos classicadores em
paralelo atravs de Bagging, enquanto ao aplicar Boosting o treinamento deve ser
sequencial.
Nos experimentos realizados em Bauer e Kohavi (1999) chega-se concluso que,
na presena de rudo, tcnicas de Boosting so inadequadas. Essa caracterstica
previsvel, pois durante a aplicao de Boosting, os exemplos incorretamente
classicados so ressaltados, buscando a minimizao do erro de classicao durante
a etapa de treinamento. Conclui-se ainda em Bauer e Kohavi (1999) que, apesar
de tcnicas de Boosting serem mais efetivas que Bagging (em mdia) em reduzir o
erro de generalizao, para conjuntos de dados ruidosos, o desempenho da estratgia
Boosting degradado em relao a um nico classicador. Por outro lado, Bagging
se mostrou efetivo em todos os conjuntos de dados estudados em Bauer e Kohavi
(1999).
A presente dissertao pretende aplicar comits de classicadores a problemas
diversos de classicao de padres. Dessa forma, buscando evitar degradao de
desempenho na presena de rudo, esta dissertao utilizar Bagging como mtodo
promoo de diversidade em comits de classicadores. A estratgia Bagging com
deciso tomada por voto majoritrio simples est descrito no Algoritmo 2.1.
Existem ainda outras tcnicas para promover diversidade em comits de
classicadores. Uma possvel abordagem diversicar o processo de aprendizagem
dos classicadores base ao aplicar diferentes conjuntos de parmetros, pesos iniciais
(no caso de redes neurais) ou at mesmo usar topologias diferentes (MACLIN;
SHAVLIK, 1995). Outra possibilidade a escolha de diferentes subconjuntos de
atributos dos exemplos disponveis para treinamento para cada classicador base
(TSYMBAL; PECHENIZKIY; CUNNINGHAM, 2005).
2.3 Reviso Bibliogrca
Dois principais requisitos para a formao de comits de classicadores ecientes
so que seus classicadores base sejam instveis e fracos (weak learners) (HANSEN;
SALAMON, 2002). Um classicador considerado instvel se pequenas variaes
Algoritmo 2.1 Algoritmo Bagging com voto majoritrio simples.
Constantes
L: nmero de classicadores base
D: dimenso dos padres de entrada
C: nmero de classes do problema
N: nmero de amostras disponveis para treinamento
Q: nmero de amostras disponveis para teste
Entradas
X = [x
1
x
2
x
N
]: matriz de padres de treinamento (classe conhecida), dimenso DN
A = [a
1
a
2
a
Q
]: matriz de padres de teste (classe desconhecida), dimenso D Q
Algoritmo
1. Para cada classicador base l (l = 1, 2, . . . , L)
1.1 Criar a matriz de treinamento X
l
a partir da amostragem com
reposio de N colunas de X
1.2 Treinar o l-simo classicador com os exemplos da matriz X
l
1.3 Gerar a matriz de sada Y
l
de dimenso C Q a partir
da matriz de teste A
2. Calcular a matriz V =
l=L
l=1
Y
l
= [v
1
v
2
v
Q
] em que v
i
= [v
1
v
2
v
C
]
T
3. Fazer y
= [y
1
y
2
y
Q
]
T
em que y
i
= arg max
k
{v
i
}.
Sadas ou variveis de interesse
y
: vetor de classes preditas para as Q amostras de teste

na etapa de treinamento (e.g. alteraes no conjunto de treinamento, condies
iniciais diferentes, etc.) implicam em grande variaes no erro de classicao. J
um algoritmo de aprendizagem fraco aquele que no garante erro arbitrariamente
prximo de zero (FREUND; SCHAPIRE, 1996). Ambas so caractersticas tpicas
de RNAs, tais como aquelas foco da presente dissertao.
Comits de classicadores obtidos por algoritmos de aprendizagem
tradicionalmente supervisionados tm sido largamente explorados na literatura:
- Comits de redes MLP (WINDEATT, 2008; KUSIAK; LI; ZHANG, 2010;
CRUZ et al., 2010; DAS; SENGUR, 2010; KUMAR; SELVAKUMAR, 2011);
- Comits de redes Fuzzy ARTMAP (LOO et al., 2006; SANTOS;
CANUTO, 2008a; TRAN et al., 2010);
- Comits de redes LVQ (BERMEJO; CABESTANY, 2004; MADEO et al.,
2010; RAAFAT; TOLBA; ALY, 2011);
- Comits de redes ELM (LAN; SOH; HUANG, 2009; LIU; XU; WANG,
2009; DENG et al., 2010; WANG; LI, 2010);
- Comits de SVM (Support Vector Machine) (??ZHOU; LAI; YU, 2010;
TIAN; GU; LIU, 2011).
Entretanto, possvel adaptar tcnicas de aprendizagem no-supervisionada,
tais como as redes SOM e Fuzzy ART, para problemas de classicao. O
prprio Kohonen, apesar de ter inicialmente proposto a rede SOM como um
algoritmo no-supervisionado, introduziu em Kohonen (1988a) uma aplicao
supervisionada da rede SOM ao problema de reconhecimento da fala. Desde
ento vrios pesquisadores estudam a possibilidade de utilizao da rede SOM
como classicador (KANGAS; KOHONEN; LAAKSONEN, 1990; BIEBELMANN;
KPPEN; NICKOLAY, 1996; CHO, 1997; SUGANTHAN, 1999; LAHA; PAL, 2001;
CHRISTODOULOU; MICHAELIDES; PATTICHIS, 2003; HOYO; BULDAIN;
MARCO, 2003; WYNS et al., 2004; XIAO et al., 2005; TURKY; AHMAD, ).
A partir de classicadores individuais baseados na rede SOM, trs abordagens
de aprendizado em comits so encontradas na literatura:
2.4. Concluses 12
- Comits baseados em rede SOM para agrupamento de dados (JIANG;
ZHOU, 2004; GEORGAKIS; LI; GORDAN, 2005; CHANG et al., 2008;
GORGNIO; COSTA, 2008; BARUQUE; CORCHADO, 2010): inicialmente
vrias redes SOM so treinadas da maneira no-supervisionada usual para em
seguida serem combinadas em uma nica rede atravs de uma funo de fuso;
- Comits baseados em rede SOM para classicao de padres
(PETRIKIEVA; FYFE, 2002; CORCHADO; BARUQUE; YIN, 2007): usa-se
variaes na etapa de treinamento para tornar a aprendizagem da rede SOM
supervisionada. Aps o treinamento de vrias redes SOM, a sada do comit
decidida por votao majoritria. Trs mtodos capazes de tornar a rede
SOM supervisionada sero apresentados no Captulo 4;
- Comits baseados em redes SOM para regresso (SCHERBART;
NATTKEMPER, 2010): cada rede SOM do comit prediz um valor de sada
a partir de um modelo de regresso local associado. A sada do comit
normalmente dada pela mdia das sadas das redes do comit.
O uso de outros algoritmos de aprendizagem no-supervisionada, como por
exemplo redes Fuzzy ART, em comits de classicadores constitui um tema no
amplamente explorado. Esta dissertao pretende expandir o estudo de comits
de classicadores baseados na rede SOM e iniciar a pesquisa de comits de
classicadores baseados na rede Fuzzy ART.
2.4 Concluses
Neste captulo foram apresentados conceitos bsicos referentes utilizao de
comits de classicadores em problemas de reconhecimento de padres. Foram
apresentadas algumas das possveis tcnicas de combinao de resultados de
mltiplos algoritmos de aprendizagem, assim como mtodos de obteno de
diversidade entre os classicadores base.
Foram denidas ainda algumas das tcnicas que sero aplicadas ao longo desta
dissertao para a formao de comits, mais especicamente o algoritmo Bagging
com voto majoritrio simples e a proposio de comits com classicadores base
obtidos a partir de redes neurais no-supervisionadas, mais especicamente SOM e
Fuzzy ART.
2.4. Concluses 13
O Captulo 3 descrever com mais detalhes as redes de aprendizagem competitiva
no-supervisionadas (SOM e Fuzzy ART) e supervisionadas (Fuzzy ARTMAP e
LVQ) utilizadas nesta dissertao.
Captulo 3
Redes Neurais Competitivas
Neste captulo sero apresentados os principais conceitos acerca de aprendizado
competitivo supervisionado e no-supervisionado.
Simplicadamente, o paradigma do aprendizado competitivo em redes neurais
se baseia na competio entre os neurnios da rede na busca por grupos de vetores
similares em um processo conhecido como clustering
1
. Esse processo tambm pode
ser entendido como uma busca por uma representao compacta dos padres de
entrada (quantizao vetorial).
Os algoritmos apresentados nas prximas sees sero os mesmos utilizados nos
comits de classicadores propostos nesta dissertao.
3.1 Redes Neurais Competitivas No-Supervisionadas
Tcnicas de aprendizado no-supervisionado, tambm chamado de
auto-organizado, so capazes extrair propriedades estatsticas de um conjunto
de dados a partir da apresentao sucessiva de padres. A principal diferena
em relao ao aprendizado supervisionado est na ausncia do rtulo dos vetores
apresentados, i.e. no h uma relao previamente conhecida entre os exemplos
disponveis e a sada desejada para os mesmos. O mapeamento entrada-sada
ento construdo durante o processo de treinamento atravs de mecanismos de
comparao e busca por similaridades.
Esta seo detalha as operaes de duas tcnicas de aprendizado
1
Nesta dissertao os termos clustering, anlise de agrupamento e clusterizao so usados
como sinnimos.
14
3.1. Redes Neurais Competitivas No-Supervisionadas 15
no-supervisionado: redes Fuzzy ART e redes SOM. Ambas as redes so compostas
por uma camada de neurnios e seus vetores de pesos (tambm chamados
de vetores-prottipo, ou simplesmente prottipos) correspondentes, assim como
apresentam um processo de treinamento competitivo.
Entretanto, o treinamento no-supervisionado das redes Fuzzy ART e SOM
so implementados de maneiras diferentes. Redes SOM, por exemplo, apresentam
mecanismos de aprendizado competitivo-cooperativo que distribuem as informaes
contidas em cada vetor de entrada apresentado entre um neurnio vencedor
(competio) e seus vizinhos (cooperao) na rede. O efeito resultante a formao
de uma rede que, aproximadamente, preserva a topologia dos dados de entrada. A
rede Fuzzy ART, por sua vez, se baseia em um mecanismo de aprendizado capaz
de detectar padres novos ou anmalos. Maiores detalhes sobre essas redes so
apresentados a seguir.
3.1.1 Redes Fuzzy ART
Ao nal dos anos 80 e incio da dcada de 90, o grupo de pesquisa liderado por
Stephen Grossberg introduziu as primeiras arquiteturas neurais baseadas na Teoria
da Ressonncia Adaptativa:
- ART-1 (CARPENTER; GROSSBERG, 1987b);
- ART-2 (CARPENTER; GROSSBERG, 1987a, 1988);
- ART-2A (CARPENTER; GROSSBERG; ROSEN, 1991);
- ARTMAP (CARPENTER; GROSSBERG; REYNOLDS, 1991);
- Fuzzy ART (CARPENTER; GROSSBERG; ROSEN, 1991);
- Fuzzy ARTMAP (CARPENTER et al., 1992).
Essas arquiteturas foram desenvolvidas como uma possvel soluo para o dilema
estabilidade-plasticidade (CARPENTER; GROSSBERG, 1987b) encontrado ao se
projetar redes neurais para reconhecimento de padres: ao se apresentar novos
padres a um classicador neural, preciso adaptar os pesos da rede, adicionando
uma nova parcela de conhecimento, ou seja, o sistema deve ser capaz de adquirir
informao. Ao mesmo tempo, preciso que o conhecimento acumulado referente
aos padres previamente apresentados seja mantido, ou seja, o classicador deve ser
estvel
2
.
A principal ideia por trs do arcabouo da ART a seguinte: caso um dado
padro de entrada seja diferente o suciente dos padres j armazenados na memria
de longo prazo da rede (i.e. nos seus pesos), ento crie uma nova categoria e a associe
a este padro de entrada (KESKIN; ZKAN, 2009). Este mecanismo de deteco
de novidades especialmente efetivo na identicao de dados anmalos ou outliers
(BARRETO; AGUAYO, 2009).
A rede Fuzzy ART estende a rede ART-1, originalmente desenvolvida para
processar dados binrios (CARPENTER; GROSSBERG, 1987b), com a capacidade
de processar padres analgicos. Uma das principais caractersticas dessa rede a
incorporao de operadores da Lgica Fuzzy
3
, mais especicamente os operadores
MAX() e MIN() (ZADEH, 1965).
3.1.1.1 Arquitetura da rede Fuzzy ART
A Figura 3.1 ilustra um diagrama de blocos das partes constituintes de uma rede
Fuzzy ART. A seguir so descritos em maior nvel de detalhes cada componente da
sua arquitetura.
Vetor de entrada. Um exemplar de treinamento, de dimenso P, representado
pelo vetor a R
P
. Considerando-se N exemplos de treinamento, pode-se
incluir ndices temporais a esses vetores, indicando a ordem de apresentao
rede: a(n), n = 1, 2, . . . , N. As P componentes dos vetores de entrada so
nmeros reais limitados entre 0 e 1, ou seja, a
j
(n) [0, 1], j = 1, 2, . . . , P.
Os padres de entrada alimentam a camada F
1
, chamada de camada de
apresentao. Antes de serem apresentados, contudo, os vetores a(n) passam
por uma etapa de codicao complementar (complement coding) para gerar
os vetores x(n) R
D
, em que D = 2P. Esse procedimento ser detalhado
posteriormente. Note que os vetores codicados x(n) passam ento a serem
vistos como a entrada do algoritmo de treinamento.
2
Aqui o termo classicador estvel possui signicado diferente do usado anteriormente no
contexto de comit de classicadores, pois refere-se capacidade do classicador de reter o
conhecimento acumulado. Note que um classicador pode se estvel no sentido de Grossberg
mas ser instvel no sentido de comits.
3
Apesar da existncia do nome em portugus, lgica nebulosa ou difusa, esta dissertao adotar
a nomenclatura original, lgica fuzzy.
Figura 3.1: Diagrama de blocos da rede Fuzzy ART. Os ndices temporais foram
removidos para melhor visualizao.
Matriz de pesos. Cada neurnio da rede Fuzzy ART constitui uma parcela de
informao aprendida, ou seja, uma categoria, que deve ser preservada ao longo
do treinamento. Nesse contexto, cada categoria corresponde a um cluster de
dados. Enquanto um nico prottipo representado por um vetor de pesos
de dimenso igual dos padres de entrada, w(n) R
D
, toda a memria
de longo prazo da rede pode ser representada por uma matriz de dimenso
D N
w
contendo todos os N
w
vetores de pesos criados at ento: W(n) =
[w
1
(n) w
2
(n) w
Nw
(n)]
T
. Neurnios no-comprometidos (uncommitted)
tm suas componentes iniciadas com o valor 1: w(n) = 1
D
, em que 1
D
um vetor de dimenso D cujos elementos so todos iguais a 1. Os vetores de

pesos da rede podem ser vistos como prottipos, sendo reunidos na camada
F
2
, chamada de camada de representao.
Parmetro de vigilncia (). No funcionamento de uma rede Fuzzy ART
preciso denir um limiar para o grau de similaridade entre a informao
armazenada (prottipos) e a apresentada (vetores de entrada). O parmetro
de vigilncia dene esse limiar de deciso.
Parmetro de escolha (). Este parmetro confere um fator de escala ao clculo
da ativao (ou memria de curto prazo) de cada neurnio, como ser
apresentado no algoritmo de funcionamento da rede.
Parmetro de aprendizado (). Um novo exemplo de treinamento contribui
com uma poro de informao, que se soma memria de longo prazo
acumulada da rede. O parmetro funciona como um passo de aprendizado,
determinando essa parcela acrescentada a cada novo padro apresentado.
3.1.1.2 Treinamento da rede Fuzzy ART
Para cada vetor apresentado rede Fuzzy ART, o seu algoritmo de treinamento
deve obedecer s seguintes etapas de processamento.
Codicao da entrada. O padro de entrada a(n) R
P
deve ser codicado
em um vetor x(n) R
2P
. Isso feito atravs do processo de codicao
complementar
x(n) =
_
_
a(n)
a
c
(n)
_
_
=
_
_
a(n)
1
P
a(n)
_
_
, (3.1)
em que 1
P
um vetor de dimenso P contendo somente elementos iguais a 1.
Como at agora denotou-se a dimenso do vetor x(n) por D, a partir de agora
tem-se D = 2P.
Processo de competio. Apresenta-se o vetor x(n) primeira camada da rede,
F
1
, e, para cada um dos N
w
neurnios, calcula-se a i-sima ativao, que pode
ser entendida como o nvel de ressonncia do prottipo:
t
i
(n) =
|x(n) w
i
(n)|
+|w
i
(n)|
, i = 1, 2, . . . , N
w
, (3.2)
em que o operador representa a operao de conjugao fuzzy, elemento a
elemento, ou seja
x
j
(n) w
ij
min{x
j
(n), w
ij
(n)}, (3.3)
e que |x| =
D
j=1
|x
j
| a norma L
1
do vetor x. O parmetro funciona como
um fator de escala positivo para a ativao calculada. Por m, busca-se pelo
ndice do neurnio vencedor i
na iterao n
i
(n) = arg max

i
{t
i
(n)}, i = 1, 2, . . . , N
w
. (3.4)
Critrio de vigilncia. Verica-se se o neurnio vencedor i
satisfaz o critrio de
vigilncia por meio do seguinte teste:
|x(n) w
i
(n)|
|x(n)|
, (3.5)
em que 0 < < 1 o parmetro de vigilncia. Se o teste de vigilncia
satisfeito, segue-se para a etapa seguinte, a de atualizao dos pesos. Caso
contrrio, a ativao do neurnio i
recebe o valor zero (t

i
(n) = 0) e a busca
por um novo neurnio reiniciada usando-se a Equao (3.4). Esse processo
de competio em que se verica o grau de casamento (matching) entre o vetor
de entrada e os prottipos da rede Fuzzy ART chamado de ressonncia.
Atualizao dos pesos. Caso o vencedor seja um neurnio ainda no usado (i.e.
w
i
(n) = 1
D
), este recebe o padro de entrada atual e acrescenta-se um
novo neurnio rede. Matematicamente, essa etapa realizada por meio
das seguintes regras:
w
i
(n + 1) = x(n), (3.6)
N
w
= N
w
+ 1, (3.7)
w
Nw
= 1
D
. (3.8)
Caso contrrio, os pesos do neurnio vencedor so atualizados
w
i
(n + 1) = (1 )w
i
(n) + [x(n) w
i
(n)], (3.9)
em que 0 < 1 corresponde a um passo de aprendizado. O treinamento
ento reiniciado com a apresentao de um novo padro.
Note que as redes da famlia ART foram desenvolvidas sob a ideia de
aprendizado contnuo (continuous learning), no havendo portanto a separao
usual entre as fases de treinamento e teste. Mesmo assim, essa separao pode ser
feita para ns de comparao com outras redes neurais.
Um resumo do treinamento da rede Fuzzy ART encontra-se no Algoritmo 3.1.
3.1.1.3 Interpretao geomtrica da Rede Fuzzy ART
Com o intuito de apresentar uma interpretao geomtrica para o processo de
atualizao dos pesos utilizando-se codicao complementar, suponha-se que o
Algoritmo 3.1 Algoritmo de treinamento da rede Fuzzy ART.
Constantes
: parmetro de escolha, 0
: parmetro de vigilncia, 0 < 1
: parmetro de aprendizado, 0 < 1
n
MX
: nmero de iteraes de treinamento
Entradas
a(n): vetor de entrada, dimenso P
x(n): vetor de entrada, dimenso D = 2P (codicao complementar)
Algoritmo
1. Inicializao (n = 0)
Crie e inicialize os pesos do neurnio inicial da rede w
1
(0) = 1
D
2. Lao temporal (n = 1, 2, . . . , n
MX
)
2.1 Selecionar x(n) do conjunto de vetores de entrada
2.2 Buscar pelo ndice do neurnio vencedor:
i
(n) = arg max

i
{t
i
}, tal que t
i
=
|x(n)w
i
(n)|
+|w
i
(n)|
, i = 1, 2, . . . , N
w
2.3 Teste de ressonncia (critrio de vigilncia)
Se |x(n) w
i
(n)| > |x(n)| , v para o Passo 2.4
Seno, volte para o Passo 2.2 e busque um novo neurnio vencedor
2.4 Atualizao dos pesos
Se w
i
(n) = 1
D
(i.e., o vencedor nunca foi ativado antes), faa
N
w
= N
w
+ 1 e w
Nw
= 1
D
(i.e. crie um novo neurnio)
w
i
(n + 1) = x(n) (i.e. o novo neurnio armazena o novo padro)
Seno faa
w
i
(n + 1) = (1 )w
i
(n) + (x(n) w
i
(n))
Sadas
w
i
(n)
: vetor de pesos do neurnio vencedor na iterao n
Observaes
Tipicamente, usa-se codicao complementar para pr-processar a(n).
O nmero de neurnios iniciado como N
w
= 1 e incrementado ao longo das iteraes.
vetor de entrada a(n) seja bidimensional, com componentes [a
1
(n), a
2
(n)]. Pela
Equao (3.1), o vetor x(n) resultante dado por
x(n) =
_
_
a(n)
a
c
(n)
_
_
. (3.10)
Como a entrada da rede formada por um vetor e seu complemento, o i-simo
vetor de pesos w
i
(n) da rede pode ser escrito como
w
i
(n) =
_
_
p
i
(n)
q
c
i
(n)
_
_
. (3.11)
Os vetores p
i
(n) e q
c
i
(n) so bidimensionais e denem vrtices opostos de um
retngulo R
i
(n) (CARPENTER; GROSSBERG; ROSEN, 1991).
No caso do passo de aprendizagem ser unitrio ( = 1), tem-se na primeira
atualizao de pesos do neurnio vencedor i
w
i
(n + 1) = x(n) 1
4
= x(n), (3.12)
ou seja, p
i
(n + 1) = a(n) e q
c
i
(n + 1) = a
c
(n). O lugar geomtrico denido por
a(n) e {a
c
(n)}
c
= a(n) equivale ao ponto p = a(n).
Considera-se agora o padro de entrada seguinte, a(n + 1). Aps a codicao
complementar, tem-se o vetor de entrada
x(n + 1) =
_
_
a(n + 1)
a
c
(n + 1)
_
_
. (3.13)
Considerando-se a atualizao do mesmo vetor de pesos i
analisado
anteriormente, tem-se
w
i
(n+2) = x(n+1)w
i
(n+1) =
_
_
a(n) a(n + 1)
a
c
(n) a
c
(n + 1)
_
_
=
_
_
a(n) a(n + 1)
{a(n) a(n + 1)}
c
_
_
,
(3.14)
em que usou-se a relao (b
1
b
2
)
c
= b
c
1
b
c
2
, verso fuzzy da Lei de De Morgan
E
T
p = a(n)
r
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
0 1
1
w
i
,1
(n + 1)
w
i
,2
(n + 1)
a(n + 1)
a
c
(n + 1)
(a)
E
atualizao
E
T
a(n) a(n + 1)
r
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
0 1
1
w
i
,1
(n + 2)
w
i
,2
(n + 2)
a(n) a(n + 1)
r
(b)
Figura 3.2: Interpretao geomtrica da evoluo dos pesos da rede Fuzzy ART: (a) O
prottipo w
i
(n +1) = [w
i
,1
(n +1) w
i
,2
(n +1)]
T
inicialmente corresponde
somente ao ponto p = a(n). (b) O padro de entrada a(n + 1) expande a
abrangncia de w
i
(n + 2) = [w
i
,1
(n + 2) w
i
,2
(n + 2)]
T
. Modicado de
Aguayo (2008).
(DUBOIS; PRADE, 1985).
Nesse momento o lugar geomtrico R
i
(n+2) o retngulo formado pelos vrtices
p
i
(n + 2) = a(n) a(n + 1) e q
i
(n + 2) = a(n) a(n + 1). Este retngulo
acomoda tanto o padro a(n) quanto o padro a(n + 1), ilustrando o fenmeno de
plasticidade da rede que a torna capaz de aprender com novos vetores de entrada.
Os procedimentos descritos podem ser visualizados na Figura 3.2.
3.1.1.4 O papel dos parmetros ajustveis
No algoritmo de treinamento da rede Fuzzy ART percebe-se que o parmetro de
vigilncia determina quando a rede deve atualizar o prottipo de um dos neurnios
existentes ou adicionar um novo prottipo. Para ilustrar esse comportamento,
considera-se uma distribuio de pontos no plano (x, y), como mostrado na
Figura 3.3(a). Utilizou-se a codicao complementar de modo a exemplicar a
interpretao geomtrica em questo.
A criao progressiva de novas categorias nas Figuras 3.3(b)-3.3(d) revela uma
tendncia de diminuir a quantidade de exemplos representados por cada prottipo
medida que o valor de tende a 1. O valor do parmetro mantido xo em
= 0.
Em Carpenter e Gjaja (1993) feito um amplo estudo sobre o papel do
parmetro de escolha no funcionamento do algoritmo Fuzzy ART. O estudo citado
(a) Padro de entrada (b) = 0, 5
(c) = 0, 75 (d) = 0, 9
Figura 3.3: Efeito da variao do parmetro de vigilncia na rede Fuzzy ART.
conclui que o aumento no valor de tem resultado semelhante ao de aumentar o
parmetro .
Uma evidncia emprica da inuncia do parmetro de escolha pode ser
observado na Figura 3.4, em que um maior nmero de categorias so criadas
medida que o parmetro de escolha aumentado, para um xo ( = 0,5).
interessante notar ainda que a sensibilidade da rede Fuzzy ART ao parmetro
consideravelmente menor que ao parmetro .
relevante lembrar que o nmero de prottipos necessrios para representar um
conjunto de dados especco do problema considerado. Portanto, os valores dos
parmetros e devem ser determinados caso a caso para a obteno de resultados
satisfatrios.
O passo de aprendizagem tem inuncia direta na parcela de informao que
(a) Padro de entrada (b) = 0
(c) = 1 (d) = 5
Figura 3.4: Efeito da variao do parmetro de escolha na rede Fuzzy ART.
cada vetor de entrada disponvel para treinamento transfere aos pesos dos neurnios
da rede. Quando seu valor = 1, a rede opera no modo fast learning (aprendizado
rpido), em que o mximo de informao extrado de cada padro. Entretanto,
o parmetro pode ser ajustado para controlar situaes em que existem vetores
para treinamento que no so considerados plenamente conveis, como outliers
e padres ruidosos. Nesses casos, torna-se interessante a adio de uma parte da
informao fornecida pelos padres anteriormente apresentados. Como essa situao
intrnseca ao problema de interesse, o valor do parmetro deve ser escolhido para
cada caso.
3.1.2 Redes SOM
Introduzida por Kohonen (1982), o conceito de mapas auto-organizveis foi
proposto a partir da observao que mapas corticais se formam de maneira
adaptativa e automtica (KOHONEN, 1997). Por mapas corticais entende-se o
mapeamento topogrco de regies no crebro responsveis por recepes sensoriais
especcas.
A rede SOM tem ento como objetivo principal o mapeamento (ou projeo)
de um espao contnuo de dimenso possivelmente elevada em um espao discreto
de dimenso reduzida. A projeo resultante consiste de N
w
neurnios dispostos
em um arranjo geomtrico xo, de dimenso S. Comumente usa-se o valor S = 2,
correspondendo a um mapa bidimensional.
Matematicamente, seja um espao de entrada contnuo X R
D
e um espao
discreto Y R
S
formado por N
w
vetores. Um dado vetor x X ser representado
na rede por um vetor y
i
Y atravs do mapeamento i
(x) : X Y.
A preservao aproximada da topologia dos dados de entrada da rede SOM
garante que os vetores de entrada prximos entre si sejam mapeados em vetores
prximos no espao discreto da rede. Essa propriedade especialmente interessante
em aplicaes envolvendo visualizao de dados de alta dimenso.
A rede SOM, assim como a rede Fuzzy ART, uma rede neural competitiva que
pode ser usada tanto em tarefas de agrupamento de dados quanto de quantizao
vetorial. A primeira consiste em separar ou encontrar grupos de vetores similares
segundo um critrio de similaridade. A segunda a tarefa de substituir um conjunto
de N vetores por um conjunto de N
w
prottipos, em que N
w
N. Note que nem
todo algoritmo de agrupamento de dados realiza quantizao vetorial, mas todo
algoritmo de quantizao vetorial faz (ou pode fazer) anlise de agrupamento.
3.1.2.1 Arquitetura Geral
A arquitetura de uma rede SOM encontra-se ilustrada na Figura 3.5. Pode-se
perceber que todos os N
w
neurnios recebem o padro de entrada x(n) R
D
simultaneamente. Os atributos contidos em x(n) so ponderados pelo i-simo
neurnio por um vetor de pesos w
i
(n) R
D
.
Reunindo os N exemplos disponveis para o processo de aprendizagem da rede,
obtm-se a matriz X = [x
1
x
2
x
N
]
T
, formando o conjunto de dados de
treinamento. De maneira semelhante, a reunio dos vetores de pesos em colunas
resulta na matriz W(n) = [w
1
(n) w
2
(n) w
Nw
(n)]
T
, que representa a rede SOM.
O mapeamento realizado pela rede SOM pode ser visto como um processo de
Neurnio vencedor
x Padro de entrada
i
x
1
x
2
x
D
w
i1
w
i2
w
id w
i
Figura 3.5: Exemplo de rede SOM bidimensional. Os vetores de entrada e de pesos so
D-dimensionais. Os N
w
neurnios esto uniformemente dispostos em uma
grade retangular. Modicado de Aguayo (2008).
codicao da matriz de vetores de entrada X em que o dicionrio (codebook)
formado pelas colunas da matriz de pesos W. A Figura 3.6 refora essa interpretao
ao ilustrar o mapeamento entre os espao de entrada e sada.
s s s s s s s s s s
s s s s s s s s s s
s s s s s s s s s s
s s s s s s
s s s s s s
s s s s s s
s s s s s s
s s s s s s s s s s
s s s s s s s s s s
s s s s s s s s s s
Y X
i
w
i
%
Figura 3.6: Mapeamento entre os espaos X e Y realizado pela rede SOM. Modicado
de Aguayo (2008).
3.1.2.2 Treinamento da rede SOM
No incio do treinamento da rede SOM, seus N
w
neurnios so dispostos
de forma regular em uma malha de dimenso P
1
P
2
, considerando um mapa
bidimensional. Nesse momento os vetores de pesos possuem valores aleatrios,
normalmente pequenos. Para cada vetor apresentado rede na iterao n do
algoritmo de treinamento, so realizadas as etapas de processamento a seguir.
Processo de competio. Inicialmente verica-se qual o neurnio i
o mais
prximo da entrada x(n) pela expresso
i
(n) = arg min

i
x(n) w
i
(n), (3.15)
em que denota o clculo da distncia euclidiana. A mtrica de
dissimilaridade pode ser outra, mas a distncia euclidiana a escolha mais
comum.
Processo de cooperao. O vetor de pesos associado ao neurnio vencedor i
(n),
assim como aos seus neurnios vizinhos, so simultaneamente atualizados pela
seguinte regra de aprendizagem:
w
i
(n + 1) = w
i
(n) + (n)h(i
, i; n)[x(n) w
i
(n)], (3.16)
em que 0 < (n) 1 corresponde ao valor do parmetro de aprendizagem
na iterao n do algoritmo e a funo h(i
, i; n) chamada funo de
vizinhana. Esta funo dene a vizinhana de inuncia do neurnio vencedor
ao determinar quais neurnios tero seus pesos atualizados de modo mais
intenso. Uma escolha comum para h(i
, i; n) a funo gaussiana:
h(i
, i; n) = exp
_
r
i
r
i
2
2
2
(n)
_
, (3.17)
em que r
i
e r
i
so, respectivamente, as coordenadas dos neurnios i e i
na grade de sada. O parmetro (n) > 0 refere-se largura da vizinhana

considerada: quanto maior seu valor, maior o nmero de neurnios atualizados
em torno do neurnio vencedor.
A Equao (3.16) pode ser reescrita ao substituir
(n) = (n)h(i
, i; n),
tornando-se similar Equao (3.9):
w
i
(n + 1) = (1
(n))w
i
(n) +
(n)x(n). (3.18)
Como a equao de atualizao dos pesos, Equao (3.16) ou Equao (3.18),
depende da proximidade dos neurnios em relao ao neurnio vencedor, existe
a tendncia do surgimento de regies especcas na rede SOM sensveis a
determinadas variaes nos padres de entrada. Essa caracterstica constitui
a j citada capacidade da rede SOM de preservar, de forma aproximada, a
topologia dos dados aps o treinamento.
O processo de treinamento da rede SOM encontra-se no Algoritmo 3.2.
3.1.2.3 Sobre a convergncia da rede SOM
Para garantir a convergncia dos pesos da rede SOM a valores estveis durante
o algoritmo de treinamento, preciso reduzir o passo de aprendizado e o parmetro
de espalhamento ao longo das iteraes do mtodo (RITTER; SCHULTEN, 1988).
Esse precedimento tem como objetivo reduzir gradualmente a inuncia dos pesos
iniciais.
Nesta dissertao, optou-se pelo decaimento exponencial dos parmetros (n) e
(n):
(n) =
0
_
0
_
(n/n
MX
)
, (3.19)
(n) =
0
_
0
_
(n/n
MX
)
, (3.20)
em que n
MX
o total de iteraes de treinamento, (1) =
0
, (n
MX
) =
f
, (1) =
0
e (n
MX
) =
f
. Os valores iniciais
0
e
0
, assim como os valores nais
f
e
f
,
constituem parmetros a serem especicados para cada problema estudado.
A Figura 3.7 apresenta exemplos de decaimento do parmetro para diferentes
valores de
f
, considerando-se um valor xo
0
= 0,9. Note que as curvas para o
parmetro seriam semelhantes.
A Figura 3.8 ilustra um exemplo de uma rede SOM durante a etapa de
treinamento. Nesse exemplo, tem-se um conjunto de dados bidimensionais (os
mesmos exemplicados na Seo 3.1.1) que devem ser mapeados pela rede.
Percebe-se que, apesar da quantidade de neurnios ser menor que a quantidade
de amostras, ao longo das pocas
4
a rede SOM capaz de obter uma representao
condensada dos dados treinados.
A Figura 3.9 apresenta a evoluo do erro de quantizao mdio, calculado para
4
Uma poca consiste de uma apresentao de todos os vetores de treinamento rede.
Algoritmo 3.2 Algoritmo de treinamento da rede SOM.
Constantes
N
w
: nmero de neurnios da rede
0
: valor inicial do parmetro de aprendizado
0
: valor inicial do parmetro de espalhamento
D: dimenso de entrada
D
1
eD
2
: dimenses do mapa
n
MX
Entradas
x(n): vetor de entrada, dimenso D
Algoritmo
1. Inicializao
Iniciar os pesos w
i
(0) com valores pequenos aleatrios (i = 1, 2, . . . , N
w
)
Fazer (1) =
0
e (1) =
0
2. Lao temporal (n = 1, 2, . . . , n
MX
)
2.2 Armazenar o ndice do neurnio vencedor
i
(n) = arg min

i
x(n) w
i
(n)
2.3 Atualizar os pesos do vencedor e da vizinhana
Para i = 1, 2, . . . , N
w
, calcular
h(i
, i; n) = exp
_
r
i
r
i
2
2
2
(n)
_
w
i
(n + 1) = w
i
(n) + (n)h(i
, i; n)[x(n) w
i
(n)]
Decair os parmetros (n) e (n)
Sadas
Sada a cada iterao: coordenada r
i(n)
do neurnio vencedor e seu vetor de pesos w
i(n)
Resultado do treinamento: W(n
MX
): matriz dos pesos dos neurnios (dimenso DN
w
)
Observaes
Durante o uso da rede SOM, ps-treinamento, o Passo 2.3 no necessrio
Figura 3.7: Exemplos de decaimento do parmetro da rede SOM.
a k-sima poca pela Equao (3.21).
eqm(k) =
1
N
N
n=1
x(n) w
i
(n)
2
, (3.21)
em que N o nmero de vetores de treinamento. A convergncia do erro de
quantizao mdio, conforme ilustrado na Figura 3.9, indica que o mapeamento
nal de fato satisfatrio.
3.1.3 Comparao entre as redes Fuzzy ART e SOM
Redes Fuzzy ART e redes SOM compartilham semelhanas em suas arquiteturas
e algoritmos de treinamento. Entretanto, algumas diferenas importantes podem ser
ressaltadas. A Tabela 3.1 apresenta um resumo comparativo das caractersticas das
redes Fuzzy ART e SOM.
Ambas as redes podem ser usadas em tarefas de agrupamento de dados
e quantizao vetorial. No entanto, a rede SOM capaz de preservar
aproximadamente a topologia dos dados de entrada devido sua etapa cooperativa,
tornando-a til em problemas de visualizao de dados de dimenses elevadas. A
rede Fuzzy ART no possui essa propriedade, pois no dispe seus neurnios de
forma regular nem usa uma funo de vizinhana na sua equao de atualizao de
pesos.
Por outro lado, a rede Fuzzy ART, por criar novos prottipos ao longo do
treinamento, capaz de aprender padres no-estacionrios, caracterstica comum s
(a) Rede inicial (b) Rede aps 1 poca de treinamento
(c) Rede aps 10 pocas de treinamento (d) Rede aps 100 pocas de treinamento
Figura 3.8: Efeito do treinamento da rede SOM nos pesos dos neurnios.
Figura 3.9: Exemplo de convergncia do erro mdio de quantizao durante o treinamento
da rede SOM.
3.2. Redes Neurais Competitivas Supervisionadas 32
Tabela 3.1: Comparao entre as redes Fuzzy ART e SOM.
Fuzzy ART SOM
Paradigma de
Competitivo
Competitivo e
aprendizado cooperativo
Nmero de Incrementado quando Especicado no incio
neurnios necessrio do treinamento
Agrupamento
Sim Sim
de dados
Quantizao
Sim Sim
vetorial
Preservao
No Sim
de topologia
Aprendizado de dados
Sim No
no-estacionrios
redes neurais da famlia ART (CARPENTER; GROSSBERG; ROSEN, 1991). J a
rede SOM perde a capacidade de aprender com o passar das iteraes de treinamento,
pois seu passo de aprendizado precisa ser reduzido para garantir convergncia. Esse
fenmeno revela sua baixa plasticidade e a torna inadequada para aprendizado de
distribuies no-estacionrias, pois, neste caso, a rede SOM esquece os dados
anteriores.
3.2 Redes Neurais Competitivas Supervisionadas
Diferente dos algoritmos de aprendizagem no-supervisionada, redes
supervisionadas recebem como entrada a classe correspondente aos padres
de treinamento.
Antes do incio da fase de treinamento supervisionado, preciso dispor de N
pares {x(n), y(n)}, n = 1, . . . , N, em que x(n) R
D
o padro de entrada da
iterao n, y(n) R
C
o rtulo associado ao padro x(n) e C o nmero total de
classes. Todas as componentes de y(n) possuem valor 0, com exceo daquela cuja
posio corresponde classe de x(n), que possui o valor 1.
Por exemplo, para C = 3, tem-se trs possveis escolhas para y(n): [1 0 0]
T
,
[0 1 0]
T
e [0 0 1]
T
, em que cada uma representa uma classe diferente. Essa
codicao, chamada 1-out-of-C, ser a abordagem usada nesta dissertao.
Esta seo detalha as operaes de duas tcnicas de aprendizado competitivo
supervisionado: redes Fuzzy ARTMAP e redes LVQ. Ambas as redes apresentam
processos de treinamento competitivo similares aos das redes Fuzzy ART e SOM.
Entretanto, alm de procurarem similaridades nos padres apresentados, em ambas
as redes o aprendizado guiado pelo conhecimento das classes associadas aos
exemplos de treinamento.
3.2.1 Redes Fuzzy ARTMAP
A rede Fuzzy ARTMAP foi proposta em Carpenter et al. (1992) como uma
variante da rede ARTMAP (CARPENTER; GROSSBERG; REYNOLDS, 1991)
que utiliza os operadores fuzzy da rede Fuzzy ART. Desde ento o algoritmo Fuzzy
ARTMAP tem sido o mais popular representante da famlia ART para problemas
de aprendizagem supervisionada.
O arquitetura original da rede Fuzzy ARTMAP envolve o treinamento
simultneo de dois mdulos Fuzzy ART, sendo cada um deles responsvel por
associar dois espaos vetoriais distintos, porm relacionados. Em problemas de
classicao de padres um dos espaos o espao dos rtulos, enquanto o outro
o espao de entrada (RAJASEKARAN; PAI, 2000; PALANIAPPAN; ESWARAN,
2009). Em Kasuba (1993) foi realizada uma simplicao na notao da rede Fuzzy
ARTMAP, atravs da reduo de redundncias na arquitetura original. Essa verso
normalmente chamada de Simplied Fuzzy ARTMAP (SFAM) e ser a utilizada
nesta dissertao. Mesmo assim, a denominao Fuzzy ARTMAP ser mantida.
3.2.1.1 Arquitetura da rede Fuzzy ARTMAP
A rede Fuzzy ARTMAP usa dois mdulos Fuzzy ART, denotados ART
a
e ART
b
,
interligados por uma matriz de pesos. Como apresentado na Seo 3.1.1, cada
mdulo Fuzzy ART possui duas camadas principais, F
1
e F
2
. Entretanto, para
ns de classicao de padres, o mdulo ART
b
da rede Fuzzy ARTMAP pode ser
simplicado em uma nica camada F
b
2
(CARPENTER, 2003).
A Figura 3.10 ilustra a arquitetura geral da rede Fuzzy ARTMAP. A seguir so
detalhados os principais componentes da arquitetura.
Figura 3.10: Diagrama de blocos da rede Fuzzy ARTMAP. Os ndices temporais foram
removidos para melhor visualizao.
Sinal de entrada. Assim como descrito na Seo 3.1.1, a entrada da rede Fuzzy
ARTMAP constitui N vetores a(n) R
P
, normalmente transformados via
codicao complementar em vetores x(n) R
D
, n = 1, 2, . . . , N, em que
D = 2P. Assim como na rede Fuzzy ART, as D componentes dos vetores
de entrada possuem valores limitados entre 0 e 1. Os vetores x(n) constituem
entrada da camada F
a
1
do mdulo ART
a
. Por ser um algoritmo supervisionado,
a rede tambm recebe como entrada os N rtulos das classes associadas aos
N padres de treinamento. Esses rtulos so representados na forma vetorial
y(n) R
C
, n = 1, 2, . . . , N, em que C o nmero de classes possveis.
Mdulo ART
a
. O mdulo ART
a
possui duas camadas, F
a
1
e F
a
2
. Os vetores
de entrada so apresentados rede pela primeira. A segunda camada
formada pelos prottipos criados ao longo do treinamento. O i-simo neurnio
corresponde ao vetor de pesos w
i
(n) R
D
na iterao n da fase de treino.
Mdulo ART
b
. O mdulo ART
b
se resume camada F
b
2
, onde denida a classe
do padro de entrada atual.
Matriz Inter-MAP. Entre as camadas F
a
2
e F
b
2
existe uma matriz de pesos M,
chamada Inter-MAP, que associa aos prottipos de F
a
2
uma classe na camada
F
b
2
. Seja N
w
o nmero de prottipos em F
a
2
na iterao n do treinamento,
a matriz Inter-MAP M(n) = [m
1
(n) m
2
(n) m
Nw
(n)] possui dimenso
C N
w
. As colunas da matriz M(n) determinam na camada F
b
2
a classe
do padro de entrada, possuindo construo idntica aos vetores de rtulo de
entrada y(n), ou seja, apenas uma componente do vetor m
i
(n) igual a 1,
enquanto as outras so iguais a zero.
3.2.1.2 Treinamento da rede Fuzzy ARTMAP
O processo de treinamento da rede Fuzzy ARTMAP possui semelhanas com
o da rede Fuzzy ART. De fato, as etapas de codicao da entrada, processo de
competio e critrio de vigilncia so realizadas como descritas na Seo 3.1.1. Os
passos seguintes so descritos a seguir.
Critrio de predio. Depois de um neurnio vencedor i
passar no critrio de
vigilncia (ver Seo 3.1.1), verica-se o critrio de predio. Esse novo teste
consiste em vericar se o vetor m
i
(n) prediz exatamente a sada desejada
y(n) para a entrada atual, x(n). Se o teste falhar, o valor do parmetro de
vigilncia modicado atravs da adio de uma pequena constante 0,
ou seja,
=
|x(n) w
i
(n)|
|x(n)|
+ . (3.22)
Os testes de vigilncia e de predio so repetidos at que um neurnio
vencedor passe em ambos os testes ou todos os neurnios da rede tenham
sido testados, caso em que um neurnio ainda no usado (uncommitted)
escolhido como vencedor.
Atualizao dos pesos. Caso um neurnio j usado tenha sido escolhido como
vencedor, os seus pesos so atualizados pela seguinte equao:
w
i
(n + 1) = (w
i
(n) x(n)) + (1 )w
i
(n). (3.23)
Caso o neurnio vencedor no tenha ainda sido usado (i.e. w
i
(n) = 1
D
), o
mesmo recebe o vetor de entrada atual:
w
i
(n + 1) = x(n), (3.24)
sua coluna correspondente em M(n) atualizada, ou seja,
m
i
(n + 1) = y(n), (3.25)
e um novo prottipo adicionado rede:
N
w
= N
w
+ 1, (3.26)
w
Nw
= 1
D
, (3.27)
m
Nw
= 0
C
. (3.28)
Classicao de um vetor de entrada. Na fase de teste da rede Fuzzy
ARTMAP, determina-se um neurnio vencedor em relao a um vetor de
entrada desconhecido a partir da Equao (3.4). Aps o prottipo w
i
ser
escolhido como vencedor, a classe inferida aquela determinada por m
i
.
Os passos de treinamento so repetidos para todos os N pares {x(n), y(n)}
disponveis, sempre retornando o parmetro de vigilncia a um valor base ao
se apresentar um novo padro. Um resumo do treinamento da Fuzzy ARTMAP
encontra-se no Algoritmo 3.3.
3.2.1.3 Interpretao geomtrica da Rede Fuzzy ARTMAP
Analisando o algoritmo de treinamento da rede Fuzzy ARTMAP, verica-se que
trata-se do algoritmo da rede Fuzzy ART adicionado de um critrio de predio que
leva em considerao a matriz Inter-MAP e os rtulos conhecidos dos padres de
entrada.
A anlise geomtrica feita na Seo 3.1.1 para a rede Fuzzy ART tambm
pode ser feita para a rede Fuzzy ARTMAP. A Figura 3.11 ilustra um exemplo
bidimensional em que a rede foi treinada de maneira a diferenciar padres de duas
classes. Os parmetros usados foram = 0,
0
= 0,6 e = 1. Observa-se que
os prottipos criados so vinculados a rtulos especcos, representados na Figura
3.11 por cores diferentes e no algoritmo de treinamento pelas colunas da matriz
Inter-MAP M.
relevante mencionar que a anlise feita na Seo 3.1.1 sobre o efeito dos
parmetros , e no treinamento da rede Fuzzy ART tambm se aplicam rede
Fuzzy ARTMAP. Alm disso, a rede Fuzzy ARTMAP compartilha das propriedades
Algoritmo 3.3 Algoritmo de treinamento da rede Fuzzy ARTMAP.
Constantes
: parmetro de escolha, 0
0
: valor base do parmetro de vigilncia , 0 <
0
1
: parmetro de aprendizado, 0 < 1
n
MX
Entradas
a(n): vetor de entrada, dimenso P
x(n): vetor de entrada, dimenso D = 2P (codicao complementar)
y(n): rtulo do padro x(n), dimenso C
Algoritmo
Criar e inicializar os pesos do neurnio inicial da rede w
1
(0) = 1
D
Criar e inicializar os pesos da matriz Inter-MAP, M(0) = m
1
(0) = 0
C
2. Lao temporal (n = 1, 2, . . . , n
MX
)
2.2 Buscar pelo ndice do neurnio vencedor:
i
= arg max
i
{t
i
}, em que t
i
(n) =
|x(n)w
i
(n)|
+|w
i
(n)|
, i = 1, 2, . . . , N
w
2.3 Teste de ressonncia (critrio de vigilncia)
Se |x(n) w
i
(n)| > |x(n)| , ir para o Passo 2.5
Seno, voltar para o Passo 2.2 e buscar um novo neurnio vencedor
2.4 Teste de predio
Se m
i
(n) = y(n), ir para o Passo 2.4
Seno, fazer =
|x(n)w
i
(n)|
|x(n)|
+ e voltar para o Passo 2.2
2.5 Atualizao dos pesos
Se w
i
(n) = 1
D
(i.e., o vencedor nunca foi ativado antes), fazer
w
i
(n + 1) = x(n) (i.e., armazena o novo padro)
m
i
(n + 1) = y(n) (i.e., armazena a classe do novo padro)
N
w
= N
w
+ 1, w
Nw
= 1
D
e m
Nw
= 0
C
Seno faa
w
i
(n + 1) = (w
i
(n) x(n)) + (1 )w
i
(n)
Sadas
m
i
(n): vetor de pesos que codica o rtulo da classe do vetor de entrada na iterao n
Observaes
Tipicamente, usa-se a tcnica de codicao complementar para pr-processar a(n).
O nmero de neurnios iniciado como N
w
= 1 e incrementado ao longo das iteraes.
Figura 3.11: Exemplo de operao da rede Fuzzy ARTMAP. As regies retangulares
representam as reas de inuncia de cada prottipo da rede. As cores
diferentes representam classes diferentes.
das redes neurais da famlia ART, como a capacidade de realizar aprendizado
contnuo e a capacidade de lidar com distribuies no-estacionrias.
3.2.2 Redes Learning Vector Quantization (LVQ)
Tambm proposta por Kohonen (1988a), uma rede LVQ, assim como a rede
SOM, promove competio entre seus neurnios, cuja quantidade denida logo
no incio do projeto da rede. Entretanto, o aprendizado de uma rede LVQ
supervisionado, pois conta com o conhecimento a priori das classes dos exemplos
de treinamento.
Os algoritmos de treinamento de redes LVQ no apresentam uma etapa de
cooperao como na rede SOM, em que uma vizinhana em torno do neurnio
vencedor denida. Dessa maneira, no esperada uma organizao espacial
dos neurnios que compem rede LVQ, mas sim o aprendizado de um dicionrio
(codebook) que represente de forma compacta os dados de entrada considerando os
seus rtulos.
Figura 3.12: Diagrama de blocos de uma rede LVQ. Os ndices temporais foram omitidos
para melhor visualizao.
3.2.2.1 Arquitetura geral das redes LVQ
O padro de entrada x(n) R
D
no instante n recebido simultaneamente na
rede LVQ por todos os seus N
w
neurnios, denidos pelos vetores de pesos w
i
(n)
R
D
.
Inicialmente os N
w
vetores de pesos correspondentes aos neurnios da rede
recebem valores aleatrios. Cada neurnio ento aleatoriamente rotulado com
uma das classes do problema. comum escolher uma distribuio uniforme do
nmero de neurnios entre as classes disponveis. Alternativamente pode-se escolher
aleatoriamente amostras de treinamento de diferentes classes para inicializar os pesos
da rede. Cada neurnio ento previamente associado a uma das C classes existentes
no conjunto de dados analisado. Note que podem haver mltiplos neurnios
associados a uma mesma classe.
A Figura 3.12 apresenta um diagrama de blocos de uma rede LVQ. Percebe-se
que aps o processo de competio vericado se o neurnio vencedor est associado
ou no classe do vetor de treinamento. A atualizao dos pesos do neurnio
vencedor feita nos dois casos, mas de maneira diferente, como ser detalhado na
prxima seo.
Considerando a medida de similaridade como a distncia euclidiana quadrtica
e d
i
(n) a distncia quadrtica entre o vetor de entrada e o prottipo w
i
(n), tem-se
a seguinte mtrica:
d
i
(n) = x(n) w
i
(n)
2
, i = 1, 2, . . . , N
w
. (3.29)
A Equao (3.29) pode ser expandida:
x(n) w
i
(n)
2
= (x(n) w
i
(n))
T
(x(n) w
i
(n)), (3.30)
= x(n)
T
x(n) 2w
i
(n)
T
x(n) +w
i
(n)
T
w
i
(n). (3.31)
Mas o valor x(n)
T
x(n) constante para todos os prottipos w
i
(n). Dessa maneira,
a mtrica usada na etapa de competio, denotada por
i
(n) ser dada por
i
(n) = 2w
i
(n)
T
x(n) +w
i
(n)
2
, (3.32)
= a
i
(n)
T
x(n) + b
i
(n), (3.33)
em que a
i
(n)
T
= 2w
i
(n)
T
e b
i
(n) = w
i
(n)
2
. Note que a Equao (3.33) a
equao de um hiperplano. Como
i
(n) linear em relao ao vetor de entrada,
pode-se armar que o classicador resultante de uma rede LVQ linear.
medida que os vetores de pesos referentes aos neurnios so atualizados,
formam-se regies no espao de dados de entrada. Estas regies so delimitadas por
hiperplanos individualmente lineares (cujas equaes so semelhantes Equao
(3.33)), como em diagramas de Voronoi (KOHONEN, 1997). Na Figura 3.13
ilustrado um exemplo de diagrama de Voronoi tradicional. Pode-se observar que
as regies so divididas por segmentos de reta, consequncia dos dados serem
bidimensionais. Tais segmentos so equidistantes em relao a prottipos vizinhos,
garantindo sua mxima separao.
Em seu livro, Kohonen (1997) apresenta diversas variantes do mtodo de
treinamento LVQ original (denominado LVQ1), tal como OLVQ1 (Optimized-LVQ1),
LVQ2, LVQ2.1 e LVQ3. Aps testes preliminares, decidiu-se que nesta dissertao
ser usado o algoritmo OLVQ1, detalhado na seo seguinte.
3.2.2.2 Algoritmo OLVQ1
Dado o par de entrada {x(n), y(n)} da n-sima iterao, so realizados os passos
abaixo.
Figura 3.13: Exemplo de diagrama de Voronoi para dados bidimensionais. As regies
poderiam, por exemplo, representar classes diferentes caracterizadas pelos
seus prottipos.
Processo de competio. Verica-se qual o neurnio i
o mais prximo da
entrada x(n) de acordo com a seguinte regra:
i
(n) = arg min

i
x(n) w
i
(n), (3.34)
em que denota a norma euclidiana.
Atualizao dos pesos. Somente os pesos do neurnio vencedor so atualizados
segundo a expresso abaixo
w
i
(n + 1) = w
i
(n) + s(n)
i
(n)[x(n) w
i
(n)], (3.35)
em que s(n) = 1, caso o rtulo associado ao vetor w
i
(n) seja y(n), i.e. o
mesmo associado a x(n), ou s(n) = 1, caso o neurnio vencedor e o padro
de entrada no pertenam mesma classe.
No algoritmo LVQ1 original existe apenas um parmetro de aprendizagem 0 <
1, comum a todos os neurnios. Na verso OLVQ1, cada neurnio possui
um parmetro prprio, 0 <
i
(n) 1. O parmetro referente ao neurnio
3.3. Concluses 42
vencedor atualizado em cada iterao por meio da seguinte expresso:
i
(n + 1) =

i
(n)
1 + s(n)
i
(n)
, (3.36)
em que
i
(n + 1) deve ser mantido abaixo do valor unitrio. Essa condio
garante uma convergncia mais veloz durante o treinamento (KOHONEN,
1997). O valor inicial
i
(0) =
0
deve ser especicado antes da execuo do
algoritmo.
A Figura 3.14 ilustra um exemplo em que dados bidimensionais divididos em
duas classes so treinados por uma rede OLVQ1 em que foram usados 4 prottipos
por classe,
0
= 0,3 e uma poca de treinamento. Percebe-se que os prottipos
(representados por asteriscos) tendem a se posicionar prximos aos centrides dos
grupos (clusters) da classe que representam. Os diagramas de Voronoi formados so
semelhantes aos ilustrados na Figura 3.13, mas na Figura 3.14 as regies convexas
so associadas ao rtulo do prottipo que contm.
A etapa de teste da rede OLVQ1 consiste em encontrar o prottipo mais prximo
do vetor de entrada desconhecido x
novo
atravs da Equao (3.34) e atribuir a este
vetor a classe associada ao neurnio vencedor, ou seja,
Se x
novo
w
i
< x w
i
, i = i
(3.37)
Ento classe(x
novo
) = classe(w
i
). (3.38)
O Algoritmo 3.4 resume o processo de treinamento da rede OLVQ1.
3.3 Concluses
Neste captulo foram apresentadas algumas das redes neurais competitivas
mais conhecidas: Fuzzy ART, SOM, Fuzzy ARTMAP e LVQ. Seus algoritmos
de treinamento foram detalhados e suas propriedades mais importantes foram
ressaltadas.
Enquanto as redes no-supervisionadas Fuzzy ART e SOM realizam o processo
de treinamento somente com base nos padres encontrados a partir dos vetores
de atributos na entrada, as redes supervisionadas Fuzzy ARTMAP e LVQ so
orientadas durante o treinamento pelas classes associadas aos exemplos disponveis.
3.3. Concluses 43
Algoritmo 3.4 Algoritmo de treinamento da rede OLVQ1.
Constantes
N
w
: nmero de neurnios da rede
0
: valor inicial dos parmetros de aprendizado
i
(n), i = 1, 2, . . . , N
w
n
MX
Entradas
x(n): padro de entrada, dimenso D
y(n): rtulo do padro x(n), dimenso C
Algoritmo
1. Inicializao
Inicializar os vetores w
i
(0) com vetores selecionados aleatoriamente
do conjunto de treinamento
Faa
i
(1) =
0
(i = 1, 2, . . . , N
w
)
2. Lao temporal (n = 1, 2, . . . , n
MX
)
2.2 Encontrar o ndice do neurnio vencedor
i
(n) = arg min

i
x(n) w
i
(n)
2.3 Atualizar pesos do neurnio vencedor
Caso classe(w
i
(n)) = y(n), faa s(n) = 1,
caso contrrio, s(n) = 1
w
i
(n + 1) = w
i
(n) + s(n)
i
(n)[x(n) w
i
(n)]
Atualizar o passo de aprendizado do neurnio vencedor
i
(n + 1) =

i
(n)
1+s(n)
i
(n)
Sadas
classe(w
i
(n)): rtulo do neurnio vencedor na iterao n
Observaes
Durante a fase de teste, ou seja, com a apresentao de vetores de entrada desconhecidos,
o Passo 2.3 no realizado.
3.3. Concluses 44
(a) Rede inicial.
(b) Rede aps treinamento.
Figura 3.14: Exemplo de aplicao da rede OLVQ1 a um conjunto de dados
bidimensionais. As cores representam classes diferentes, enquanto os
segmentos de reta separam as regies mapeadas pela rede. Os asteriscos
representam as posies dos prottipos da rede.
3.3. Concluses 45
No Captulo 4 sero discutidas tcnicas que tornam possvel algoritmos
no-supervisionados, como as redes Fuzzy ART e SOM, serem usados em problemas
de classicao de padres. Mais adiante, no Captulo 6, sero detalhadas as
diretivas usadas na construo de comits de classicadores a partir dos mtodos de
aprendizagem competitiva comentados neste captulo.
Captulo 4
Arquiteturas ARTIE e MUSCLE
Neste captulo sero apresentados alguns mtodos que permitem a aplicao
de algoritmos de aprendizagem no-supervisionada em problemas de classicao
supervisionada de padres. Os mtodos descritos so Rotulao a Posteriori
por Voto Majoritrio, Rotulao a Priori por Redes Individuais e Rotulao
Auto-Supervisionada.
Este captulo detalha ainda uma das propostas desta dissertao, que a
utilizao das redes SOM e Fuzzy ART em comits de classicadores, dando origem
s arquiteturas MUSCLE e ARTIE.
4.1 Redes Neurais No-Supervisionadas para Classicao
Antes da aplicao de redes neurais no-supervisionadas em problemas de
classicao, preciso adicionar etapas extras ao seus algoritmos de treinamento.
As tcnicas apresentadas neste captulo foram exploradas por outros pesquisadores
em redes SOM (MONTEIRO et al., 2006), mas seu uso em redes Fuzzy ART no
est documentado.
Assim como no Captulo 3, a informao de rtulo ser representada por um
vetor binrio y(n) R
C
(considerando-se C classes possveis) de comprimento
unitrio, i.e., apenas um de seus elementos possui o valor 1, enquanto os demais
possuem o valor 0. O ndice do elemento com valor 1 corresponde classe do padro
representado pelo vetor de entrada x(n) R
D
. Por exemplo, se existem trs classes
ao todo, ou seja, C = 3, ento trs vetores de rtulos so possveis: um para a
primeira classe, [1 0 0]
T
, outro para a segunda classe, [0 1 0]
T
e um para a terceira
46
4.1. Redes Neurais No-Supervisionadas para Classicao 47
Figura 4.1: Ilustrao da rotulao a posteriori por voto majoritrio. Aps o treinamento
no-supervisionado com os dados no-rotulados, cada neurnio associado a
uma lista de vetores de entrada x(n), cujos rtulos so dados pelos vetores y
n
.
A rotulao ps-treinamento dos neurnios segue a regra do voto majoritrio,
resultando em uma classe sendo associada a cada neurnio. Note que pode
haver neurnios que no so associados a nenhuma classe.
classe, [0 0 1]
T
.
As trs estratgias apresentadas a seguir sero identicadas posteriormente pelos
suxos Ci, i {1, 2, 3}.
4.1.1 Rotulao a Posteriori por Voto Majoritrio (C1)
Nesse mtodo as redes SOM ou Fuzzy ART so treinadas inicialmente da
maneira no-supervisionada usual. Em seguida, um processo de rotulao dos
neurnios (prottipos) ps-treinamento feito apresentando-se os exemplos de
treinamento novamente rede e determinando os neurnios vencedores para cada
vetor de entrada. Esse processo feito de acordo com a Equao (3.15), para
redes SOM, ou com a Equao (3.4), para redes Fuzzy ART. Note que na etapa de
rotulao os pesos dos neurnios no so alterados. A Figura 4.1 ilustra o efeito da
rotulao descrita.
Seja X um conjunto de pares {x(n), y(n)}, em que n = 1, . . . , N. Seja X
i
o
conjunto de n
i
pares de treinamento que foram mapeados no i-simo neurnio (pela
expresso i = arg min
l
{x
j
w
l
}), ou seja,
X
i
=
_
(x
(i)
1
, y
(i)
1
), (x
(i)
2
, y
(i)
2
), , (x
(i)
n
i
, y
(i)
n
i
)
_
. (4.1)
Note que os vetores y
(i)
j
devem possuir apenas uma componente com o valor unitrio,
sendo o resto igual a zero.
Seja ainda o vetor de agregao y
(i)
R
C
denido para o i-simo neurnio:
y
(i)
=
n
i
j=1
y
(i)
j
=
_
_
y
(i)
1
y
(i)
2
.
.
.
y
(i)
k
.
.
.
y
(i)
C
_
_
(4.2)
em que C o nmero de classes.
A classe associada ao i-simo neurnio aquela com maior nmero de ocorrncias
em X
i
. Matematicamente, tem-se a seguinte regra de atribuio:
classe(w
i
) = arg max
k
{y
(i)
k
}. (4.3)
Por exemplo, seja o conjunto X
1
=
_
(x
(1)
1
, y
(1)
1
), (x
(1)
2
, y
(1)
2
), (x
(1)
3
, y
(1)
3
)
_
referente
ao neurnio w
1
, em que n
1
= 3. Sejam os vetores y
(1)
n
dados por:
y
(1)
1
=
_
_
1
0
0
_
_
, y
(1)
2
=
_
_
1
0
0
_
_
, y
(1)
3
=
_
_
0
0
1
_
_
. (4.4)
Assim, o vetor de agregao y
(1)
dado por
y
(1)
=
n
1
j=1
y
(1)
j
=
_
_
1
0
0
_
_
+
_
_
1
0
0
_
_
+
_
_
0
0
1
_
_
=
_
_
2
0
1
_
_
. (4.5)
Da, tem-se
classe(w
1
) = arg max
k=1,2,3
{y
(1)
k
} = 1. (4.6)
Caso haja empate na Equao (4.3), em geral, uma das classes concorrentes
aleatoriamente escolhida. possvel ainda rotular o neurnio em que houve o empate
com base no critrio do vizinho mais prximo ou ainda no rotul-lo, denotando-o
como classe de rejeio durante a fase de teste..
Como exemplicado na Figura 4.1, existe a possibilidade de haver neurnios no
rotulados por no serem sido escolhidos como vencedores durante a fase de rotulao.
Caso um desses neurnios seja escolhido na etapa de teste, o mesmo rejeitado e a
busca por um neurnio rotulado continua.
Em relao s redes SOM, essa estratgia tem sido utilizada em problemas de
classicao de padres em vrios trabalhos (SUGANTHAN, 1999; LAHA; PAL,
2001; CHRISTODOULOU; MICHAELIDES; PATTICHIS, 2003; WYNS et al.,
2004; MONTEIRO et al., 2006). Em redes Fuzzy ART, no entanto, no se tem
conhecimento de trabalhos que utilizem esta estratgia de rotulao de neurnios.
4.1.2 Rotulao a Priori por Redes Individuais (C2)
Nessa segunda abordagem, uma rede SOM (ou Fuzzy ART) treinada para cada
classe disponvel no problema em questo. Cada rede treinada separadamente,
de forma independente e da maneira no-supervisionada usual, usando somente os
dados (vetores) de treinamento daquela classe. Antes da fase de treinamento, no
entanto, preciso separar os exemplos disponveis por classe. Em seguida todos as
amostras de treino so direcionadas para a rede neural correspondente. A Figura
4.2 ilustra a etapa de treinamento descrita.
Sejam x(n), n = 1, . . . , N, os vetores de treinamento disponveis. Inicialmente
separa-se os conjuntos X
1
, X
2
, . . . , X
C
, em que X
i
= {x(n)|classe(x(n)) = C
i
} e C
o nmero de classes.
Figura 4.2: Ilustrao da etapa de treinamento da rotulao a priori por redes
individuais. Note que os neurnios de uma mesma rede esto associados
todos a uma mesma classe desde antes do processo de treinamento. Alm
disso, cada rede s treinada com os vetores de entrada associados classe
que representa.
Sejam ainda as matrizes de pesos W
i
= [w
i,1
w
i,2
w
i,N
wi
], i = 1, . . . , C,
referentes a C redes distintas. Treina-se os N
wi
pesos da i-sima rede com os vetores
do i-simo subconjunto X
i
de maneira no-supervisionada. Note que a informao
de classe dos vetores de entrada no mais necessria, pois j foi utilizada para
separar os subconjuntos X
i
. Da o termo rotulao a priori, pois os neurnios das
redes so rotulados antes do treinamento.
A etapa de teste consiste em realizar a seguinte atribuio classe do padro
desconhecido x
:
k
= classe(x
) = arg min
k
{x
k
}, (4.7)
em que w
k
o neurnio vencedor da k-sima rede, encontrado pela Equao (3.15),
no caso da rede SOM, ou pela Equao (3.4), no caso da rede Fuzzy ART. A Figura
4.3 ilustra essa fase de teste.
Assim como a estratgia C1, a estratgia C2 tambm tem sido usada j h algum
tempo no projeto de classicadores de padres baseados na rede SOM (SOUZA
JNIOR; BARRETO; VARELA, 2011; BIEBELMANN; KPPEN; NICKOLAY,
1996); entretanto, essa tcnica no tem sido usada em conjuno com redes Fuzzy
ART, ou em qualquer outra rede no-supervisionada da famlia ART.
4.1.3 Rotulao Auto-Supervisionada (C3)
Uma terceira estratgia consiste em tornar o treinamento de uma rede SOM
(ou Fuzzy ART) supervisionado ao adicionar a informao de rtulo a cada vetor
do conjunto de treinamento. Tem-se agora o vetor de entrada x(n) formado pela
Figura 4.3: Ilustrao da etapa de teste da rotulao a priori por redes individuais. O
neurnio vencedor buscado em todas as redes, sendo a classe deste escolhida
para estimar a classe do padro desconhecido.
concatenao de dois outros vetores: x
p
(n) e x
l
(n), em que x
p
(n) R
D
o prprio
vetor de atributos e x
l
(n) R
C
o seu rtulo correspondente, ou seja, x
l
(n) possui
valor 1 somente na componente referente classe de x
p
(n) e zero nas demais.
Antes do algoritmo de treinamento ser iniciado, os dois vetores mencionados so
concatenados, formando um vetor de entrada aumentado:
x(n) =
_
_
x
p
(n)
x
l
(n)
_
_
, x(n) R
D+C
. (4.8)
Os vetores de pesos correspondentes so formados de maneira semelhante:
w
i
(n) =
_
_
w
p
i
(n)
w
l
i
(n)
_
_
, w
i
(n) R
D+C
. (4.9)
Tais vetores so ajustados da maneira usual durante o treinamento da rede SOM
(ou Fuzzy ART).
Durante a etapa de reconhecimento de um vetor desconhecido x, busca-se por
um neurnio vencedor na rede atravs da seguinte equao:
i
= arg min
i
{x
p
w
p
i
} . (4.10)
4.2. Arquitetura ARTIE: ART in Ensembles 52
A classe do padro desconhecido estimada por
j
= classe(x
p
) = arg max
j
_
w
l
i
j
_
, (4.11)
em que w
l
i
j
a j-sima componente do vetor w
l
i
interessante perceber que, apesar da estratgia de rotulao

auto-supervisionada ter acesso aos rtulos conhecidos no incio da fase treinamento,
estes so vistos como conjuntos de atributos, de mesma importncia que os
atributos do padro de entrada. Essa considerao constitui uma diferena
importante em relao ao uso do conhecimento do rtulo em algoritmos de
treinamento supervisionado, como na rede Fuzzy ARTMAP, por exemplo.
Assim como as abordagens C1 e C2, a estratgia C3 j foi usada
em classicadores SOM por outros autores (KOHONEN, 1988b; KANGAS;
KOHONEN; LAAKSONEN, 1990; HOYO; BULDAIN; MARCO, 2003; XIAO et
al., 2005), mas no existem trabalhos sobre seu uso em redes Fuzzy ART.
4.2 Arquitetura ARTIE: ART in Ensembles
A rede Fuzzy ARTMAP, como descrita na Seo 3.2.1, uma tcnica de
aprendizagem supervisionada formada a partir de mdulos do algoritmo Fuzzy ART.
Por causa da sua natureza supervisionada, redes Fuzzy ARTMAP constituem uma
escolha natural para classicadores base em comits de classicadores. Esta foi a
abordagem utilizada, por exemplo, por Santos e Canuto (2008b) e Loo et al. (2006).
Entretanto, como formalizado anteriormente, as estratgias C1, C2 e C3 permitem
que redes Fuzzy ART sejam aplicadas em problemas de classicao de padres.
Dessa maneira, redes Fuzzy ART tambm podem ser escolhidas como classicadores
base de um comit de classicadores. A utilizao das variantes supervisionadas da
rede Fuzzy ART em comits leva proposio do modelo ARTIE, que, de acordo
com o mtodo usado para tornar o algoritmo Fuzzy ART supervisionado, possui trs
denominaes:
- ARTIE-C1: comit de classicadores baseados na rede Fuzzy ART com
rotulao a posteriori por voto majoritrio;
rotulao a priori por redes individuais;
4.2. Arquitetura ARTIE: ART in Ensembles 53
Figura 4.4: Arquiteturas dos modelos ARTIE e MUSCLE. Note que o comit de L
classicadores obtido com o uso de Bagging no conjunto de treinamento
original.
rotulao auto-supervisionada.
A Figura 4.4 mostra a arquitetura do modelo ARTIE.
A vantagem imediata de usar classicadores baseados na Fuzzy ART no lugar de
classicadores Fuzzy ARTMAP est no fato desta apresentar maior complexidade
que aquela, dado que na rede Fuzzy ARTMAP so usadas duas redes Fuzzy ART,
envolvendo maior custo computacional. Alm disso, a rede Fuzzy ART no necessita
da matriz Inter-Map M, o que economiza memria.
importante ressaltar que os modelos ARTIE podem ser homogneos ou
heterogneos. No primeiro caso, somente so usados classicadores baseados na
rede Fuzzy ART obtidos atravs do mesmo mtodo, ou seja, classicadores Fuzzy
ART-Ci para i igual a 1, 2 ou 3. J um modelo ARTIE heterogneo composto
por classicadores baseados na rede Fuzzy ART obtidos por diferentes mtodos, ou
seja, classicadores Fuzzy ART-Ci, i {1, 2, 3}.
Alguns parmetros das redes Fuzzy ART que compem o modelo ARTIE
precisam ser determinados a priori ; mais especicamente, o parmetro de vigilncia
, o parmetro de escolha e o passo de aprendizagem . Nesta dissertao opta-se
4.3. Arquitetura MUSCLE: Multiple SOM Classiers in Ensembles 54
por uma abordagem metaheurstica em busca de valores timos para tais parmetros,
que so especcos de cada problema de classicao. A estratgia aplicada envolve
um novo algoritmo PSO hbrido a ser descrito em detalhes na Seo 5.5.
4.3 Arquitetura MUSCLE: Multiple SOM Classiers in
Ensembles
Como mencionado anteriormente, comits de classicadores formados a partir
de redes SOM esto disponveis na literatura j h algum tempo (PETRIKIEVA;
FYFE, 2002; CORCHADO; BARUQUE; YIN, 2007). Nestes trabalhos, apenas a
estratgia C1 foi utilizada para viabilizar a aprendizagem supervisionada em redes
SOM. Entretanto, as abordagens C2 e C3 tambm podem ser escolhidas para o
mesmo propsito. Nesta dissertao um estudo mais amplo sobre comits de redes
SOM feito, explorando as trs tcnicas descritas na Seo 4.1. Essa ideia leva
proposio do modelo MUSCLE com as seguintes variantes:
- MUSCLE-C1: comit de classicadores baseados na rede SOM com rotulao
a posteriori por voto majoritrio;
a priori por redes individuais;
auto-supervisionada.
A arquitetura do modelo MUSCLE semelhante do modelo ARTIE, substituindo
as redes Fuzzy ART pelas redes SOM, como apresentado na Figura 4.4.
Como no modelo ARTIE, o modelo MUSCLE tambm pode ser homogneo ou
heterogneo. No primeiro caso tem-se o uso exclusivo de redes SOM-Ci para i igual
a 1, 2 ou 3, enquanto no segundo caso tem-se classicadores SOM-Ci, i {1, 2, 3}.
Em Petrikieva e Fyfe (2002) reportado um estudo sobre a combinao de
resultados de diferentes redes SOM treinadas independentemente. Os autores
ressaltam a diculdade encontrada ao se comparar mltiplos mapas em aplicaes
de quantizao vetorial ou anlise de agrupamento, pois estes podem apresentar
topologias nais diferentes. Entretanto, no mesmo trabalho conclui-se que tal
diculdade no existe quando as redes SOM so usadas para classicao, pois
4.4. Concluses 55
a combinao das classes preditas pelos mapas pode ser realizada sem maiores
diculdades, por exemplo, por voto majoritrio simples. Os autores constatam
experimentalmente no mesmo artigo que o uso de Bagging em redes SOM diminui
o erro de generalizao.
Assim como o modelo ARTIE, o modelo MUSCLE tambm possui parmetros
a serem especicados a priori. Os principais parmetros so as dimenses dos
mapas (P
1
e P
2
), os valores inicial e nal do passo de aprendizagem (
0
e
f
) e
os valores inicial e nal do parmetro de espalhamento (
0
e
f
). Esses parmetros
so especcos para cada problema de classicao e, nesta dissertao, sero
determinados atravs de um algoritmo PSO hbrido a ser apresentado na Seo
5.5.
4.4 Concluses
Neste captulo foram apresentadas trs estratgias que permitem algoritmos
originalmente no-supervisionados serem usados em problemas de classicao de
padres. Mais especicamente, foram detalhados os mtodos de rotulao por voto
majoritrio, rotulao por redes individuais e rotulao auto-supervisionada.
A aplicao dessas trs abordagens nos algoritmos no-supervisionados Fuzzy
ART e SOM, seguida pela utilizao dos classicadores resultantes em comits,
levam, respectivamente, proposio dos modelos ARTIE e MUSCLE.
No Captulo 5 ser apresentado um algoritmo metaheurstico que ser utilizado
para encontrar parmetros que conduzam ao melhor classicador base possvel em
termos de taxa de acerto.
Captulo 5
Otimizao Metaheurstica:
Fundamentos e um Novo Algoritmo
Mtodos de otimizao so aplicados em todas as reas da Engenharia
(BELEGUNDU; CHANDRUPATLA, 2011). A resoluo de muitos problemas
reais envolve a escolha de um conjunto de parmetros que permita a obteno
de uma resposta desejada para um sistema em estudo. Entretanto, pelo nvel de
complexidade muitas vezes observado, solues analticas no so sempre possveis
de serem obtidas. Uma alternativa vivel consiste em usar mtodos de busca por
solues aproximadas, como mtodos de otimizao estocstica.
Nesta dissertao mtodos metaheursticos (inclusos na categoria de mtodos
de otimizao estocstica) so aplicados para seleo de parmetros timos
para os classicadores base dos comits construdos e para seleo de atributos.
Mais especicamente, a soluo do problema envolve um modelo contnuo, para
sintonia dos parmetros dos classicadores, e um modelo binrio, para seleo de
atributos. Como ser apresentado a seguir, estes dois modelos podem ser otimizados
simultaneamente.
Este captulo descreve uma tcnica de otimizao metaheurstica hbrida capaz
de obter solues para os problemas mencionados.
5.1 Denio do Problema de Otimizao
Seja R
D
um domnio de valores possveis para o vetor x D. O objetivo de
um problema de otimizao consiste em encontrar valores para x que minimizem
56
5.2. Otimizao estocstica 57
uma determinada funo escalar f(x), chamada de funo de perdas ou funo de
avaliao, ou ainda, de funo-objetivo. Formalmente, problemas de otimizao
podem ser descritos pela expresso abaixo (GENTLE; HRDLE; MORI, 2004):
arg min
x
f(x) = {x
: f(x
), x }, (5.1)
em que
o conjunto de solues que minimiza a funo f(x) para x = x
.
Uma das principais diculdades encontradas durante a resoluo de um problema
de otimizao envolve da denio da funo-objetivo, pois esta pode ser no-linear,
no-diferencivel e depender de parmetros de dimenso elevada. Para esta classe
de problemas a aplicao de mtodos de otimizao clssicos determinsticos pode
ser inadequada. Tcnicas estocsticas, por outro lado, no possuem essas restries.
5.2 Otimizao estocstica
Uma estratgia para a soluo de problemas de otimizao consiste em construir
um espao de solues a partir das variveis em estudo. Considerando que esse
espao apresente solues vizinhas similares, ou seja, boas solues esto agrupadas
e situam-se longe de solues ruins, pode-se reduzir consideravelmente o custo da
otimizao atravs de mtodos de busca. Tais mtodos podem ser de natureza
determinstica ou estocstica (LVBJERG, 2002).
Algoritmos de otimizao estocstica tm sido muito utilizados na resoluo
de problemas (BELEGUNDU; CHANDRUPATLA, 2011) que apresentam muitas
variveis, funes objetivo no diferenciveis ou fracamente denidas
1
. Problemas
com estas caractersticas so comuns em situaes reais e frequentemente no podem
ser resolvidos de maneira satisfatria (compromisso entre qualidade da soluo e
tempo de processamento) por mtodos determinsticos. importante perceber que
nem sempre a soluo tima exata obtida em tcnicas estocsticas, mas sim uma
soluo subtima, normalmente prxima da ideal e que possa ser obtida em tempo
hbil.
Em suma, mtodos de busca estocstica possuem vantagens sobre mtodos
determinsticos exatos. Em primeiro lugar, a abordagem estocstica permite resolver
problemas complexos a partir de pouca informao a priori sobre o problema. Alm
1
Por fracamente denida entende-se que a funo objetivo fora obtida empiricamente ou que
explique somente em parte a operao do sistema a ser otimizado.
5.3. Mtodos metaheursticos 58
disso, possvel a obteno de resultados parciais a cada passo de execuo do
algoritmo, tornando possvel a realizao de uma troca entre a qualidade da soluo
e o tempo de processamento (LVBJERG, 2002).
De maneira geral, algoritmos de otimizao estocstica so mtodos de
otimizao que apresentam comportamento probabilstico na gerao de solues
para o problema ou no processo de busca em si (SPALL, 2003). No caso de
interesse, as variveis do problema e a funo objetivo que se deseja otimizar so
determinsticas, enquanto as regras que regem a busca no espao de solues so
probabilsticas.
5.3 Mtodos metaheursticos
A palavra heurstica originada da palavra grega heuriskein, que signica a arte
de descobrir novas estratgias para resolver problemas. J o prexo meta, tambm
de origem grega, signica em um nvel superior (TALBI, 2009). Em Glover (1986),
a expresso tcnicas de busca metaheursticas introduzida e denida como sendo
metodologias gerais, em um nvel mais elevado de abstrao, capazes de guiar a
modelagem de soluo de problemas de otimizao.
Comumente, metaheursticas so desenvolvidas a partir da observao da
natureza. Fenmenos naturais mostram que possvel resolver problemas difceis
a partir de interaes aleatrias locais. Como exemplo, pode-se citar o trabalho
conjunto de uma colnia de formigas em busca da melhor rota at fontes de alimento.
So exemplos de metaheursticas as seguintes tcnicas:
- Otimizao por Enxame de Partculas (PSO, Particles Swarm
Optimization) (KENNEDY; EBERHART, 1995);
- Algoritmos Genticos (AG) (HOLLAND, 1975);
- Recozimento Simulado (SA, Simulated Annealing) (KIRKPATRICK
et al., 1983);
- Otimizao por Colnia de Formigas (ACO, Ant Colony
Optimization) (DORIGO, 1992).
Algoritmos como PSO, AG e ACO so baseados em populaes de
solues, ou seja, a cada iterao um conjunto de possveis solues so
5.4. Otimizao por Enxame de Partculas 59
testadas e possivelmente aprimoradas. Enquanto isso, tcnicas orientadas
a trajetria, como o mtodo SA, determinam uma nica soluo a cada
iterao (ANGHINOLFI; PAOLUCCI, 2008).
5.4 Otimizao por Enxame de Partculas
Nesta seo analisa-se a tcnica PSO, uma das mais populares metaheursticas
para otimizao de funes. Diversos conceitos e operaes desse algoritmo sero
descritos, enquanto maiores detalhes podem ser conferidos nas referncias citadas.
5.4.1 PSO original
Proposto por Kennedy e Eberhart (1995), a tcnica PSO inspirada no
comportamento social e na auto-organizao de grupos de pssaros migratrios
e cardumes de peixes. O comportamento social, demonstrado a partir da
troca de informao entre os elementos da populao, gera a explorao por
melhores solues, enquanto o aprendizado individual corresponde componente
de explotao
2
. Esse mtodo tem se mostrado eciente e de simples execuo para
a resoluo de vrios problemas reais de otimizao.
A verso original da tcnica PSO envolve a considerao de um enxame
de partculas distribudas em um espao de solues, sendo a posio de uma
determinada partcula correspondente a uma possvel soluo. Cada partcula possui
ainda uma velocidade associada que indica a sua tendncia de movimento pelo
espao. As informaes obtidas por cada partcula so utilizadas na busca por boas
solues a partir de uma organizao em que todas as partculas tm conhecimento
da melhor posio alcanada pelas demais. Essa forma de organizao caracteriza
uma topologia global de enxame.
5.4.2 PSO padro 2007
Em Bratton e Kennedy (2007), sendo o ltimo um dos criadores do algoritmo
PSO original, analisa-se as diversas variaes propostas por pesquisadores desde a
proposio da primeira verso do algoritmo. Neste mesmo trabalho apresentada
uma sugesto de padronizao para mtodos baseados em PSO, reunindo vrias
caractersticas que melhoram o desempenho da tcnica PSO original. Essa verso
2
Explotao um neologismo criado a partir da palavra exploitation, em ingls. Nesta
dissertao, o termo explotao refere-se ao processo de explorao do espao de busca considerando
as informaes das regies anteriormente visitadas
(a) Topologia global de enxame. (b) Topologia local de enxame.
Figura 5.1: Topologias de enxame mais comuns na aplicao do algoritmo PSO
(EBERHART; KENNEDY, 1995).
do algoritmo tem sido chamada desde ento de PSO padro 2007 (Standard PSO
2007).
A variao mais importante envolve alterao da topologia global do enxame de
partculas para uma topologia local. Nessa abordagem, apresentada pela primeira
vez em Eberhart e Kennedy (1995), cada partcula s capaz de conhecer a
melhor soluo dentro de sua vizinhana, ou seja, a melhor soluo dentro de um
subconjunto de partculas. No caso em que uma partcula se comunica somente com
as duas partculas adjacentes a ela, tem-se uma topologia de enxame com formato
de anel. Nas Figuras 5.1(a) e 5.1(b) esto mostradas as duas topologias, global e
local.
A topologia local tende a apresentar uma convergncia mais lenta que a
topologia global, pois a troca de informao ocorre em pequenos grupos de
partculas, ocasionando a formao de vrios grupos de busca inicialmente separados.
Entretanto, essa caracterstica permite verso local do PSO evitar a convergncia
prematura em um subtimo local indesejvel.
As demais caractersticas do mtodo PSO padro 2007 sero apresentadas na
descrio do seu algoritmo, na seo seguinte.
5.4.2.1 Algoritmo PSO padro 2007
Sejam x
i
R
D
e v
i
R
D
, respectivamente, os vetores de posio e de velocidade
do i-simo elemento de um enxame de partculas D-dimensionais, em que D o
nmero de variveis das solues. Sejam ainda p
i
R
D
e pl
k
R
D
, respectivamente,
os vetores de melhor posio histrica individual da partcula i e melhor posio
histrica da vizinhana k. Abaixo tem-se a denio desses vetores:
x
i
= [x
i1
x
i2
x
iD
]
T
,
v
i
= [v
i1
v
i2
v
iD
]
T
,
p
i
= [p
i1
p
i2
p
iD
]
T
,
pl
k
= [pl
k1
pl
k2
pl
kD
]
T
.
Considerando-se a funo objetivo f() e um total de L
PSO
geraes (iteraes),
as etapas do algoritmo de otimizao PSO padro 2007 so apresentadas a seguir.
Inicializao. Iniciam-se as variveis do enxame de partculas com os seguintes
valores:
x
i
(0) = x
min
+ (x
max
x
min
)u,
v
i
(0) = (x
max
x
min
)u x
i
(0),
p
i
(0) = 0
D
,
pl
k
(0) = 0
D
,
em que u R
D
um vetor de nmeros aleatrios uniformemente distribudos
no intervalo [0, 1], 0
D
o vetor nulo de dimenso D e x
min
R
D
e x
max
R
D
so respectivamente os menores e maiores valores das variveis que compem
uma possvel soluo.
Inicia-se ento a primeira gerao do algoritmo, fazendo n = 1.
Avaliao do enxame. Todas as solues do exame da gerao n so avaliadas,
ou seja, calcula-se f(x
i
(n)) para cada partcula x
i
(n). Caso seja a primeira
gerao, i.e. n = 1, p
i
(1) recebe a posio atual x
i
(1) e pl
k
(1) recebe a melhor
posio entre as partculas da vizinhana k.
Caso no seja a primeira gerao, os vetores p
i
(n) e pl
k
(n) recebem os seguintes
valores:
se f(x
i
(n)) > f(p
i
(n)), p
i
(n) = x
i
(n), i (5.2)
p
kmax
(n) = arg max
iN
k
{f(p
i
(n))}, k (5.3)
se f(p
kmax
(n)) > f(pl
k
(n)), pl
k
(n) = p
kmax
(n), k, (5.4)
em que N
k
o conjunto formado pelas partculas da k-sima vizinhana.
Atualizao do enxame. Calculam-se as novas velocidades v
i
(n + 1) e posies
x
i
(n + 1) das partculas do enxame por meio das equaes abaixo:
v
i
(n + 1) = {v
i
(n) + c
1
r
1
[p
i
(n) x
i
(n)] + c
2
r
2
[pl
k
(n) x
i
(n)]},(5.5)
x
i
(n + 1) = x
i
(n) +v
i
(n + 1), (5.6)
em que c
1
e c
2
so constantes positivas chamadas de coecientes de acelerao
e r
1
e r
2
so nmeros aleatrios independentes uniformemente distribudos no
intervalo [0, 1]. O parmetro denominado fator de constrio e dado por
=
2
2
_
2
4
, em que = c
1
+ c
2
. (5.7)
O fator de constrio, proposto inicialmente em Clerc e Kennedy (2002),
constitui outra incorporao do algoritmo padro 2007 em relao ao algoritmo
original. Este fator concede mais estabilidade ao algoritmo, proporcionando
um equilbrio entre a busca local de cada partcula e a comunicao com as
partculas vizinhas.
O termo c
2
r
2
[pl
k
(n) x
i
(n)] da Equao (5.5) relativo troca de informao
entre as partculas de uma mesma vizinhana, constituindo a componente de
cooperao do algoritmo. J o termo v
i
(n) + c
1
r
1
[p
i
(n) x
i
(n)] da Equao
(5.5) indica a busca local motivada pelo histrico experimentado por cada
partcula.
Aps a etapa de atualizao das partculas a gerao atual incrementada (n
n + 1) e os passos de avaliao e atualizao do enxame so repetidos por um total
de L
PSO
geraes. A soluo nal obtida pelo algoritmo corresponde a
p
= arg max
k
{f(pl
k
(L
PSO
))}. (5.8)
5.4.3 Algoritmo PSO binrio
O mtodo PSO original considera variveis reais contnuas durante o processo
de otimizao, ou seja, para uma soluo representada pelo vetor D-dimensional
x = [x
1
x
2
x
D
]
T
, tem-se que x
j
R, j.
Entretanto, existem problemas cujo modelo envolve variveis binrias, em
domnio discreto. O problema da seleo dos atributos a serem usados por um
classicador um exemplo em que essa modelagem binria pode ser feita: para
cada atributo associa-se uma varivel binria em que o valor 0 indica que o atributo
no usado e o valor 1 indica seu uso.
Kennedy e Eberhart (1997), propuseram uma verso PSO binria, capaz de
operar variveis binrias em domnios discretos. Em Khanesar, Teshnehlab e
Shoorehdeli (2007) proposta uma reformulao dessa verso binria do algoritmo.
Devido aos bons resultados experimentais obtidos em Khanesar, Teshnehlab e
Shoorehdeli (2007), esta ser a verso PSO binria usada nesta dissertao.
A soluo passa a ser composta por variveis binrias, i.e. a posio da partcula
i representada pelo vetor x
i
com D componentes dadas por x
ij
{0, 1}, j =
1, 2, , D. As partculas so atualizadas da seguinte maneira:
(i) Calculam-se as seguintes velocidades referentes j-sima componente da
i-sima partcula na iterao n do algoritmo:
v
1
ij
(n + 1) = {v
1
ij
(n) + d
1
ij,1
+ d
1
ij,2
}, (5.9)
v
0
ij
(n + 1) = {v
0
ij
(n) + d
0
ij,1
+ d
0
ij,2
}, (5.10)
em que os valores parciais so obtidos pelas equaes abaixo:
Se p
ij
(n) = 1, Ento d
1
ij,1
= c
1
r
1
, e d
0
ij,1
= c
1
r
1
, (5.11)
Se p
ij
(n) = 0, Ento d
0
ij,1
= c
1
r
1
, e d
1
ij,1
= c
1
r
1
, (5.12)
Se pl
kj
(n) = 1, Ento d
1
ij,2
= c
2
r
2
, e d
0
ij,2
= c
2
r
2
, (5.13)
Se pl
kj
(n) = 0, Ento d
0
ij,2
= c
2
r
2
, e d
1
ij,2
= c
2
r
2
. (5.14)
Note que p
ij
(n) e pl
kj
(n) so, respectivamente, componentes dos vetores p
i
(n)
e pl
k
(n), denidos na Seo 5.4.2 para o mtodo PSO padro 2007. Note
ainda que a vizinhana k aquela referente partcula i. Os coecientes
de acelerao c
1
e c
2
, assim como o fator de constrio , so os mesmos
da Equao (5.5), enquanto r
1
e r
2
so nmeros aleatrios independentes
uniformemente distribudos no intervalo [0, 1].
A velocidade v
1
ij
(n+1) representa a chance da componente x
ij
mudar de 0 para
1, enquanto a velocidade v
0
ij
(n +1) pode ser vista como a chance da transio
no sentido oposto. Dessa maneira, somente uma delas considerada para cada
componente:
Se x
ij
(n) = 0, Ento v
ij
(n + 1) = v
1
ij
(n + 1), (5.15)
Se x
ij
(n) = 1, Ento v
ij
(n + 1) = v
0
ij
(n + 1), (5.16)
(ii) Atualizam-se as componentes da soluo x
i
:
Se s(v
ij
(n + 1)) U(0, 1), (5.17)
Ento x
ij
(n + 1) = 1 x
ij
(n), (5.18)
Seno x
ij
(n + 1) = x
ij
(n), (5.19)
em que U(0, 1) um nmero aleatrio uniformemente distribudo no intervalo
[0, 1] e s() uma funo sigmoidal, comumente denida por
s(v
ij
) =
1
1 + exp(v
ij
)
. (5.20)
Note que somente aps a aplicao da funo s() a velocidade v
ij
passa a
representar uma probabilidade, pois o valor s(v
ij
) encontra-se no intervalo
[0, 1].
interessante perceber que a maneira como foram denidas as verses contnuas
e discretas do algoritmo PSO permite que as duas abordagens sejam usadas
simultaneamente, no caso de problemas que envolvam variveis reais e binrias.
Esse procedimento realizado em Huang e Dun (2008), Yao, Cai e Zhang (2009),
Guo (2009)
Por exemplo, para uma soluo composta por duas variveis reais (x
i1
(n) e
x
i2
(n)) e trs variveis binrias (x
i3
(n), x
i4
(n) e x
i5
(n)), tem-se o seguinte vetor de
5.5. Uma Verso Hbrida Melhorada do Algoritmo PSO 65
posio para a i-sima partcula:
x
i
(n) = [x
i1
(n) x
i2
(n) x
i3
(n) x
i4
(n) x
i5
(n)]
T
. (5.21)
Nesse caso os passos do algoritmo PSO descrito na Seo 5.4.2 seriam seguidos
normalmente. Porm, na etapa de atualizao das posies da partcula i, o
segmento x
r
i
(n) = [x
i1
(n) x
i2
(n)]
T
seria atualizado pela Equao (5.6), enquanto o
segmento x
b
i
(n) = [x
i3
(n) x
i4
(n) x
i5
(n)]
T
seria atualizado de acordo com as Equaes
(5.18) ou (5.19).
5.5 Uma Verso Hbrida Melhorada do Algoritmo PSO
Com o crescimento da utilizao da tcnica PSO, vrias formas de hibridizao
foram propostas, buscando reduzir o efeito de caractersticas indesejveis do
algoritmo original, como a alta dependncia de parmetros regulveis e a
possibilidade de convergncia prematura a partir da supervalorizao de uma soluo
especca. Como exemplos podem ser citados a utilizao de PSO com AG em Kim,
Abraham e Hirota (2007), com elementos de Lgica Fuzzy em Liu e Abraham (2007),
com ACO em Holden e Freitas (2008) e com busca catica em Liu et al. (2005).
Comumente tcnicas hbridas apresentam estrutura geral determinada por
uma metaheurstica especca enquanto utilizam outros algoritmos, tambm
metaheursticos, para realizar procedimentos de busca local e garantir um equilbrio
entre explorao e explotao.
Nesta seo apresentada uma tcnica hbrida entre os mtodos PSO e SA.
Antes, porm, uma rpida descrio do algoritmo SA realizada.
5.5.1 Recozimento Simulado
O algoritmo de otimizao SA, proposto por Kirkpatrick et al. (1983), uma
abstrao computacional do processo de recozimento utilizado na metalurgia, em que
um slido inicialmente fundido a uma alta temperatura para em seguida passar
por uma lenta etapa de resfriamento que volta a solidicar o material. No primeiro
momento os tomos do slido recebem energia suciente para se movimentarem mais
livremente, enquanto o resfriamento lento resulta na diminuio da movimentao
desses tomos que, ao nal de todo o processo, passam a ocupar posies com energia
mnima.
Na otimizao feita por SA, assim como no conhecido algoritmo Hill Climbing
(RUSSEL; NORVIG, 1996), novas solues so geradas aleatoriamente e a soluo
atual trocada pela nova caso esta seja melhor. A diferena est na existncia de
uma probabilidade de aceitao de uma soluo pior que a atual. Essa probabilidade
regida por uma temperatura controlada de forma a causar uma chance cada vez
menor de se escolher solues piores. Assim, no incio do algoritmo a troca de
solues freqente, enquanto que ao nal torna-se mais difcil de ocorrer. Essa
tcnica evita a escolha de uma soluo sub-tima logo no incio da otimizao,
permitindo uma melhoria na qualidade da soluo nal.
5.5.2 Algoritmo I-HPSO (Improved Hybrid PSO)
A estagnao do processo de busca em timos locais um fenmeno frequente em
algoritmos com populaes de solues. Em contrapartida, tais tcnicas costumam
apresentar vasta explorao no espao de solues, principalmente no incio de
sua execuo, alm de se beneciarem da troca de informao entre elementos
da populao. A partir dessas ideias e da tendncia de hibridizao comentada
anteriormente, percebe-se a vantagem em incorporar o sistema de busca do mtodo
SA em um algoritmo de populaes, buscando somar as qualidades do algoritmo SA
e reduzir as decincias do algoritmo PSO.
He e Wang (2007) propuseram uma variao do algoritmo PSO original chamada
HPSO (Hybrid PSO) ao adicionar regras para tratar problemas de otimizao com
restries e uma etapa de busca local baseada em SA. Em diversos experimentos de
otimizao de funes realizados em He e Wang (2007), essa nova tcnica se mostrou
superior ao mtodo PSO original.
Nesta dissertao proposto o algoritmo I-HPSO, que consiste em aplicar a
etapa de busca local via SA, presente no mtodo HPSO, no algoritmo PSO padro
2007, denido na Seo 5.4.2.1. Dessa maneira, as principais diferenas entre os
mtodos I-HPSO e HPSO so: (i) o uso da topologia local para o enxame de
partculas, visando evitar a convergncia prematura do algoritmo. (ii) uso do fator
de constrio, como apresentado na Equao (5.7), o que promove maior estabilidade
ao processo de otimizao.
preciso mencionar ainda que, considerando a aplicao desejada nesta
dissertao (seleo de parmetros e atributos do classicador base), no sero
usadas funes objetivo com restries. Logo, no sero usadas as regras para tratar
restries propostas em He e Wang (2007).
O algoritmo I-HPSO apresenta os mesmos passos descritos para o PSO padro
2007 na Seo 5.4.2. Entretanto, aps a etapa de atualizao do enxame, segue
a etapa de busca local. Considerando um total de L
SA
iteraes nessa etapa, as
operaes a seguir so executadas na iterao m.
Busca local via SA. Seleciona-se a melhor soluo histrica encontrada por todas
as vizinhanas na gerao n do algoritmo I-HPSO
pl
(m) = arg max

k
{f(pl
k
(n))}. (5.22)
Em seguida, gera-se uma nova soluo a partir de pequenas alteraes
aleatrias no vetor pl
max
:
x
(m) = pl
(m) +
SA
(x
max
x
min
)g(0, I), (5.23)
em que
SA
um passo de incremento e g(0, I) um vetor aleatrio
D-dimensional de distribuio gaussiana com mdia zero e matriz de
covarincia igual matriz identidade. Calcula-se ento a probabilidade de
aceitao da nova soluo gerada:
P
a
= min
_
1, exp
_
f(pl
(m)) f(x
(m))
t(n)
__
, (5.24)
em que t(n) constitui o valor do parmetro de temperatura durante a gerao
n do algoritmo I-HPSO.
Caso P
a
u(0, 1), em que u(0, 1) um nmero aleatrio uniformemente
distribudo no intervalo [0, 1], a prxima iterao de busca local ser feita
a partir da soluo x
(m), o que equivale a fazer pl
(m + 1) = x
(m). Caso
contrrio, mantm-se a busca local na soluo anterior, i.e. pl
(m + 1) =
pl
(m). A iterao da busca local incrementada (m m + 1) e os passos

dessa etapa so repetidos at m = L
SA
.
O parmetro de temperatura t(n) determina uma maior ou menor probabilidade
de o algoritmo aceitar uma soluo inferior a atual. Por esse motivo a temperatura
deve ser reduzida ao longo das n geraes do algoritmo I-HPSO. O processo de
5.6. Concluses 68
reduo de temperatura escolhido o exponencial, ou seja, t(n+1) = t(n), em que
a taxa de recozimento satisfaz 0 < < 1.
Para a execuo do algoritmo, He e Wang (2007) sugerem o seguinte valor
emprico para a temperatura inicial:
t
0
=
f
max
f
min
ln(0.1)
, (5.25)
em que f
max
e f
min
so o maior e o menor valor da funo objetivo encontrados no
enxame inicial de partculas.
O Algoritmo 5.1 resume os passos do mtodo I-HPSO, enquanto o Algoritmo
5.2 apresenta as operaes da etapa de busca local.
5.6 Concluses
Neste captulo foi feita uma breve reviso sobre otimizao metaheurstica com
nfase no algoritmo PSO e algumas de suas modicaes. Foi detalhada ainda uma
nova tcnica hbrida, o algoritmo I-HPSO, a partir de melhorias implementadas no
mtodo HPSO, proposto em He e Wang (2007).
Para os algoritmos de aprendizado apresentados no Captulo 3 praticamente
impossvel determinar por tentativa e erro os parmetros timos a serem usados
para cada conjunto de dados. Um dos motivos desta diculdade a alta dimenso
do espao de busca. No caso dos parmetros dos classicadores base, em que os
valores so contnuos (nmeros reais), a busca exaustiva se torna ainda mais difcil.
Como foi apresentado neste captulo, mtodos metaheursticos apresentam-se
como alternativas viveis ao realizar buscas por solues aceitveis a partir de uma
funo objetivo que explique, pelo menos em parte, a operao do sistema.
No caso dos classicadores de padres estudados nesta dissertao, uma funo
objetivo vlida a taxa de acerto do classicador dado um conjunto de parmetros
a serem otimizados pelo algoritmo I-HPSO.
Alm disso, conforme discutido na Seo 5.4.3, possvel a partir da verso
binria do mtodo PSO selecionar os atributos mais relevantes em um determinado
conjunto de dados. Nessa mesma seo foi apresentado a possibilidade dessa escolha
ser feita ao mesmo tempo em que se realiza a otimizao contnua de outras variveis
da soluo.
5.6. Concluses 69
Algoritmo 5.1 Algoritmo I-HPSO.
Constantes
N
p
: nmero de partculas do enxame
L
PSO
: nmero mximo de geraes do algoritmo
c
1
e c
2
: coecientes de acelerao das partculas
Entradas
x
min
, x
max
: valores mnimos e mximos para as variveis da soluo, dimenso D
f(): funo objetivo que se deseja otimizar
Algoritmo
Criar e inicializar as partculas do enxame (i = 1, 2, . . . , N
p
)
x
i
(0) = x
min
+ (x
max
x
min
)u
v
i
(0) = (x
max
x
min
)u x
i
(0)
p
i
(0) = 0
D
, pl
k
(0) = 0
D
2. Lao temporal (n = 1, 2, . . . , L
PSO
)
2.1 Avaliar o enxame de partculas, i.e. i calcular f(x
i
(n))
Se f(x
i
(n)) > f(p
i
(n)), fazer p
i
(n) = x
i
(n)
k calcular p
kmax
(n) = arg max
iN
k
{f(p
i
(n))}
Se f(p
kmax
(n)) > f(pl
k
(n)), fazer pl
k
(n) = p
kmax
(n)
2.2 Atualizar as velocidades das partculas
v
i
(n + 1) = {v
i
(n) + c
1
r
1
[p
i
(n) x
i
(n)] + c
2
r
2
[pl
k
(n) x
i
(n)]}
2.2 Atualizar as posies das partculas
x
i
(n + 1) = x
i
(n) +v
i
(n + 1)
2.3 Iniciar o passo de Busca Local descrito no Algoritmo 5.2
p
= arg max
k
{f(pl
k
(L
PSO
))}: melhor soluo encontrada pelo algoritmo
5.6. Concluses 70
Algoritmo 5.2 Busca Local do algoritmo I-HPSO.
Constantes
: taxa de recozimento
L
SA
: nmero de iteraes da etapa de busca local
SA
: passo de incremento
Entradas
x
min
, x
max
: valores mnimos e mximos para as variveis da soluo, dimenso D
f(): funo objetivo que se deseja otimizar
n: gerao atual do algoritmo I-HPSO
Algoritmo
1. Inicializao (m = 0)
Encontrar a melhor posio histrica encontrada por todas as vizinhanas
pl
(m) = arg max

k
{f(pl
k
(n))}
2. Lao temporal (m = 1, 2, . . . , L
SA
)
2.1 Gerar uma nova soluo a partir de pl
(m)
x
(m) = pl
(m) +
SA
(x
max
x
min
)g(0, I)
2.2 Calcular a probabilidade de aceitao da nova soluo gerada
P
a
= min
_
1, exp
_
f(pl
(m))f(x
(m))
t(n)
__
Se P
a
U(0, 1), fazer pl
(m+ 1) = x
(m)
Seno fazer pl
(m + 1) = pl
(m)
3. Atualizar o parmetro de temperatura
t(n + 1) = t(n)
pl
(L
SA
): soluo encontrada pela etapa de busca local
5.6. Concluses 71
Considerando ainda a aplicao de reconhecimento de padres, pode-se realizar
simultaneamente a otimizao de parmetros de um classicador e a seleo de
atributos usados de maneira a melhorar sua taxa de acerto, i.e. sua capacidade de
generalizao.
O Captulo 6 detalha a metodologia de construo de comits a partir de
classicadores base otimizados com tcnicas metaheursticas.
Captulo 6
Metodologia de Projeto e
Comparao
Como o objetivo geral desta dissertao projetar (construir) e avaliar o
desempenho de comits de classicadores baseados nas redes neurais competitivas
SOM, Fuzzy ART, Fuzzy ARTMAP e LVQ, preciso denir uma metodologia de
trabalho e de testes antes da realizao das simulaes computacionais.
Neste captulo sero detalhados os procedimentos adotados na presente
dissertao para a obteno de comits de classicadores, assim como os mtodos
escolhidos para compar-los entre si.
6.1 Construo dos Comits de Classicadores
Como comentado no Captulo 2, trs componentes devem ser denidos durante o
projeto de um comit de classicadores de padres: (i) a maneira como as diferentes
predies sero combinadas, (ii) as tcnicas de promoo de diversidade e (iii) a
escolha dos classicadores base.
A seguir so listadas as componentes da metodologia de construo de um comit
de classicadores que ser seguida nesta dissertao.
O mtodo de combinao ser o voto majoritrio simples, conforme descrito
na Seo 2.1.
A diversidade entre os classicadores base ser promovida por meio dos
seguintes procedimentos:
72
6.1. Construo dos Comits de Classicadores 73
- Utilizao de Bagging, como descrito na Seo 2.2, com a inteno de criar
subconjuntos de treinamento diferentes para cada classicador base.
- Uso de condies iniciais aleatrias para os classicadores base. Redes
neurais, de forma geral, apresentam pesos sinpticos com valores
aleatrios no incio processo de aprendizado.
- Apresentao em ordem aleatria dos exemplos de treinamento para cada
classicador base. Por se tratarem de processos iterativos, os algoritmos
de aprendizagem apresentados no Captulo 3 so inuenciados pela ordem
de apresentao das amostras de treinamento. Esta caracterstica ser
explorada como mais uma maneira de gerao de diversidade, exceto
para comits de redes ELM (Extreme Learning Machine) (HUANG; ZHU;
SIEW, 2004).
Os comits analisados so homogneos, ou seja, todos os seus classicadores
base so construdos a partir de uma mesma arquitetura de redes
neurais. Sero usados comits das arquiteturas ARTIE e MUSCLE (ambas
apresentadas no Captulo 4), e comits de redes Fuzzy ARTMAP, LVQ e ELM.
A rede ELM uma rede neural supervisionada cujos detalhes de operao
podem ser conferidos no Apndice A desta dissertao.
Os classicadores base de um comit so otimizados antes de serem
combinados. Este processo envolve tanto a seleo dos parmetros de operao
do classicador, quanto a seleo de atributos usando o algoritmo I-HPSO
(incorporando etapas do PSO binrio) detalhado no Captulo 5. O processo
de otimizao realizado somente para um classicador base, cujos parmetros
e atributos escolhidos so replicados para todos os outros classicadores base
que comporo um determinado comit.
Na Figura 6.1 apresentado um uxograma do processo de construo e
avaliao de um comit de classicadores. O comit testado atravs da tcnica de
validao cruzada de k parties (STONE, 1974). De acordo com este mtodo de
avaliao, o conjunto de dados disponveis dividido em k parties sem intersees.
So realizadas ento repetidos ciclos de treinamento e teste em que cada uma das
parties escolhida como conjunto de teste e as demais formam o conjunto de
treinamento. As estatsticas de acerto so calculadas para as taxas obtidas para
6.2. Otimizao Metaheurstica dos Classicadores Base 74
Figura 6.1: Fluxograma da metodologia de projeto e avaliao dos comits de
classicadores.
os k ciclos. Nesta dissertao optou-se por usar k = 10 para o teste das diversas
arquiteturas de comits.
6.2 Otimizao Metaheurstica dos Classicadores Base
importante perceber que a arquitetura ilustrada na Figura 6.1 independente
de como o bloco de Otimizao do classicador base realizado. Como mencionado
antes, nesta dissertao a otimizao ser feita atravs de uma abordagem
metaheurstica via algoritmo I-HPSO. A Figura 6.2 detalha melhor a etapa de
otimizao de um classicador base.
A funo objetivo f() do algoritmo metaheurstico ser dada pela taxa de
6.2. Otimizao Metaheurstica dos Classicadores Base 75
Figura 6.2: Diagrama de blocos do processo de otimizao do classicador base.
acerto mdia de uma validao cruzada de 5 parties, ou seja,
f() =
1
5
5
k=1
acuracia
(, k), (6.1)
em que o vetor de parmetros que representa a soluo avaliada e a funo
acuracia
(, k) a taxa de acerto obtida com esse vetor, considerando-se o algoritmo

de aprendizado , na k-sima partio da validao cruzada.
A metodologia de otimizao dos parmetros e seleo de atributos envolve,
portanto, seguidas iteraes de avaliao da Equao (6.1) ao longo das iteraes
do algoritmo I-HPSO. Note ainda que todo o processo de otimizao resumido na
Figura 6.2 repetido para cada iterao do processo de validao cruzada de 10
parties realizado nos testes representados na Figura 6.1. So encontrados portanto
diferentes conjuntos de parmetro para cada partio diferente usado como conjunto
de treinamento. Essa metodologia semelhante proposta em (HUANG; DUN,
2008).
Os elementos do vetor mudam de acordo com o classicador base a ser
otimizado. Na Tabela 6.1 apresenta as diferentes formataes de soluo usadas.
Note que todas as solues apresentam um segmento formado por variveis binrias
6.3. Comparao de Desempenho via Teste de Hiptese 76
Constantes
R: nmero de atributos disponveis
d
i
: Varivel binria indicando se o i-simo atributo usado (d
i
= 1) ou no (d
i
= 0).
Redes FAM e Fuzzy ART-Ci, i {1, 2, 3}
= [ | d
1
d
2
d
R
]
T
, R
3+R
[0, 1]: parmetro de escolha
[0, 0,999]: parmetro de vigilncia
[0, 1]: passo de aprendizagem
Redes SOM-Ci, i {1, 2, 3}
= [P
1
P
2

0

f

0

f
| d
1
d
2
d
R
]
T
, R
6+R
P
1
[1, 10] e P
2
[1, 10]: dimenses da rede P
1
P
2
0
[0, 1] e
f
[0, 1]: valores inicial e nal do passo de aprendizagem
0
[0, 10] e
f
[0, 10]: valores inicial e nal do parmetro de espalhamento
Rede LVQ
= [N
c

0
| d
1
d
2
d
R
]
T
, R
2+R
N
c
[1, 10]: nmero de neurnios por classe
0
[0, 1]: passo de aprendizagem inicial
Rede ELM
= [N
w
| d
1
d
2
d
R
]
T
, R
1+R
N
w
[1, 100]: nmero de neurnios ocultos
Tabela 6.1: Vetores de solues usados na otimizao metaheurstica dos classicadores
base dos comits avaliados.
referentes seleo dos atributos usados, conforme discutido na Seo 5.4.3. So
apresentados ainda na Tabela 6.1 os valores limites escolhidos para os parmetros
dos classicadores. Apesar de algumas redes apresentarem os mesmos parmetros a
serem ajustados, como as redes da famlia ART, a otimizao feita separadamente
para cada classicador e para cada conjunto de treinamento.
6.3 Comparao de Desempenho via Teste de Hiptese
Ao comparar mtodos de classicao distintos, se faz necessrio determinar
uma metodologia de avaliao objetiva. Vrios autores advogam o uso sistemtico
de testes estatsticos para a avaliao de algoritmos de classicao, especialmente
redes neurais (FLEXER, 1996; SALZBERG, 1997; DIETTERICH, 1998; DEMAR,
Tabela 6.2: Situaes possveis na aplicao do teste t-pareado.
H
0
verdadeira H
1
verdadeira
Aceita-se H
0
Deciso correta Erro do Tipo II ()
Rejeita-se H
0
Erro do Tipo I () Deciso correta
2006).
Entretanto, importante ressaltar que testes estatsticos assumem
caractersticas que muitas vezes no so atendidas, como certas consideraes
de independncia (DIETTERICH, 1998). Dessa maneira, os testes usados nesta
dissertao devem ser vistos como aproximaes heursticas.
A seguir so detalhados os testes estatsticos usados nesta dissertao: teste
t-pareado e teste de Wilcoxon. Os valores de mdia e varincia usados nos testes a
seguir so estimados a partir dos resultados obtidos com o teste de validao cruzada
de 10 parties descrito na Seo 6.2.
6.3.1 Teste t-Pareado
No teste t-pareado deseja-se comparar dois algoritmos a partir da denio de
duas hipteses (MONTEIRO, 2009):
Hiptese nula (H
0
). No existe diferena signicativa entre os desempenhos dos
mtodos comparados.
Hiptese alternativa (H
1
). Existe diferena signicativa entre os desempenhos
dos algoritmos.
Por serem hipteses mutuamente exclusivas, a no-rejeio de uma implica na
rejeio da outra.
A Tabela B.1 mostra todas as situaes possveis ao se aplicar o teste t-pareado
(MONTEIRO, 2009). Nesta dissertao somente o erro do tipo I levado em
considerao, ou seja, somente o erro de rejeitar a hiptese nula mesmo ela sendo a
verdadeira vericado.
Sejam os dois classicadores a serem comparados, denotados por A e B. Seja
ainda M
A
e M
B
as taxas mdias de acerto obtidas respectivamente pelos algoritmos
A e B durante R
A
e R
B
execues da fase de teste. Seja tambm
2
A
e
2
B
as
varincias das taxas de acerto calculadas nessas diferentes execues. O teste t
de Student consiste em calcular a seguinte estatstica (BOSLAUGH; WATTERS,
2008):
t =
M
A
M
B
_

2
A
R
A
1
+

2
B
R
B
1
. (6.2)
Para M = M
A
M
B
,
2
=
2
A
+
2
B
e R = R
A
= R
B
, tem-se:
t =
M
_

2
R1
. (6.3)
O valor da estatstica t deve ser comparado com o valor tabelado t
2
,R1
(tabela
de valores disponvel no Apndice B), em que refere-se tolerncia de erro do tipo
I aceitvel. A comparao deve ser feita da seguinte maneira:
- Se t
2
,R1
t t
2
,R1
, aceita-se a hiptese nula (H
0
).
- Caso contrrio, rejeita-se a hiptese nula (H
0
).
Nesta dissertao adotar-se- uma tolerncia = 0,05 (5%). Como nos testes
usa-se validao cruzada de 10 parties, correspondendo a R = 10 execues, tem-se
o valor t
2
,R1
= t
0,025;9
= 2,685.
6.3.2 Teste de Wilcoxon
O teste de Wilcoxon constitui uma alternativa no paramtrica a comparaes
estatsticas como o teste t-pareado. Em suma, este teste ranqueia as diferenas de
desempenhos entre dois algoritmos para diferentes conjuntos de dados, ignorando os
sinais, e compara os ranques referentes s diferenas positivas e negativas (DEMAR,
2006).
Os seguintes passos devem ser seguidos para a realizao desse teste:
- A partir de N
D
conjuntos de dados diferentes, calcular todas as diferenas de
desempenho d
i
= d
A
i
d
B
i
, i = 1, . . . , N
D
, entre os algoritmos A e B.
- Ranquear as diferenas d
i
de acordo com seus valores absolutos, atribuindo
postos S
i
. No caso de empates, so determinados postos mdios.
- Calcular S
+
e S
como sendo a soma dos ranques correspondentes s diferenas

positivas e negativas, respectivamente. Em caso de haver diferenas nulas, seus
6.4. Concluses 79
ranques so divididos igualmente entre S
+
e S
. Este passo resumido pelas

equaes abaixo.
S
+
=
d
i
>0
ranque(d
i
) +
1
2
d
i
=0
ranque(d
i
), (6.4)
S
d
i
<0
ranque(d
i
) +
1
2
d
i
=0
ranque(d
i
). (6.5)
- Calcular S = min(S
+
, S
) e comparar o resultado com os valores de uma

tabela de valores crticos para o teste de Wilcoxon (tabela de valores disponvel
no Apndice C). Normalmente essas tabelas possuem valores crticos at N
D
=
25 e variam de acordo com a tolerncia de erro escolhida
1
. Por exemplo, para
N
D
= 10 e uma tolerncia de erro de = 0,05 (5%), tem-se o valor crtico 8.
Caso S 8, a hiptese nula rejeitada. Caso contrrio, a mesma aceita e
os mtodos so considerados estatisticamente semelhantes.
Nota-se, portanto, que o teste de Wilcoxon permite comparar simultaneamente
o desempenho de dois mtodos para vrios conjuntos de dados.
6.4 Concluses
Neste captulo foram detalhadas as metodologias de construo e avaliao dos
comits de classicadores de padres, foco principal do estudo desta dissertao. Foi
discutido ainda como usar o algoritmo de otimizao metaheurstica I-HPSO para
buscar parmetros adequados e selecionar atributos para os classicadores base dos
comits.
Foram apresentadas ainda duas tcnicas estatsticas para comparao de
algoritmos de aprendizado, sendo uma paramtrica, o teste t-pareado, e outra no
paramtrica, o teste de Wilcoxon. A aplicao dessas tcnicas conjuntamente com
as estatsticas tradicionais (mdia e varincia) proporcionar uma anlise correta
dos classicadores desenvolvidos.
No Captulo 7 sero apresentados e discutidos os resultados obtidos a partir
1
No caso de N
D
> 25, pode-se usar uma aproximao gaussiana com mdia
S
=
ND(ND+1)
4
e desvio-padro
S
=
_
ND(ND+1)(2ND+1)
24
. Dessa maneira, deve-se comparar o valor Z =
SS
S
com o valor percentil desejado da distribuio gaussiana. Nesta dissertao essa aproximao no
usada, pois sero avaliados menos de 25 conjuntos de dados.
6.4. Concluses 80
de simulaes computacionais dos comits de classicadores avaliados para vrios
conjuntos de dados reais.
Captulo 7
Resultados Experimentais
Neste captulo so apresentados e discutidos os resultados obtidos a partir de
simulaes computacionais desenvolvidas. Os testes de classicao de padres
envolvem doze conjuntos de dados reais do banco UCI (FRANK; ASUNCION, 2010).
A Tabela 7.1 resume as caractersticas dos bancos de dados usados.
Tabela 7.1: Resumo dos conjuntos de dados usados nos testes.
Conjunto de dados Amostras Atributos Classes
Breast-w 683 9 2
Car 1728 6 4
Vertebral Column 310 6 3
Credit 653 15 2
Dermatology 358 34 6
Glass 214 9 6
Haberman 306 3 2
Heart 270 13 2
Ionosphere 351 34 2
Sonar 208 60 2
Votes 435 16 2
Wall-Following 5456 2 4
Todas as N amostras disponveis nos conjuntos de dados da Tabela 7.1 foram
normalizadas no intervalo [0, 1] antes das etapas de treinamento e teste pela equao
81
7.1. Experimentos de otimizao dos classicadores base 82
abaixo:
a
j
(n) =
a
j
(n) a
min
j
a
max
j
a
min
j
, n, (7.1)
em que a
j
(n) a j-sima componente do n-simo padro de entrada e a
max
j
e a
min
j
so dados por
a
max
j
= max
n=1, ,N
{a
j
(n)} e a
min
j
= min
n=1, ,N
{a
j
(n)}. (7.2)
As simulaes computacionais foram desenvolvidas e executadas em ambiente
Ubuntu Linux 10.10 com linguagem de programao C++ e pacote de
bibliotecas de manipulao matemtica IT++ verso 4.0.7, disponvel em
http://sourceforge.net/apps/wordpress/itpp/.
7.1 Experimentos de otimizao dos classicadores base
Uma etapa importante da obteno dos comits a serem analisados a
otimizao dos classicadores base via algoritmo I-HPSO. Para aplicao deste
necessrio a especicao de seus parmetros de funcionamento. Tais parmetros
so resumidos na Tabela 7.2.
Tabela 7.2: Parmetros do algoritmo I-HPSO durante a otimizao dos classicadores
base para os conjuntos de dados avaliados.
Parmetro Valor usado
Nmero de partculas (N
p
) 20
Nmero de geraes (L
PSO
) 50
Coecientes de acelerao (c
1
e c
2
) c
1
= c
2
= 2,05
Parmetro de constrio () 0,72984
Nmero de iteraes da etapa de SA (L
SA
) 10
Parmetro de recozimento () 0,94
Passo de incremento (
SA
) 0,01
Os valores dos parmetros c
1
, c
2
e foram tomados de Bratton e Kennedy
(2007), enquanto o valor de o mesmo usado em He e Wang (2007). Os demais
valores foram obtidos experimentalmente. Os valores da Tabela 7.2 sero os mesmos
usados na otimizao de todas as redes neurais e bancos de dados.
interessante vericar a maneira como o algoritmo I-HPSO realiza a otimizao
dos classicadores base. As Figuras 7.1 e 7.2 ilustram esse processo de otimizao
para os nove diferentes classicadores base estudados, considerando parmetros
e atributos inicialmente aleatrios e o banco de dados Credit. A linha em azul
representa a evoluo da funo objetivo (taxa de acerto resultante da validao
cruzada de 5 parties no conjunto de treinamento), enquanto a linha vermelha
indica as oscilaes provocadas pela etapa de SA do algoritmo I-HPSO. Nota-se que
a grande variao da linha vermelha, principalmente durante as primeiras geraes,
importante para evitar que o enxame convirja prematuramente para uma soluo
no desejvel, permitindo uma melhor explorao do espao de solues.
Outra observao relevante perceber que de fato o ajuste dos parmetros dos
algoritmos de classicao, assim como a escolha dos atributos mais apropriados,
incrementa as taxas de acerto obtidas, revelando o quanto as tcnicas usadas so
sensveis a essas escolhas.
A Tabela 7.3 apresenta os valores mdios encontrados pelo algoritmo I-HPSO
durante o processo de otimizao dos classicadores base para o banco de dados
Heart. Observa-se que os valores mdios dos classicadores da famlia ART
so consideravelmente diferentes. J os valores mdios dos parmetros das trs
variantes do modelo MUSCLE variam menos. Este comportamento sugere que os
classicadores baseados em redes da famlia ART so mais sensveis escolha da
estratgia de aprendizagem supervisionada (C1, C2 ou C3), pelo menos em relao
aos valores dos seus parmetros. importante lembrar no entanto que ao longo
das vrias otimizaes, referentes a cada um das 10 parties, so encontrados 10
diferentes conjuntos de parmetros diferentes. Por este motivo o uso dos valores da
Tabela 7.3 em um dado conjunto de teste no garante boas taxas de acerto mdias.
Como o processo de otimizao dos classicadores base repetido para cada
conjunto de treinamento diferente, em um ciclo de testes com validao cruzada de
10 parties, 10 escolhas de parmetros e atributos so feitas. Reunindo os atributos
selecionados a cada teste, possvel fazer um histograma a partir da frequncia que
cada atributo selecionado. As Figuras 7.3 e 7.4 trazem histogramas para os nove
comits estudados, considerando o conjunto de dados Heart, que possui ao todo 13
atributos.
interessante perceber que alguns atributos so selecionados na maioria das
vezes para todos os classicadores, como os atributos representados pelos ndices 3,
(a) ELM
(b) FAM
(c) LVQ
Figura 7.1: Processo de otimizao dos classicadores base ELM, FAM e LVQ via
algoritmo I-HPSO. O conjunto de dados usado para este experimento o
Credit.
(a) Fuzzy ART-C1 (b) Fuzzy ART-C2
(c) Fuzzy ART-C3 (d) SOM-C1
(e) SOM-C2 (f) SOM-C3
Figura 7.2: Processo de otimizao dos classicadores base Fuzzy ART e SOM via
algoritmo I-HPSO. O conjunto de dados usado para este experimento o
Credit.
7.2. Resultados de classicao 86
Tabela 7.3: Valores mdios para os parmetros otimizados via I-HPSO para o conjunto
Heart.
Classicador Base Valores mdios dos parmetros
Fuzzy ART-C1 = 0,8603, = 0,4663, = 0,4647
Fuzzy ART-C2 = 0,3167, = 0,3326, = 0,1356
Fuzzy ART-C3 = 0,2576, = 0,1853, = 0,05407
MUSCLE-C1
L
1
= 7,7, L
2
= 7,2,
0
= 0,5273,
T
= 0,0635,
0
= 4,8092,
T
= 0,4922
MUSCLE-C2
L
1
= 6,5, L
2
= 6,6,
0
= 0,5168,
T
= 0,0495,
0
= 5,2810,
T
= 0,4049
MUSCLE-C3
L
1
= 8,1, L
2
= 6,9,
0
= 0,4818,
T
= 0,0642,
0
= 5,6742,
T
= 0,3971
FAM = 0,4649, = 0,0236, = 0,2901
LVQ 7,7 neurnios por classe,
0
= 0,5377
ELM 55,8 neurnios ocultos
12 e 13, enquanto outros so usados menos vezes, como os referentes aos ndices 4, 5
e 8, sugerindo diferentes relevncias entre os atributos disponveis. Esses ltimos no
foram selecionados sequer uma vez pelos classicadores LVQ, SOM-C2 e SOM-C3 e
somente uma vez pelo classicador SOM-C1.
A Figura 7.5 mostra o nmero mdio de atributos usados pelos classicadores
aps a etapa de otimizao, ainda para o conjunto Heart. Verica-se que para este
conjunto o nmero mdio de atributos encontra-se entre 6 e 9, correspondendo a uma
reduo entre 31% e 54% em relao aos 13 atributos originais. Nota-se ainda que
os classicadores baseados em SOM e LVQ foram os que usaram menos atributos,
em mdia, aps o processo de otimizao.
7.2 Resultados de classicao
As Tabelas 7.4 e 7.5 apresentam os resultados de classicao obtidos para os
comits avaliados. Nestas so mostradas as taxas mdias de acerto, os desvios
padres obtidos por cada mtodo e a proporo mdia de atributos usados na
(a) ELM
(b) FAM
(c) LVQ
Figura 7.3: Histogramas dos atributos selecionados para classicadores base ELM, FAM e
LVQ via algoritmo I-HPSO. O conjunto de dados usado para este experimento
o Heart.
(a) Fuzzy ART-C1 (b) Fuzzy ART-C2
(c) Fuzzy ART-C3 (d) SOM-C1
(e) SOM-C2 (f) SOM-C3
Figura 7.4: Histogramas dos atributos selecionados para os classicadores base Fuzzy
ART e SOM via algoritmo I-HPSO. O conjunto de dados usado para este
experimento o Heart.
Figura 7.5: Mdia de atributos usados pelos classicadores base otimizados para o
conjunto de dados Heart.
validao cruzada, dada por
n
atr
=
_
10
k=1
n
atr
k
/10
_
, (7.3)
em que n
atr
k
o nmero de atributos usados na k-sima partio e z indica a
operao de escolher o menor inteiro maior que z. Os valores em negrito indicam o
classicador que obteve melhor taxa mdia de acerto.
Pode-se perceber que os comits ARTIE, em geral, apresentaram melhores
desempenhos, com a variao ARTIE-C3 sendo a melhor em 4 dos 12 conjuntos de
dados avaliados e o comit ARTIE-C2 obtendo maiores taxas mdias de acerto em 3
casos. Dentre os comits MUSCLE, ambas as variante MUSCLE-C2 e MUSCLE-C3
apresentaram cada uma melhores resultados mdios em 2 conjuntos, sendo que em
um deles, Heart, apresentaram a mesma taxa de acerto. Os comits de classicadores
FAM, LVQ e ELM apresentaram resultados bons em vrios testes, mas sempre
inferiores a pelo menos uma variante dos comits propostos.
Comparando os comits da famlia ART, percebe-se que em todos os testes
pelo menos uma variante do modelo ARTIE foi superior ao comit de redes Fuzzy
Tabela 7.4: Resultados obtidos nos problemas de classicao (Parte 1). Os dois
primeiros valores de cada teste so, respectivamente, a taxa mdia de acerto e
o desvio padro, ambos em porcentagem. O terceiro valor revela a proporo
de atributos usados em mdia ao longo das execues. Os campos em negrito
realam o classicador com maior taxa mdia de acerto para o conjunto de
dados correspondente.
Breast-w Car Column Credit Dermatology Glass
ARTIE-C1
96,20 93,76 76,45 86,37 96,00 74,74
2,32 2,05 7,76 3,20 3,07 10,54
7/9 5/6 3/6 7/15 20/34 7/9
ARTIE-C2
96,78 97,50 80,00 86,67 96,34 75,07
1,35 0,95 4,76 3,43 1,43 7,80
7/9 6/6 5/6 10/15 22/34 7/9
ARTIE-C3
97,07 98,03 79.68 85,60 98,29 77,05
2,40 0,68 6,98 2,94 2,41 11,37
7/9 6/6 5/6 8/15 20/34 7/9
MUSCLE-C1
97,08 92,43 83.23 84,38 95,48 71,41
1,95 2,10 6,94 2,40 2,80 7,76
7/9 5/6 5/6 5/15 21/34 5/9
MUSCLE-C2
96,04 95,16 86,13 85,61 96,39 71,41
3,54 1,86 5,28 2,30 2,27 11,22
7/9 5/6 4/6 5/15 19/34 6/9
MUSCLE-C3
96,64 93,53 85,48 85,61 97,48 69,43
1,96 2,38 6,13 2,05 2,50 7,36
7/9 5/6 5/6 5/15 19/34 7/9
FAM comit
95,90 97,11 78,39 85,45 96,91 74,67
2,28 0,87 5,90 1,64 3,15 7,38
8/9 6/6 4/6 11/15 21/34 7/9
LVQ comit
96,64 91,67 83,55 85,15 96,34 70,93
2,59 2,93 5,98 4,01 2,38 9,37
7/9 5/6 5/6 5/15 20/34 6/9
ELM comit
96,34 94,39 83,23 84,85 96,39 65,37
2,32 2,10 5,65 3,51 2,27 8,15
7/9 5/6 4/6 9/15 18/34 6/9
Tabela 7.5: Resultados obtidos nos problemas de classicao (Parte 2). Os dois
primeiros valores de cada teste so, respectivamente, a taxa mdia de acerto e
o desvio padro, ambos em porcentagem. O terceiro valor revela a proporo
de atributos usados em mdia ao longo das execues. Os campos em negrito
realam o classicador com maior taxa mdia de acerto para o conjunto de
dados correspondente.
Haberman Heart Ionosphere Sonar Votes Wall-Following
ARTIE-C1
73,50 81,11 93,73 83,79 93,56 98,70
8,62 10,25 2,95 7,80 1,46 0,46
3/3 7/13 14/34 30/60 6/16 2/2
ARTIE-C2
72,67 77,78 90,87 85,14 95,68 99,94
7,67 77,78 4,83 6,50 2,61 0,09
2/3 9/13 14/34 33/60 8/16 2/2
ARTIE-C3
74,06 82,59 90,87 87,29 94,26 99,93
10,57 9,25 5,53 5,10 2,93 0,13
2/3 9/13 16/34 32/60 8/16 2/2
MUSCLE-C1
74,22 82,96 90,31 84,57 93,56 95,51
7,06 9,27 3,36 5,51 2,40 1,20
2/3 6/13 17/34 32/60 4/16 2/2
MUSCLE-C2
73,89 83,33 90,31 87,00 93,84 97,86
4,95 8,42 5,08 6,32 2,45 0,66
2/3 7/13 18/34 32/60 5/16 2/2
MUSCLE-C3
75,44 83,33 87,48 83,93 94,03 95,80
6,74 5,59 4,25 12,17 3,31 1,23
2/3 6/13 18/34 31/60 5/16 2/2
FAM comit
68,83 77,41 91,73 83,29 93,59 99,78
7,54 8,45 3,69 6,30 2,54 0,14
3/3 10/13 16/34 31/60 8/16 2/2
LVQ comit
72,17 79,26 86,88 77,43 94,96 93,79
7,46 8,94 5,44 7,78 3,02 1,47
2/3 6/13 19/34 30/60 4/16 2/2
ELM comit
74,44 81,11 85,17 79,29 93,59 93,61
6,35 7,70 4,84 7,53 2,77 1,16
3/3 8/13 11/34 25/60 7/16 2/2
ARTMAP. O nmero de atributos selecionados pelos classicadores da famlia ART
foram semelhantes na maioria dos casos. importante lembrar que a rede Fuzzy
ARTMAP originalmente supervisionada, enquanto a rede Fuzzy ART somente foi
capaz de realizar aprendizagem supervisionada aps o uso das estratgias C1, C2 ou
C3.
de interesse analisar maiores detalhes dos testes de classicao realizados,
alm de compar-los com as taxas obtidas pelos classicadores base quando usados
isoladamente. Nas Figuras 7.6, 7.7, 7.8 e 7.9 so mostrados os diagramas de
caixa (boxplot, em ingls) dos resultados obtidos pelos comits de classicadores,
comparando com os resultados de classicadores individuais. Esses grcos possuem
as seguintes caractersticas (FREIXA et al., 1992):
- O retngulo (caixa) tem incio na posio do primeiro quartil e m no terceiro
quartil, reunindo portanto 50% dos valores analisados.
- A linha vermelha dentro da caixa indica a mediana das taxas de acerto obtidas
pelo comit em questo.
- Um segmento de reta desenhando do primeiro quartil ao valor adjacente
inferior, enquanto outro segmento vai do terceiro quartil ao valor adjacente
superior. Esses segmentos so denominados bigodes.
- Os valores abaixo e acima dos bigodes so considerados atpicos (outliers) e
representados por pequenas marcaes em cruz.
Foram sobrepostos aos boxplots os valores mdios obtidos, representados pelas
marcaes azuis.
Pode-se perceber que, para alguns conjuntos de dados diferentes, classicadores
se beneciam mais que os outros quando agrupados em comits. Na Figura 7.6,
por exemplo, no conjunto Breast somente os comits ARTIE-C2 e ARTIE-C3
apresentaram resultados melhores que os classicadores individuais, considerando
tanto a acurcia mdia superior quanto a menor variabilidade ao longo dos testes
(altura da caixa no boxplot). No entanto, na mesma gura observa-se casos como o
do conjunto Car, em que todos os classicadores obtiveram melhores taxas de acerto
quando reunidos em comits.
Nos grcos referentes aos conjuntos Credit e Dermatology, apresentados na
Figura 7.7, pode-se constatar a capacidade da tcnica de aprendizado em comits
(a) Breast - um classicador (b) Breast - comit de classicadores
(c) Car - um classicador (d) Car - comit de classicadores
(e) Vertebral Column - um classicador (f) Vertebral Column - comit de classicadores
Figura 7.6: Grcos de caixa dos classicadores e comits de classicadores avaliados
(Parte 1).
(a) Credit - um classicador (b) Credit - comit de classicadores
(c) Dermatology - um classicador (d) Dermatology - comit de classicadores
(e) Glass - um classicador (f) Glass - comit de classicadores
(Parte 2).
(a) Haberman - um classicador (b) Haberman - comit de classicadores
(c) Heart - um classicador (d) Heart - comit de classicadores
(e) Ionosphere - um classicador (f) Ionosphere - comit de classicadores
(Parte 3).
(a) Sonar - um classicador (b) Sonar - comit de classicadores
(c) Votes - um classicador (d) Votes - comit de classicadores
(e) Wall-Following - um classicador (f) Wall-Following - comit de classicadores
(Parte 4).
em agrupar classicadores com fraca capacidade de generalizao e obter um
classicador capaz de obter altas taxas de acerto e com reduzido desvio padro.
Comportamento semelhante observa-se nos boxplots para o conjunto Ionosphere,
na Figura 7.8. interessante analisar os grcos dos conjuntos Haberman e Heart,
em que percebe-se que alguns mtodos apresentaram melhora mais intensas quando
agrupados, especicamente os comits ARTIE-C2, ARTIE-C3 e MUSCLE-C2, no
primeiro caso, e os comits de LVQ e os modelos MUSCLE-C1, MUSCLE-C2 e
MUSCLE-C3 no segundo caso. Esse comportamento diferenciado entre as tcnicas
avaliadas tambm pode ser notado nos grcos da Figura 7.9.
Outra observao importante que o comit com maior capacidade de
generalizao no necessariamente aquele obtido pelo melhor classicador base
quando analisado individualmente. Essa caracterstica pode ser notada para 8
conjuntos: Car, Credit, Dermatology, Glass, Haberman, Heart, Ionosphere e Sonar.
7.3. Testes estatsticos 98
7.3 Testes estatsticos
Visando uma comparao formal dos resultados apresentados, sero aplicados
os testes estatsticos detalhados na Seo 6.3.
A Tabela 7.6 resume a aplicao do teste t-pareado entre os modelos propostos
(ARTIE e MUSCLE) e os trs comits de referncia (FAM, LVQ e ELM). O critrio
para determinar que um classicador estatisticamente superior ao outro depende do
resultado da Equao (6.3), considerando um valor crtico t
0,025;9
2,685, referente
a uma tolerncia de erro de 5% e 10 testes independentes (ver Tabela B.1). Note
que os valores usados para calcular a Equao (6.3) so os mesmo apresentados
anteriormente nas Tabelas 7.4 e 7.5.
Pelos valores da Tabela 7.6 pode-se perceber que na maioria dos casos as
variantes dos comits propostos foram estatisticamente melhores que os comits de
classicadores mais tradicionais. Em relao ao comit de FAM, os classicadores
ARTIE-C2, ARTIE-C3 e MUSCLE-C2 mostraram-se expressivamente superiores,
enquanto as variantes ARTIE-C1 e MUSCLE-C3 apresentaram resultados
semelhantes estatisticamente e somente o modelo MUSCLE-C1 revelou-se inferior.
Quando comparados com o comit de LVQ, todos os modelos propostos foram
melhores. O mesmo pode ser vericado em relao ao comit de ELM.
Diferentemente do teste t-pareado, que compara resultados por conjunto
de dados, o teste no-paramtrico de Wilcoxon compara dois classicadores
considerando as taxas mdias de acerto em todos os testes simultaneamente. A
Tabela 7.7 apresenta os resultados do teste de Wilcoxon, com valores calculados de
acordo com o procedimento detalhado na Seo 6.3.2 e valor crtico S 14 (para
12 bancos de dados e 5% de tolerncia de erro), de acordo com a Tabela C.1.
Pelos resultados da Tabela 7.7, tem-se que, em relao ao comit de FAM,
somente os modelos ARTIE-C2 e ARTIE-C3 foram superiores estatisticamente pelo
critrio do teste de Wilcoxon. Para o comit de LVQ, foram superiores ARTIE-C2,
ARTIE-C3, MUSCLE-C2 e MUSCLE-C3. J em relao ao comit de ELM, foram
expressivamente melhores os comits ARTIE-C3, MUSCLE-C2 e MUSCLE-C3.
Todas as outras combinaes so consideradas estatisticamente equivalentes pelo
teste.
Tabela 7.6: Resultados do teste t-pareado para os 12 conjuntos de dados usados. Os
classicadores destacados so aqueles que mais vezes foram escolhidos como
estatisticamente superiores.
Comit A Comit B A B A > B A < B
FAM comit ARTIE-C1 8 2 2
FAM comit ARTIE-C2 6 - 6
FAM comit ARTIE-C3 5 - 7
FAM comit MUSCLE-C1 3 5 4
LVQ comit ARTIE-C1 6 2 4
LVQ comit MUSCLE-C1 8 1 3
LVQ comit MUSCLE-C2 6 - 6
LVQ comit MUSCLE-C3 6 - 6
ELM comit ARTIE-C1 6 1 5
ELM comit MUSCLE-C1 7 1 4
ELM comit MUSCLE-C2 7 - 5
ELM comit MUSCLE-C3 7 - 5
Tabela 7.7: Resultados do teste de Wilcoxon para os 12 conjuntos de dados usados.
Os classicadores destacados so aqueles considerados estatisticamente
superiores.
Comit A Comit B Valor crtico S 14
FAM comit ARTIE-C1 31
FAM comit MUSCLE-C1 38
LVQ comit ARTIE-C1 20
LVQ comit MUSCLE-C1 19
ELM comit ARTIE-C1 24
ELM comit MUSCLE-C1 19
7.4. Concluses 101
7.4 Concluses
Neste captulo foram apresentados os resultados obtidos nas simulaes
computacionais realizadas com 9 comits de classicadores em 12 bancos de dados
reais.
Inicialmente, ilustrou-se o processo de otimizao dos classicadores base a partir
da evoluo da funo objetivo ao longo das iteraes do algoritmo I-HPSO e de
exemplos de seleo de atributos.
Os resultados de classicao foram reunidos e discutidos, vericando quais os
melhores classicadores para cada um dos bancos avaliados. Os testes realizados ao
longo da etapa de validao cruzada de 10 parties foram detalhados em grcos
de caixa, que permitiram ainda comprovar a ecincia dos comits em relao ao
uso de classicadores individuais.
Aplicou-se os testes estatsticos t-pareado e de Wilcoxon a m de fazer uma
comparao mais especca entre os modelos propostos e os comits de referncia.
Analisando os resultados dos dois testes estatsticos escolhidos, possvel inferir que,
dentre os 9 comits avaliados. Os comits ARTIE-C2, ARTIE-C3 e MUSCLE-C2
so aqueles mais capazes de obter resultados superiores em geral, sendo a variante
ARTIE-C3 a que apresentou melhor desempenho de acordo com os testes usados.
importante ressaltar no entanto que todas as variantes propostas se sobressaram
em pelo menos um dos bancos de dados apresentados nas Tabelas 7.4 e 7.5.
Captulo 8
Concluses e Perspectivas
Esta dissertao estudou o uso de comits de redes neurais competitivas em
problemas de classicao de padres. Para tanto, foram apresentadas tcnicas
que permitem algoritmos auto-organizveis realizarem aprendizado supervisionado.
Essas tcnicas tm sido usadas na literatura em redes SOM, mas neste trabalho,
pela primeira vez, elas tambm foram aplicadas rede Fuzzy ART.
Um resumo dos conceitos referentes ao paradigma de aprendizado em comits
foi realizado. Em seguida, foram descritas as operaes das redes competitivas,
enfatizando as diferenas entre as redes no-supervisionadas (Fuzzy ART e SOM)
e as redes supervisionadas (Fuzzy ARTMAP e LVQ). A descrio da rede ELM,
tambm avaliada neste trabalho, encontra-se no Apndice A.
Foram detalhados os modelos de comits propostos, ARTIE e MUSCLE,
cada um possuindo trs variantes referentes ao mtodo escolhido para tornar,
respectivamente, as redes Fuzzy ART e SOM supervisionadas.
A otimizao dos parmetros de uma rede neural antes da etapa de treinamento
comumente realizada por mtodos de busca exaustiva. O mesmo pode ser dito
da seleo dos atributos usados por um classicador. No entanto, nesta dissertao
optou-se por modelar ambos os problemas como um s problema de otimizao da
taxa de acerto mdia obtida na validao cruzada do conjunto de treinamento. A
soluo deste problema seguiu uma abordagem metaheurstica a partir da proposio
do algoritmo hbrido I-HPSO.
Aps a descrio da metodologia de avaliao escolhida, apresentou-se e
discutiu-se os resultados das simulaes computacionais desenvolvidas. O processo
102
8.1. Perspectivas para trabalhos futuros 103
de otimizao de parmetros e seleo dos atributos foi exemplicado e os resultados
de classicao para 12 bancos de dados reais foram listados. Avaliou-se os
testes realizados atravs de boxplots que comprovaram a eccia da metodologia
de mltiplos classicadores adotada. Finalmente, os 9 comits projetados foram
comparados a partir de dois testes estatsticos, o teste t-pareado (paramtrico) e o
teste de Wilcoxon (no paramtrico). Os testes indicaram o desempenho superior
dos modelos propostos em relao aos comits de referncia, sobretudo as variantes
ARTIE-C2, ARTIE-C3 e MUSCLE-C2.
Conrma-se com este trabalho a viabilidade de construo de comits de
classicadores a partir de algoritmos tradicionalmente auto-organizveis. Os
experimentos realizados sugerem que tais mtodos, uma vez agrupados em comits,
podem ter desempenho superior a tcnicas tradicionalmente supervisionadas. Alm
disso, foi validada a metodologia proposta baseada em escolha de parmetros e
seleo de atributos a partir do algoritmo metaheurstico I-HPSO.
8.1 Perspectivas para trabalhos futuros
Os modelos ARTIE e MUSCLE propostos so exveis o suciente para permitir
que diversas modicaes sejam feitas com a inteno de aumentar ainda mais a
capacidade de generalizao dos comits obtidos. Algumas ideias possveis nesse
sentido so listadas a seguir.
- Investigar mtodos alternativos que permitam redes auto-organizveis
realizar aprendizado supervisionado. Nesta dissertao comprovou-se
experimentalmente que a escolha de tal mtodo reete diretamente na
qualidade do classicador obtido. A tcnica C1, por exemplo, se mostrou
inferior na maioria dos casos quando comparada s tcnicas C2 e C3.
- Formar comits mistos, i.e., heterogneos, compostos por variantes de uma
mesma rede (e.g. Fuzzy ART-C2 e Fuzzy ART-C3) ou mesmo de redes
diferentes (e.g. Fuzzy ART-C2 e SOM-C2). Os resultados obtidos via ARTIE
e MUSCLE apresentaram vrias diferenas de preciso em alguns bancos de
dados. Uma arquitetura mista poderia se aproveitar dessa caracterstica para
construir comits mais ecientes.
- Aprofundar o carter evolucionrio dos modelos propostos. Em Yao (1999)
feita uma reviso sobre redes neurais evolucionrias em que so citadas
8.1. Perspectivas para trabalhos futuros 104
diversas abordagens possveis: (i) evoluo das arquiteturas das redes; (ii)
evoluo das funes de transferncia dos neurnios; (iii) evoluo dos
pesos sinpticos; (iv) evoluo das regras de aprendizado; (v) evoluo
dos parmetros dos algoritmos; (vi) evoluo dos atributos; etc. Alm da
otimizao paramtrica e a seleo de atributos usadas nesta dissertao,
outras abordagens evolucionrias podem ser de interesse.
- Ainda em relao caracterstica evolucionria dos modelos apresentados,
existe a possibilidade de delegar a um mtodo de otimizao estocstica
(o mtodo I-HPSO proposto, por exemplo) a responsabilidade de promover
diversidade entre os classicadores base que compem o comit. Algumas
propostas para esta abordagem podem ser conferidas em Yao e Islam (2008).
Apndice A
Redes ELM
A rede ELM (Extreme Learning Machine), proposta por Huang, Zhu e Siew
(2004), uma rede neural do tipo feedforward (sem realimentao) com uma nica
camada oculta. O principal conceito por trs dessa rede realizar um mapeamento
no linear aleatrio na camada oculta e calcular diretamente os valores dos pesos
da camada de sada. Por esse motivo, o treinamento da rede ELM no-iterativo
Seja uma rede com p entradas, q neurnios ocultos e m sadas, a i-sima sada
no instante n dada pela seguinte expresso:
o
i
(n) = m
T
i
z(n), (A.1)
em que m
i
R
q
, i {1, . . . , C}, o vetor de pesos que conecta os neurnios ocultos
ao i-simo neurnio da camada de sada, e z(n) R
q
o vetor de sadas da camada
oculta para um padro de entrada a(n) R
p
. O vetor z(n) denido por
z(n) = [f(w
T
1
a(n) + b
1
) f(w
T
q
a(n) + b
q
)]
T
, (A.2)
em que b
l
o limiar do l-simo neurnio oculto, w
l
R
p
o vetor de pesos associado
a esse neurnio e f() uma funo de ativao sigmoidal. Na rede ELM, os vetores
de pesos w
l
so escolhidos aleatoriamente a partir de uma distribuio uniforme ou
normal.
Seja Z = [z(1) z(2) z(N)] uma matriz q N cujas N colunas so os
vetores de sada da camada oculta, dados por z(n) R
q
, n = 1, ..., N, em que
N o nmero de amostras disponveis para treinamento. De forma similar, seja
105
106
D = [d(1) d(2) d(N)] uma matriz CN cuja n-sima coluna o vetor desejado
(alvo) d(n) R
C
associado ao padro de entrada a(n), n = 1, . . . , N. Finalmente,
seja M = [m
1
m
2
m
C
] uma matriz q C cuja i-sima coluna dada pelo vetor
de pesos da camada de sada, m
i
R
q
, i = 1, ..., C.
As trs matrizes denidas anteriormente esto relacionadas pelo mapeamento
linear D = M
T
Z. Enquanto as matrizes D e Z so conhecidas, a matriz de pesos
da camada de sada M no o . Entretanto, a matriz M pode ser calculada pelo
mtodo da pseudoinversa, de acordo com a equao a seguir:
M =
_
ZZ
T
_
1
ZD
T
. (A.3)
Assumindo que o nmero de neurnios de sada igual ao nmero de classes,
o ndice da classe inferida i
para um padro de entrada desconhecido, apresentado

na fase de teste, dado pela equao a seguir:
i
= arg max
i=1,...,C
{o
i
}, (A.4)
em que o
i
calculado pela Equao (A.1).
importante perceber que o treinamento da rede ELM, pela sua caracterstica
no-iterativa, muito mais rpido que o algoritmo backpropagation, por exemplo
(HUYNH; YONGGWAN; KIM, 2008). Comits de classicadores baseados de redes
ELM j foram usados na literatura, como em Liu, Xu e Wang (2009) e Lan, Soh e
Huang (2009).
Apndice B
Tabela de Valores para o Teste
t-Pareado
Tabela B.1: Tabela resumida de valores crticos para teste t-pareado.
(1 cauda) 0,05 0,025 (1 cauda) 0,05 0,025
(2 caudas) 0,10 0,050 (2 caudas) 0,10 0,050
Graus de liberdade Graus de liberdade
1 6,3138 12,707 11 1,7959 2,2010
2 2,9200 4,3026 12 1,7823 2,1788
3 2,3534 3,1824 13 1,7709 2,1604
4 2,1319 2,7764 14 1,7613 2,1448
5 2,0150 2,5706 15 1,7530 2,1314
6 1,9432 2,4469 16 1,7459 2,1199
7 1,8946 2,3646 17 1,7396 2,1098
8 1,8595 2,3060 18 1,7341 2,1009
9 1,8331 2,2621 19 1,7291 2,0930
10 1,8124 2,2282 20 1,7247 2,0860
107
Apndice C
Tabela de Valores Crticos para o
Teste de Wilcoxon
Tabela C.1: Tabela resumida de valores crticos para teste de Wilcoxon.
(1 cauda) 0,01 0,025 (1 cauda) 0,01 0,025
(2 caudas) 0,02 0,050 (2 caudas) 0,02 0,050
N N
6 0 - 16 30 24
7 2 0 17 35 28
8 4 2 18 40 33
9 6 3 19 46 38
10 8 5 20 52 43
11 11 7 21 59 49
12 14 10 22 66 56
13 17 13 23 73 62
14 21 16 24 81 69
15 25 20 25 89 77
108
Referncias Bibliogrcas
AGUAYO, L. Redes Neurais Competitivas para Deteco de Novidades em Sries
Temporais. Tese (Doutorado) Universidade Federal do Cear, Brasil, 2008.
ANGHINOLFI, D.; PAOLUCCI, M. Simulated annealing as an intensication
component in hybrid population-based metaheuristics. In: Simulated Annealing.
Vienna, Austria: I-Tech Education and Publishing, 2008.
BARRETO, G. A.; AGUAYO, L. Time series clustering for anomaly detection using
competitive neural networks. In: PRINCIPE, J. C.; MIIKKULAINEN, R. (Ed.).
Proceedings of the 7th International Workshop on Advances in Self-Organizing
Maps (WSOM09). St. Augustine, EUA: Springer, 2009. v. 5629, p. 2836.
BARUQUE, B.; CORCHADO, E. A weighted voting summarization of SOM
ensembles. Data Mining and Knowledge Discovery, Springer, p. 129, 2010.
BAUER, E.; KOHAVI, R. An empirical comparison of voting classication
algorithms: Bagging, boosting, and variants. Machine Learning, Springer, v. 36,
n. 1, p. 105139, 1999.
BELEGUNDU, A.; CHANDRUPATLA, T. Optimization concepts and applications
in engineering. 2. ed. [S.l.]: Cambridge University Press, 2011.
BERMEJO, S.; CABESTANY, J. Local averaging of ensembles of LVQ-based
nearest neighbor classiers. Applied Intelligence, v. 20, n. 1, p. 4758, 2004.
BIEBELMANN, E.; KPPEN, M.; NICKOLAY, B. Pratical aplications of neural
networks in texture analysis. Neurocomputing, Elsevier, v. 13, n. 24, p. 261279,
1996.
109
BOSLAUGH, S.; WATTERS, P. Statistics in a Nutshell. [S.l.]: OReilly Media,
Inc., 2008.
BRATTON, D.; KENNEDY, J. Dening a standard for particle swarm
optimization. In: IEEE Swarm Intelligence Symposium. Honolulu, Hawaii, USA:
[s.n.], 2007. p. 120127.
BREIMAN, L. Bagging predictors. Machine Learning, Springer, v. 24, n. 2, p.
123140, 1996.
CARPENTER, G. Default ARTMAP. CAS/CNS Technical Report Series, n. 008,
2003.
CARPENTER, G.; GJAJA, M. Fuzzy ART choice functions. CAS/CNS Technical
Report Series, n. 060, 1993.
CARPENTER, G.; GROSSBERG, S. ART 2: Stable self-organization of pattern
recognition codes for analog input patterns. Applied Optics, Optical Society of
America, v. 26, n. 23, p. 49194930, 1987.
CARPENTER, G.; GROSSBERG, S. A massively parallel architeture of a
self-organizing neural pattern recogntion machine. Computer Vision, Graphics and
Image Processing, Elsevier, v. 37, p. 54115, 1987.
CARPENTER, G.; GROSSBERG, S. Stable self-organization of pattern recognition
codes for analog input patterns. Applied Optics, Optical Society of America, v. 26,
p. 49194930, 1987.
CARPENTER, G.; GROSSBERG, S.; MARKUZON, N.; REYNOLDS, J.; ROSEN,
D. Fuzzy ARTMAP: A neural network architecture for incremental supervised
learning of analog multidimensional maps. IEEE Transactions on Neural Networks,
IEEE, v. 3, n. 5, p. 698713, 1992.
CARPENTER, G.; GROSSBERG, S.; REYNOLDS, J. H. ARTMAP: Supervised
real-time learning and classication of nonstationary data by a self-organizing
neural network. Neural Networks, Elsevier, v. 4, n. 5, p. 565588, 1991.
CARPENTER, G.; GROSSBERG, S.; ROSEN, D. ART 2-A: An adaptive
resonance algorithm for rapid category learning and recognition. Neural Networks,
Elsevier, v. 4, n. 4, p. 493504, 1991.
CARPENTER, G. A.; GROSSBERG, S. The ART of adaptive pattern recognition
by a self-organizing neural network. IEEE Computer Magazine, IEEE, v. 21, n. 3,
p. 7788, 1988.
CARPENTER, G. A.; GROSSBERG, S.; ROSEN, D. B. Fuzzy ART: Fast stable
learning, categorization of analog patterns by an adaptive resonance system. Neural
Networks, Elsevier, v. 4, n. 6, p. 759771, 1991.
CHANG, Y.; LEE, D.; HONG, Y.; ARCHIBALD, J. Unsupervised video shot
detection using clustering ensemble with a color global scale-invariant feature
transform descriptor. Journal on Image and Video Processing, v. 2008, p. 9, 2008.
CHO, S. Self-organizing map with dynamical node splitting: Application to
handwritten digit recognition*. Neural Computation, v. 9, n. 6, p. 13451355, 1997.
CHRISTODOULOU, C. I.; MICHAELIDES, S. C.; PATTICHIS, C. S.
Multifeature texture analysis for the classication of clouds in satellite imagery.
IEEE Transactions on Geoscience and Remote Sensing, IEEE, v. 41, n. 11, p.
26622668, 2003.
CLERC, M.; KENNEDY, J. The particle swarm - explosion, stability, and
convergence in a multidimensional complex space. In: IEEE Transactions on
Evolutionary Computation. Piscataway, EUA: [s.n.], 2002. v. 6, n. 1, p. 5873.
CORCHADO, E.; BARUQUE, B.; YIN, H. Boosting unsupervised competitive
learning ensembles. In: de S, J. M.; ALEXANDRE, L. A.; DUCH, W.; MANDIC,
D. P. (Ed.). Proceedings of the 17th International Conference on Articial Neural
Networks (ICANN07), Part I. Porto, Portugal: Springer, 2007. LNCS 4668, p.
339348.
CRUZ, R.; CAVALCANTI, G.; REN, T.; RECIFE, B. Handwritten digit
recognition using multiple feature extraction techniques and classier ensemble. In:
17th International Conference on Systems, Signals and Image Processing. Rio de
Janeiro, Brasil: [s.n.], 2010.
DAS, R.; SENGUR, A. Evaluation of ensemble methods for diagnosing of valvular
heart disease. Expert Systems with Applications, Elsevier, v. 37, n. 7, p. 51105115,
2010.
DEMAR, J. Statistical comparisons of classiers over multiple data sets. The
Journal of Machine Learning Research, MIT Press, v. 7, p. 130, 2006.
DENG, W.; ZHENG, Q.; LIAN, S.; CHEN, L. Ordinal extreme learning machine.
Neurocomputing, Elsevier, 2010.
DIETTERICH, T. Approximate statistical tests for comparing supervised
classication learning algorithms. Neural Computation, MIT Press, v. 10, n. 7, p.
18951923, 1998.
DIETTERICH, T. G. An experimental comparison of three methods for
constructing ensembles of decision trees: Bagging, boosting, and randomization.
Machine Learning, Springer, v. 40, n. 2, p. 139157, 2000.
DORIGO, M. Optimization, learning and natural algorithms. Tese (Doutorado)
Politecnico di Milano, Milo, Itlia, 1992.
DUBOIS, D.; PRADE, H. A review of fuzzy set aggregation connectives.
Information Sciences, v. 36, n. 1-2, p. 85121, 1985.
EBERHART, R.; KENNEDY, J. A new optimizer using particle swarm theory. In:
Proceedings of the Sixth International Symposium on Micro Machine and Human
Science, 1995. MHS 95. Piscataway, NJ, USA: [s.n.], 1995. p. 3943.
FLEXER, A. Statistical evaluation of neural network experiments: Minimum
requirements and current practice. Cybernetics and Systems Research, p. 10051008,
1996.
FRANK, A.; ASUNCION, A. UCI Machine Learning Repository. 2010. Disponvel
em: <http://archive.ics.uci.edu/ml>.
FREIXA, M.; SALAFRANCA, L.; GUARDIA, J.; FERRER, R.; TURBANY,
J. Anlisis exploratorio de datos: nuevas tcnicas estadsticas. Promociones y
Publicaciones Universitarias SA Barcelona, 1992.
FREUND, Y.; SCHAPIRE, R. A desicion-theoretic generalization of on-line
learning and an application to boosting. In: Computational Learning Theory. [S.l.]:
Springer, 1995. p. 2337.
FREUND, Y.; SCHAPIRE, R. Experiments with a new boosting algorithm. In:
Machine Learning - International Workshop Then Conference. [S.l.: s.n.], 1996. p.
148156.
GAMA, J.; BRAZDIL, P. Cascade generalization. Machine Learning, Springer,
v. 41, n. 3, p. 315343, 2000.
GENTLE, J.; HRDLE, W.; MORI, Y. Handbook of computational statistics.
Berlin, Alemanha: Springer Berlin, 2004.
GEORGAKIS, A.; LI, H.; GORDAN, M. An ensemble of som networks for
document organization and retrieval. In: International Conference on Adaptive
Knowledge Representation and Reasoning 2005 (AKRR 2005). Espoo, Finlndia:
[s.n.], 2005. p. 6.
GLOVER, F. Future paths for integer programming and links to articial
intelligence. Computers and Operations Research, v. 13, n. 5, p. 533549, 1986.
GORGNIO, F.; COSTA, J. Parallel self-organizing maps with application in
clustering distributed data. In: IEEE International Joint Conference on Neural
Networks 2008 (IJCNN 2008). Hong Kong, China: [s.n.], 2008. p. 32763283.
GUNES, V.; M., M.; PETITRENAUD, S. Multiple classier systems: Tools and
methods. In: CHEN, C. (Ed.). Handbook of Pattern Recognition and Computer
Vision. [S.l.]: World Scientic, 2010. cap. 1.2.
GUO, Y. An integrated PSO for parameter determination and feature selection
of svr and its application in stlf. In: IEEE. International Conference on Machine
Learning and Cybernetics, 2009. Baoding, China, 2009. v. 1, p. 359364.
HANSEN, L. K.; SALAMON, P. Neural network ensembles. IEEE Transactions on
Pattern Analysis and Machine Intelligence, IEEE, v. 12, n. 10, p. 9931001, 2002.
HAYKIN, S. Neural Networks and Learning Machines. 3rd. ed. Canada: Prentice
Hall, 2008.
HE, Q.; WANG, L. A hybrid particle swarm optimization with a feasibility-based
rule for constrained optimization. Applied Mathematics and Computation,
Amsterdam, Netherlands, v. 186, n. 2, p. 14071422, 2007.
HOLDEN, N.; FREITAS, A. A. A hybrid pso/aco algorithm
for discovering classication rules in data mining. Journal of
Articial Evolution and Applications, v. 2008, 2008. Disponvel em:
<http://www.hindawi.com/journals/jaea/2008/316145.html>.
HOLLAND, J. Adaptation in natural and articial systems. Ann Arbor MI:
University of Michigan Press, 1975.
HOYO, R. del; BULDAIN, D.; MARCO, A. Supervised classication with
associative SOM. In: Proceedings of the 7th International Work-Conference on
Articial and Neural Networks, (IWANN)03. [S.l.: s.n.], 2003. p. 334341.
HUANG, C.; DUN, J. A distributed pso-svm hybrid system with feature selection
and parameter optimization. Applied Soft Computing, Elsevier, v. 8, n. 4, p.
13811391, 2008.
HUANG, G. B.; ZHU, Q. Y.; SIEW, C. K. Extreme learning machine: A new
learning scheme of feedforward neural networks. In: IEEE. Proceedings of the
2004 IEEE International Joint Conference on Neural Networks (IJCNN2004).
Budapeste, Hungria, 2004. p. 985990.
HUYNH, H.; YONGGWAN, W.; KIM, J. An improvement of extreme learning
machine for compact single-hidden-layer feedforward neural networks. International
Journal of Neural Systems, v. 18, n. 5, p. 433441, 2008.
JIANG, Y.; ZHOU, Z. Som ensemble-based image segmentation. Neural Processing
Letters, v. 20, n. 3, p. 171178, 2004.
KANGAS, J. A.; KOHONEN, T. K.; LAAKSONEN, J. T. Variants of
self-organizing maps. IEEE Transactions on Neural Networks, v. 1, n. 1, p. 9399,
1990.
KASUBA, T. Simplied fuzzy ARTMAP. AI EXPERT, v. 8, p. 1825, 1993.
KENNEDY, J.; EBERHART, R. A discrete binary version of the particle swarm
algorithm. In: IEEE. IEEE International Conference on Systems, Man, and
Cybernetics, 1997. Computational Cybernetics and Simulation, 1997. Orlando,
EUA, 1997. v. 5, p. 41044108.
KENNEDY, J.; EBERHART, R. C. Particle swarm optimization. Proceedings of
the IEEE International Conference on Neural Networks, Piscataway, NJ, USA,
v. 4, p. 19421948, 1995.
KESKIN, G. A.; ZKAN, C. An alternative evaluation of FMEA: Fuzzy art
algorithm. Quality and Reliability Engineering International, v. 25, n. 6, p. 647661,
2009.
KHANESAR, M.; TESHNEHLAB, M.; SHOOREHDELI, M. A novel binary
particle swarm optimization. In: IEEE. Mediterranean Conference on Control &
Automation, 2007. MED07. Atenas, Grcia, 2007. p. 16.
KIM, D. H.; ABRAHAM, A.; HIROTA, K. Hybrid genetic: Particle swarm
optimization algorithm. In: Studies in Computational Intelligence. Berlin,
Germany: Springer Berlin / Heidelberg, 2007. p. 147170.
KIRKPATRICK, S.; GELATT, C. D.; JR.; VECCHI, M. P. Optimization by
simulated annealing. Science, USA, v. 220, p. 671680, 1983.
KOHONEN, T. Self-organized formation of topologically correct feature maps.
Biological Cybernetics, Springer, v. 43, n. 1, p. 5969, 1982.
KOHONEN, T. An introduction to neural computing. Neural Networks, v. 1, n. 1,
p. 316, 1988.
KOHONEN, T. The neural phonetic typewriter. Computer, v. 21, n. 3, p. 1122,
1988.
KOHONEN, T. Self-Organizing Maps. 2nd extended. ed. Berlin, Alemanha:
Springer-Verlag, 1997.
KOTSIANTIS, S.; ZAHARAKIS, I.; PINTELAS, P. Machine learning: a review of
classication and combining techniques. Articial Intelligence Review, Springer,
v. 26, n. 3, p. 159190, 2006.
KROGH, A.; VEDELSBY, J. Neural network ensembles, cross validation, active
learning. Advances in Neural Information Processing Systems, MIT Press, p.
231238, 1995.
KUMAR, P. A. R.; SELVAKUMAR, S. Distributed denial of service attack
detection using an ensemble of neural classier. Computer Communications,
Elsevier, 2011.
KUNCHEVA, L.; JAIN, L. Designing classier fusion systems by genetic
algorithms. Evolutionary Computation, IEEE Transactions on, IEEE, v. 4, n. 4, p.
327336, 2000.
KUSIAK, A.; LI, M.; ZHANG, Z. A data-driven approach for steam load prediction
in buildings. Applied Energy, Elsevier, v. 87, n. 3, p. 925933, 2010.
LAHA, A.; PAL, N. R. Some novel classiers designed using prototypes extracted
by a new scheme based on self-organizing feature map. IEEE Transactions on
Systems, Man, and Cybernetics, IEEE, B-31, n. 6, p. 881890, 2001.
LAN, Y.; SOH, Y.; HUANG, G. Ensemble of online sequential extreme learning
machine. Neurocomputing, Elsevier, v. 72, n. 13-15, p. 33913395, 2009.
LIN, C.; CHANG, C.; HSU, C. A practical guide to support vector classication.
National Taiwan University, 2004.
LIU, B.; WANG, L.; JIN, Y.-H.; TANG, F.; HUANG, D.-X. Improved particle
swarm optimization combined with chaos. Chaos, Solitons & Fractals, Amsterdam,
Netherlands, v. 25, n. 5, p. 12611271, 2005.
LIU, H.; ABRAHAM, A. An hybrid fuzzy variable neighborhood particle swarm
optimization algorithm for solving quadratic assignment problems. Journal of
Universal Computer Science, v. 13, n. 9, p. 13091331, 2007. Disponvel em:
<http://www.jucs.org/jucs_13_9/an_hybrid_fuzzy_variable>.
LIU, Y.; XU, X.; WANG, C. Simple ensemble of extreme learning machine. In:
IEEE. Image and Signal Processing, 2009. CISP09. 2nd International Congress
on. Tianjin, China, 2009. p. 15.
LOO, C. K.; LAW, A.; LIM, W. S.; RAO, M. V. C. Probabilistic ensemble
simplied fuzzy ARTMAP for sonar target dierentiation. Neural Computing &
Applications, Springer, v. 15, n. 1, p. 7990, 2006.
LVBJERG, M. Improving Particle Swarm Optimization by Hybridization of
Stochastic Search Heuristics and Self-Organized Criticality. Dissertao (Mestrado)
Aarhus Universitet, Datalogisk Institut, Denmark, 2002.
MACLIN, R.; SHAVLIK, J. Combining the predictions of multiple classiers:
Using competitive learning to initialize neural networks. In: International Joint
Conference on Articial Intelligence. Montral, Canad: Morgan Kaufmann, 1995.
v. 14, p. 524531.
MADEO, R.; PERES, S. M.; BSCARO, H. H.; DIAS, D. B.; BOSCARIOLI, C. A
committee machine implementing the pattern recognition module for ngerspelling
applications. In: Proceedings of the 2010 ACM Symposium on Applied Computing
(SAC2010). [S.l.: s.n.], 2010. p. 954958.
MONTEIRO, I.; QUEIROZ, S.; CARNEIRO, A.; SOUZA, L.; BARRETO, G.
Face recognition independent of facial expression through som-based classiers. In:
IEEE. Telecommunications Symposium, 2006 International. Fortaleza, Brasil, 2006.
p. 263268.
MONTEIRO, I. Q. Mtodos de Aprendizado de Mquina Para Reconhecimento de
Faces: Uma Comparao de Desempenho. Dissertao (Mestrado) Universidade
Federal do Cear, Brasil, 2009.
NIEMINEN, P.; KRKKINEN, T.; LUOSTARINEN, K.; MUHONEN, J. Neural
prediction of product quality based on pilot paper machine process measurements.
Adaptive and Natural Computing Algorithms, Springer, p. 240249, 2011.
PALANIAPPAN, R.; ESWARAN, C. Using genetic algorithm to select the
presentation order of training patterns that improves simplied fuzzy ARTMAP
classication performance. Applied Soft Computing, v. 9, n. 1, p. 100106, 2009.
PETRIKIEVA, L.; FYFE, C. Bagging and bumping self-organising maps.
Computing and Information Systems, v. 9, n. 2, p. 69, 2002.
PILLAY, R. Instantaneous intrusion detection system. Tese (Doutorado)
OKLAHOMA STATE UNIVERSITY, 2011.
RAAFAT, H. M.; TOLBA, A. S.; ALY, A. M. A novel training weighted ensemble
(TWE) with application to face recognition. Applied Soft Computing, p. 36083617,
2011.
RAJASEKARAN, S.; PAI, G. Simplied fuzzy ARTMAP as pattern recognizer.
Journal of computing in civil engineering, v. 14, p. 92, 2000.
RITTER, H.; SCHULTEN, K. Convergence properties of Kohonens topology
conserving maps: Fluctuations, stability, and dimension selection. Biological
Cybernetics, Springer-Verlag New York, Inc., Secaucus, NJ, USA, v. 60, n. 1, p.
5971, 1988.
ROCHA NETO, A. R.; BARRETO, G. A. On the application of ensembles of
classiers to the diagnosis of pathologies of the vertebral column: A comparative
analysis. IEEE Latin America Transactions, IEEE, v. 7, n. 4, p. 487496, 2009.
RUSSEL, S. J.; NORVIG, P. Articial Intelligence: A Modern Approach.
Englewood Clis, EUA: Prentice-Hall, 1996.
SALZBERG, S. On comparing classiers: Pitfalls to avoid and a recommended
approach. Data Mining and Knowledge Discovery, Springer, v. 1, n. 3, p. 317328,
1997.
SANTOS, A.; CANUTO, A. Investigating the inuence of RePART in ensemble
systems designed by boosting. In: IEEE. Neural Networks, 2008. IJCNN
2008.(IEEE World Congress on Computational Intelligence). IEEE International
Joint Conference on. Hong Kong, China, 2008. p. 29072914.
SANTOS, A. M.; CANUTO, A. M. P. Using ARTMAP-based ensemble systems
designed by three variants of boosting. In: Proceedings of the International
Conference on Articial Neural Networks (ICANN08). Praga, Repblica Tcheca:
Springer, 2008. p. 562571.
SCHERBART, A.; NATTKEMPER, T. Looking inside self-organizing map
ensembles with resampling and negative correlation learning. Neural Networks,
Elsevier, 2010.
SCHWENK, H.; BENGIO, Y. Boosting neural networks. Neural Computation,
MIT Press, v. 12, n. 8, p. 18691887, 2000.
SILVA, I.; SPATTI, D.; FLAUZINO, R. Redes Neurais Articiais Para Engenharia
e Cincias Aplicadas. Primeira edio. So Paulo: Artliber, 2010.
SOUZA JNIOR, A. H.; BARRETO, G. A.; VARELA, A. T. A speech recognition
system for embedded applications using the SOM and TS-SOM networks. In:
MWASIAGI, J. I. (Ed.). Self-Organizing Maps - Applications and Novel Algorithm
Design. [S.l.]: InTech, 2011.
SPALL, J. C. Introduction to Stochastic Search and Optimization. New York, USA:
Wiley, 2003.
STONE, M. Cross-validatory choice and assessment of statistical predictions.
Journal of the Royal Statistical Society. Series B (Methodological), JSTOR, v. 36,
n. 2, p. 111147, 1974.
SUGANTHAN, P. N. Hierarchical overlapped SOMs for pattern classication.
IEEE Transactions on Neural Networks, IEEE, v. 10, n. 1, p. 193196, 1999.
TALBI, E.-G. Metaheuristics : from design to implementation. EUA: John Wiley
& Sons, 2009.
TIAN, J.; GU, H.; LIU, W. Imbalanced classication using support vector machine
ensemble. Neural Computing & Applications, v. 20, n. 2, p. 203209, 2011.
TODOROVSKI, L.; DEROSKI, S. Combining classiers with meta decision trees.
Machine Learning, Springer, v. 50, n. 3, p. 223249, 2003.
TRAN, M.; LIM, C.; ABEYNAYAKE, C.; JAIN, L. Feature extraction and
classication of metal detector signals using the wavelet transform and the fuzzy
ARTMAP neural network. Journal of Intelligent and Fuzzy Systems, IOS Press,
v. 21, n. 1, p. 8999, 2010.
TSYMBAL, A.; PECHENIZKIY, M.; CUNNINGHAM, P. Diversity in search
strategies for ensemble feature selection. Information Fusion, Elsevier, v. 6, n. 1, p.
8398, 2005.
TURKY, A. M.; AHMAD, M. S. The use of SOM for ngerprint classication.
In: IEEE International Conference on Information Retrieval & Knowledge
Management (CAMP2010). Shah Alam, Malsia: [s.n.]. p. 287290.
WANG, G.; LI, P. Evolutionary extreme learning machine based on dynamic
adaboost ensemble. In: Society of Photo-Optical Instrumentation Engineers (SPIE)
Conference Series. Xian, China: [s.n.], 2010. v. 7820, p. 65.
WINDEATT, T. Ensemble mlp classier design. Computational Intelligence
Paradigms, Springer, p. 133147, 2008.
WYNS, B.; SETTE, S.; BOULLART, L.; BAETEN, D.; HOFFMAN, I. E. A.; De
Keyser, F. Prediction of diagnosis in patients with early arthritis using a combined
Kohonen mapping and instance-based evaluation criterion. Articial Intelligence in
Medicine, Elsevier, v. 31, n. 1, p. 4555, 2004.
XIAO, Y.-D.; CLAUSET, A.; HARRIS, R.; BAYRAM, E.; SANTAGO, P.;
SCHMITT, J. D. Supervised self-organizing maps in drug discovery. 1. robust
behavior with overdetermined data sets. Journal of Chemical Information and
Modeling, v. 45, n. 6, p. 17491758, 2005.
YAO, Q.; CAI, J.; ZHANG, J. Simultaneous feature selection and ls-svm
parameters optimization algorithm based on pso. In: Computer Science and
Information Engineering, 2009 WRI World Congress on. Los Angeles, EUA: [s.n.],
2009. v. 5, p. 723727.
YAO, X. Evolving articial neural networks. Proceedings of the IEEE, IEEE, v. 87,
n. 9, p. 14231447, 1999.
YAO, X.; ISLAM, M. Evolving articial neural network ensembles. Computational
Intelligence Magazine, IEEE, IEEE, v. 3, n. 1, p. 3142, 2008.
ZADEH, L. Fuzzy sets. Information and Control, v. 2, p. 338353, 1965.
ZHOU, L.; LAI, K.; YU, L. Least squares support vector machines ensemble models
for credit scoring. Expert Systems with Applications, v. 37, n. 1, p. 127133, 2010.
ZHOU, Z.; WU, J.; TANG, W. Ensembling neural networks: Many could be better
than all. Articial intelligence, Elsevier, v. 137, n. 1-2, p. 239263, 2002.

2011 Dis Clcmattos

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2011 Dis Clcmattos

Transféré par

Droits d'auteur :

Formats disponibles

Universidade Federal do Cear

Departamento de Engenharia de Teleinformtica

SA Passo de controle do Recozimento Simulado

(x) inferida pelo comit para a amostra x ser dada por

(x) = arg max

: vetor de classes preditas para as Q amostras de teste

um vetor de dimenso D cujos elementos so todos iguais a 1. Os vetores de

(n) = arg max

recebe o valor zero (t

(n) = arg max

(n) = arg min

na grade de sada. O parmetro (n) > 0 refere-se largura da vizinhana

(n) = arg min

(n) = arg min

(n) = arg min

interessante perceber que, apesar da estratgia de rotulao

o conjunto de solues que minimiza a funo f(x) para x = x

(m) = arg max

(m), o que equivale a fazer pl

(m). A iterao da busca local incrementada (m m + 1) e os passos

(m) = arg max

(, k) a taxa de acerto obtida com esse vetor, considerando-se o algoritmo

como sendo a soma dos ranques correspondentes s diferenas

. Este passo resumido pelas

) e comparar o resultado com os valores de uma

para um padro de entrada desconhecido, apresentado

Vous aimerez peut-être aussi