Qualification

UNIVERSIDADE FEDERAL DO AMAZONAS
FACULDADE DE TECNOLOGIA
PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA
AREA DE CONCENTRAO: PROCESSAMENTO DE IMAGEM

ADRIANO MENDES GIL

ASSOCIAO DAS ABORDAGENS CLSSICA E MODULAR NO
RECONHECIMENTO DE DGITOS MANUSCRITOS

MANAUS
2013
2

UNIVERSIDADE FEDERAL DO AMAZONAS
FACULDADE DE TECNOLOGIA
PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA
AREA DE CONCENTRAO: PROCESSAMENTO DE IMAGEM

ADRIANO MENDES GIL

COMPARAO ENTRE A ABORDAGEM CLSSICA E A MODULAR NO
RECONHECIMENTO DE DGITOS MANUSCRITOS

Projeto de Qualificao apresentado ao
Curso de Mestrado em Engenharia Eltrica,
rea de concentrao de Controle e
Automao de Sistemas do Programa de Ps-
Graduao em Engenharia Eltrica da
Universidade Federal do Amazonas.

Orientador: Prof. Dr. Ccero Ferreira Fernandes Costa Filho
Co-orientadora: Profa. Marly Guimares Fernandes Costa

MANAUS
2013
3

NDICE DE ILUSTRAES

Figura 1 Sistema de reconhecimento de caracteres ............................................................... 11
Figura 2 Arquitetura modular definida em (Oh & Suen, 2002) ............................................ 20
Figura 3 Arquitetura de uma Rede neural de trs camadas ................................................... 30
Figura 4 Etapas da Metodologia utilizada neste trabalho ...................................................... 34
Figura 5 Matriz de confuso .................................................................................................. 37

4

NDICE DE TABELAS

Tabela 1 Resumo dos principais trabalhos pesquisados na literatura .................................... 14
Tabela 2 Resumo das Caractersticas utilizadas na literatura ................................................ 16
Tabela 3 Cronograma de Atividades ..................................................................................... 38

5

SUMRIO

NDICE DE ILUSTRAES ................................................................................................. 3
NDICE DE TABELAS ........................................................................................................... 4
SUMRIO ................................................................................................................................. 5
PARTE I .................................................................................................................................... 7
1 ATIVIDADES REALIZADAS DURANTE O CURSO ..................................................... 7
1.1 SISTEMAS LINEARES .................................................................................................... 7
1.2 PROCESSAMENTO DIGITAL DE SINAIS .................................................................. 7
1.3 REDES NEURAIS ARTIFICIAIS .................................................................................... 7
1.4 PROBABILIDADE E PROCESSOS ESTOCSTICOS ................................................ 7
1.5 ENGENHARIA DE SOFTWARE .................................................................................... 8
1.6 PROCESSAMENTO DIGITAL DE IMAGENS ............................................................. 8
1.7 RECONHECIMENTO DE PADRES ............................................................................ 8
PARTE II .................................................................................................................................. 9
1 INTRODUO ..................................................................................................................... 9
1.1 CONTEXTUALIZAO .................................................................................................. 9
2 OBJETIVO .......................................................................................................................... 12
2.1 GERAL .............................................................................................................................. 12
2.2 ESPECFICO .................................................................................................................... 12
2.3 ESTRUTURA DO TRABALHO ..................................................................................... 12
3 REVISO BIBLIOGRFICA ........................................................................................... 14
3.1 MATERIAIS ..................................................................................................................... 15
3.2 CARACTERSTICAS ..................................................................................................... 16
3.2.1 Descritores de Fourier ................................................................................................... 17
3.3 CLASSIFICADORES ...................................................................................................... 18
3.3.1 Redes Neurais treinadas com Algoritmo Backpropagation ....................................... 18
3.3.2 Redes Neurais Modulares ............................................................................................. 18
3.3.3 Redes Neurais Convolutivas ......................................................................................... 20
3.3.4 SVM ................................................................................................................................ 20
4 FUNDAMENTOS TERICOS .......................................................................................... 21
4.1 REMOO DE PADRES INDESEJADOS (OUTLIERS) ........................................ 21
4.2 NORMALIZAO DE DADOS .................................................................................... 21
6

4.3 MEDIDAS DE SEPARABILIDADE ENTRE CLASSES ............................................ 23
4.3.1 Divergncia ..................................................................................................................... 23
4.3.2 Fisher's Discriminant Ratio (FDR) .............................................................................. 24
4.4 SELEO DE CARACTERSTICAS ........................................................................... 25
4.4.1 Seleo Escalar de Caractersticas ............................................................................... 26
4. 5 TRAADO DA BORDA ................................................................................................ 27
4.6 DESCRITORES DE FOURIER ..................................................................................... 28
4.7 REDES NEURAIS ............................................................................................................ 29
4.7.1 Redes Neurais Multi-Layer Perceptron com o algoritmo de treinamento
Backpropagation ..................................................................................................................... 30
5 MATERIAIS E MTODOS ............................................................................................... 34
5.1 ESCOLHA DA BASE DE DADOS ................................................................................. 34
5.2 EXTRAO DE CARACTERSTICAS ....................................................................... 35
5.3 NORMALIZAO E SELEO DAS CARACTERSTICAS ................................. 35
5.4 RECONHECIMENTO DOS DGITOS ATRAVS DE UMA REDE NEURAL DE
MLTIPLAS CAMADAS ..................................................................................................... 35
5.5 PREENCHIMENTO DA MATRIZ DE CONFUSO .................................................. 36
5.6 APLICAO DE REDES NEURAIS ESPECFICAS PARA DISTINO DE
PARES DGITOS ................................................................................................................... 37
6 CRONOGRAMA ................................................................................................................. 38
REFERNCIAS BIBLIOGRFICAS ................................................................................. 39

7

PARTE I

1 ATIVIDADES REALIZADAS DURANTE O CURSO
As disciplinas descritas nas sees a seguir foram cursadas durante o curso de
mestrado em Engenharia Eltrica do PPGEE/UFAM.
1.1 Sistemas Lineares
Na disciplina de Sistemas Lineares foram abordados os seguintes contedos: teoria de
sistemas, projeto de sistemas multivariveis, modelagem de um sistema fsico, fundamentos
de lgebra linear, anlise de controlabilidade, observabilidade, estabilidade e robustez.
1.2 Processamento Digital de Sinais
Esta disciplina aborda a anlise e o processamento de sinais reais digitalizados atravs
dos seguintes tpicos: sinais e Sistemas no tempo discreto, transformadas Z e de Fourier DFT,
algoritmos rpidos, DCT, outras transformadas, filtros digitais filtros FIR, filtros IIR,
aproximaes para filtros e aplicaes.
1.3 Redes Neurais Artificiais
Na disciplina de Redes Neurais Artificiais foram estudados os seguintes contedos:
introduo redes neurais artificiais, modelo de neurnios e arquiteturas de rede, regra de
aprendizado do Perceptron, espaos vetoriais de pesos e de sinais, transformaes lineares
para redes neurais, aprendizado Hebiano supervisionado, superfcies de desempenho e pontos
de otimizao, algoritmo de aprendizado de Widrow-Hoff, algoritmo Backpropagation.
1.4 Probabilidade e Processos Estocsticos
8

Nesta disciplina foram abordados assuntos como: probabilidade; variveis aleatrias,
esperana condicional, teorema central do limite, noes de estimao; processos
estocsticos; cadeias de Markov e simulao computacional.
1.5 Engenharia de Software
Os contedos abordados nessa disciplina foram: processos, modelos de processo,
engenharia de requisitos, anlise de sistemas, projeto de software, verificao e validao de
requisitos, ferramentas de engenharia de software, gerenciamento de projeto, UML, anlise de
casos de uso e teste.
1.6 Processamento Digital de Imagens
Os seguintes assuntos foram abordados nesta disciplina: Conceitos fundamentais de
imagem digital e vdeo, processamento digital de imagens e vdeos, anlise de imagens,
extrao de caractersticas e classificao de imagens. Ao final do curso foi desenvolvido um
artigo como trabalho final.
1.7 Reconhecimento de Padres
Na disciplina de Reconhecimento de Padres foram abordados os contedos a seguir:
classificadores probabilsticos, classificadores lineares, classificadores no lineares, tcnicas
de seleo de caractersticas, tcnicas de gerao de caractersticas, avaliao de sistemas,
tcnicas de agrupamento.

9

PARTE II

1 INTRODUO
Reconhecimento de caracteres um problema que traz grande dificuldade devido
a enorme variao de estilos de escrita, ou seja, uma grande variao intra-classe, dado que os
caracteres podem possuir diferentes tamanhos e ngulos de orientao.
1.1 Contextualizao
Na sociedade moderna, contamos com computadores para processar grandes
volumes de dados. Relacionado a isto e por razes econmicas ou requisitos de negcio, h
uma grande demanda por rpida entrada de montanhas de informaes impressas ou escritas
mo para o formato digital (Cheriet, Kharma, Liu, & Suen, 2007). Muito comumente estes
dados existem no papel e precisam ser digitados em um computador por operadores humanos,
por exemplo, bilhes de cartas nos correios, cheques, entre outros. um processo que
consome muito tempo e com alta possibilidade de erros. Esta necessidade motivou a criao
de sistemas OCR (Reconhecimento tico de Caracteres - Optical Character Recognition) que
lem dados escritos reconhecendo um caractere por vez.
Reconhecimento tico de Caracteres (Optical Character Recognition - OCR) uma
importante aplicao de reconhecimento de padres. Existem muitos documentos de
importncia histrica, tcnica e econmica que existem somente na forma impressa. Um
sistema OCR pode ajudar a reduzir os custos de digitalizao destes documentos. Existem
muitas tcnicas bem sucedidas de implementao de OCR que vm sendo aplicadas em reas
como reconhecimento de texto manuscrito, reconhecimento de texto impresso de forma
mecnica, e reconhecimento de notas musicais.

10

No campo do reconhecimento automtico de manuscritos existem duas grandes
vertentes: on-line e off-line (Cheriet, Kharma, Liu, & Suen, 2007) (Cheriet, Kharma, Liu, &
Suen, 2007). O reconhecimento on-line diz respeito s informaes capturadas durante o ato
da escrita, tais como: velocidade, presso, direo. O reconhecimento off-line ocorre quando
a entrada para o sistema uma imagem do texto que foi capturada a partir de um scanner ou
de uma cmera.
Os tipos principais de OCR, comeando dos relativamente mais simples para os mais
difceis, so os seguintes (Mantas, 1986):
Reconhecimento de caracteres de fonte fixa: o reconhecimento de fontes
especficas (Ariel, Courier, etc) de caracteres digitados;
Reconhecimento On-Line de caracteres: o reconhecimento de caracteres
feitos mo onde no somente a imagem dos caracteres fornecida, mas
tambm a informao temporal de cada trao;
Reconhecimento Off-Line de caracteres manuscritos: o reconhecimento de
caracteres isolados feitos a mo.
Um sistema de reconhecimento de caracteres, conforme mostrado na Figura 1, divide-
se nas seguintes fases:
Aquisio de imagens: adquirir uma imagem colorida, ou em nvel de cinza ou
em formato binrio
Pr-processamento: aplicar tcnicas de processamento de imagens visando
aumentar as taxas de reconhecimento de caracteres. Tambm feita a
binarizao da imagem, ou seja, a converso das imagens adquiridas para o
formato binrio. Neste ponto a imagem uma somatria dos pontos do plano
de fundo com a regio de interesse.
11

Anlise de layout: entender a estrutura textual da imagem. uma etapa
importante em sistemas que levam em considerao a disposio do texto
como caracterstica semntica, ou seja, que impacta na maneira como o texto
ser interpretado. Este trabalho no contempla a etapa de anlise de layout, por
focar em dgitos manuscritos soltos.
Segmentao das palavras em caracteres
Classificao: utiliza reconhecimento de padres para classificar as amostras
encontradas nos caracteres corretos, tambm pode incluir anlise de sintaxe.
Ps-processamento: reunir todos os caracteres reconhecidos de forma a obter
as palavras do texto de entrada.

Figura 1 Sistema de reconhecimento de caracteres

12

2 OBJETIVO
2.1 Geral
O objetivo geral deste trabalho de pesquisa propor uma metodologia de treinamento
de redes neurais com ps-processamento utilizando redes especficas, para o problema de
reconhecimento de dgitos manuscritos, utilizando Descritores de Fourier.
2.2 Especfico
Os objetivos especficos consistem em:
Utilizar, em um primeiro momento, redes neurais de propagao direta
(feedforward) treinadas com o mtodo de retropropagao para diferenciao
inicial de dgitos manuscritos;
Utilizar, em um segundo momento, a matriz de confuso e redes neurais
especficas, treinadas com o algoritmo de retropropagao, para diferenciar grupos
de dgitos com formatos semelhantes;
Avaliar o mtodo desenvolvido utilizando uma base de dados de dgitos
manuscritos consolidada e avaliada na literatura;
Utilizar descritores de Fourier como caracterstica na classificao de dgitos
manuscritos associado com tcnica de transio de borda (BTT).
2.3 Estrutura do trabalho
A diviso deste trabalho feita em duas partes. A primeira parte aborda as atividades
curriculares realizadas durante o mestrado, incluindo uma breve descrio das disciplinas
cursadas. A segunda parte formada por cinco captulos, discorre acerca da pesquisa que ser
realizada no trabalho de dissertao. O Captulo 1 apresenta uma breve introduo ao tema de
reconhecimento de dgitos manuscritos e sua caracterizao como problema na rea de
reconhecimento de padres. O Captulo 2 aborda os objetivos gerais e especficos propostos
para a dissertao e descreve, de forma resumida, a estrutura do trabalho. O Captulo 3
apresenta alguns trabalhos que contriburam para a realizao desta pesquisa e a reviso
13

bibliogrfica de artigos com temas relacionados metodologia de sistemas de reconhecimento
de caracteres. O Captulo 4 inclui a fundamentao terica, apresentado os conceitos bsicos
de remoo de padres indesejados (outliers), normalizao dos dados, a definio de
Descritores de Fourier e do algoritmo de treinamento de redes neurais intitulado
backpropagation. O Captulo 5 aborda os materiais usados no desenvolvimento do trabalho e
a metodologia que ser utilizada para alcanar os objetivos propostos. O Captulo 6 apresenta
o cronograma seguido durante o mestrado.

14

3 REVISO BIBLIOGRFICA
Um sistema de reconhecimento de caracteres pode ser diferenciado segundo a base
utilizada, suas caractersticas, classificador e resultados, tal como evidenciado na Erro! Fonte
de referncia no encontrada.. Nas sees a seguir os artigos revisados sero abordados em
funo das caractersticas, classificadores, materiais e resultados obtidos. Procuraremos
evidenciar quais trabalhos influenciaram na escolha e desenvolvimento da proposta dessa
pesquisa.
Tabela 1 Resumo dos principais trabalhos pesquisados na literatura
Ano Autor Ttulo Materiais
Caracterstica
s
Classificador Resultados
199
7
Yuk Ying Chung
e Man To Wong
Handwritten
Character
Recognition by
Fourier
Descriptors
and Neural
Network
Base prpria
Descritores de
Fourier e
Tcnica de
transio de
borda
Rede Neural
MLP utilizando
algoritmo de
treinamento
backpropagation
96% de
acurcia
200
6
VelappaGanapath
y e Charles C. H.
Lean
Optical
Character
Recognition
Program for
Images of
Printed Text
using a Neural
Network
Base prpria
49
caractersticas
relativas a
propriedades
da imagem
Rede Neural
Auto-
Organizvel
(SOM)
81% de
acurcia
200
4
Ernst Kussul e
Tatiana Baidyk
Improved
method of
handwritten
digit
recognition
tested on
MNIST
database
Base de
dados
MNist de
dgitos
manuscritos
A prpria
imagem sem
alteraes
Classificador
baseado no
perceptron de
Rosenblatt
99,37% de
acurcia
199
2
A. D. Mandalia,
A. S. Pandya e R.
Sudhakar
A hybrid
approach to
recognize
handwritten
alphanumeric
characters
No diz
Transformada
de Hough
Rede Neural
MLP
juntamente com
a teoria
Dempster-
Shafer para lidar
com a incerteza
dos dados
No diz
15

199
2
Gary M. T. Man e
Joe C. H. Poon
An enhanced
approach to
character
recognition by
Fourier
descriptor
Base prpria
Descritores de
Fourier
Casamento de
modelos
previamente
definidos e Rede
Neural MLP
treinada com o
algoritmo
backpropagatio
n
90% de
acurcia
201
1
Carlos M.
Travieso, Jess B.
Alonso e Miguel
A. Ferrer
Combining
different off-
line
handwritten
character
recognizers
Base NIST-
SD19
Mscara de
Kirsch e
Descritores
elpticos de
Fourier
Combinao de
trs
classificadores
SVM
98,55% de
acurcia
com dgitos
manuscrito
s
201
1
Dan
ClaudiuCiresan,
Ueli Meier, Luca
Maria
Gambardella e
Jrgen
Schmidhuber
Convolutional
Neural
Network
Committees
for
Handwritten
Character
Classification
Base MNist
de dgitos
manuscritos
A prpria
imagem sem
alteraes
Combinao de
Redes Neurais
Convolutivas
99,73% de
acurcia
com dgitos
manuscrito
s
200
2
Il-Seok Oh e
Ching Y. Suen
A class-
modular
feedforward
neural network
for
handwriting
recognition
Base
CENPARM
I de dgitos
manuscritos
Distribuio
de distncia
direcional
Redes Neurais
Modulares
97,30% de
acurcia
com dgitos
manuscrito
s
199
9
Mohamed
Masmoudi,
MounirSamet,
FaycalTaktak e
Adel M. Alimi
A hardware
implementatio
n of neural
network for the
recognition of
printed
numerals
Base prpria
A prpria
imagem sem
alteraes
Rede Neural
treinada com o
algoritmo
backpropagatio
n
90% de
acurcia
com dgitos
impressos

3.1 Materiais
Conforme mostrado na Tabela 1as principais bases de dados utilizadas para o
treinamento e teste de sistemas de reconhecimento de caracteres so: NIST-SD19 e Base
MNIST de dgitos manuscritos. Os trabalhos que utilizam uma base prpria so de pouca
utilidade, pois no permitem que sejam estabelecidas comparaes de desempenho com os
algoritmos apresentados nos mesmos.
16

A base NIST Special Database 19 (SD 19) contm imagens binrias de 3699 amostras
de formulrios manuscritos, totalizando 814255 dgitos e caracteres alfanumricos
manuscritos segmentados. Cada caractere segmentado possui um tamanho de 128x128 pixels
e esto rotulados como pertencentes a uma entre as 62 classes possveis.
A base MNIST de dgitos manuscritos possui um conjunto de 60000 amostras de
treinamento e um conjunto de teste com 10000 amostras. Cada amostra possui seu tamanho
normalizado para 20x20 pixels centradas em um espao de 28x28 pixels.
3.2 Caractersticas
Uma das primeiras fases no projeto de um sistema de reconhecimento de caracteres a
definio de quais caractersticas sero utilizadas para representar os dados de interesse. Na
Tabela 1 vemos que as principais caractersticas utilizadas na literatura para esse fim foram:
descritores de Fourier, a prpria imagem, transformada de Hough, mscara de Kirsch e
tcnica de transio de borda.
Com o objetivo de comparar essas caractersticas elaboramos a Erro! Fonte de
referncia no encontrada., onde so listadas as vantagens e desvantagens das mesmas.
Tabela 2 Resumo das Caractersticas utilizadas na literatura Tabela 2 Resumo das Caractersticas utilizadas na literatura
Caractersticas Vantagens Desvantagens
Descritores de Fourier Invariantes a mudanas de
deslocamento e translao
Sensveis a pequenas mudanas nas
bordas dos contornos
A prpria imagem sem alteraes Preserva todas as caractersticas da
imagem
Espao de alta dimensionalidade, o
que pode ser contornado ao utilizar
PCA
Transformada de Hough Acurcia em detectar segmentos de
linhas e curvas
Alto custo computacional
Mscara de Kirsch Extrai informaes pela inclinao
dos caracteres
Grande variabilidade nos dados
17

Tcnica de transio de borda Utiliza propriedades topolgicas
para identificar indivduos que so
confundidos ao usar somente
Descritores de Fourier, e.g, os
dgitos '6' e '9' so confundidos
devido ao fato de Descritores de
Fourier serem invariante a
mudanas de rotao
No suficiente para garantir o
reconhecimento dos caracteres

Nesse trabalho, as principais caractersticas utilizadas foram os descritores de Fourier.
Dessa forma, analisaremos com mais detalhes a seguir os trabalhos que utilizaram essas
caractersticas.
3.2.1 Descritores de Fourier
Os Descritores de Fourier so caractersticas nicas na representao e classificao de
contornos, pois realam a descrio de informaes locais e distingue contornos similares.
Descritores de Fourier so muito teis no reconhecimento de formas, uma vez que os mesmos
no apenas so invariantes a transformaes afins de forma como tambm a transformaes
que envolvem deslocamentos (Poon & Man, 1992),o que torna possvel reconstruir uma
forma original completamente, sendo a computao dos mesmos efetuada de forma fcil e
eficiente. Embora sejam caracterstica globais, podem ser afetados por pequenas distores
nas bordas.
Em (Poon & Man, 1992) utilizada uma representao de objetos por um conjunto de
Descritores de Fourier. Cada elemento desse conjunto refere-se a diferentes pores do
objeto. A abordagem apresentada no artigo (Morns & Dlay, , 1996) define uma rede neural de
propagao direta com superviso dinmica, cujas caractersticas de entrada so descritores de
Fourier. O autor alega atingir taxas de acerto de 97.46%, o que levanta a hiptese de boa
representao deste tipo de caracterstica.
18

Em (Chung & Wong, 1997) citada a utilizao dos descritores invariantes de Fourier
em conjunto com uma rede neural treinada com o algoritmo backpropagation. Porm no
evidenciado no artigo quais as metodologias de treinamento e teste utilizadas, alm de no
especificar qual base de dados foi escolhida.

3.3 Classificadores
O papel do classificador dividir o espao de caractersticas em regies que
correspondem as classes do problema em anlise (Theodoridis & Koutroumbas, 2009)
(Theodoridis & Koutroumbas, 2009). A escolha do classificador uma das etapas mais
importantes no projeto de um sistema de reconhecimento de padres.
3.3.1 Redes Neurais treinadas com Algoritmo Backpropagation
O artigo (Masmoudi, Samet, Taktak, & Alimi, 2000) trabalha com o reconhecimento de
numerais impressos, uma tarefa necessria para a interpretao de endereos postais, e para a
determinao dos valores de um cheque bancrio, por exemplo. Este trabalho trata da
aplicao de um circuito de rede neural para o problema de reconhecimento de numerais. Foi
utilizada uma rede neural de arquitetura 35-10-10, que em uma base prpria de 100 amostras
obteve uma taxa de 90% de acerto.
O trabalho (Poon & Man, 1992) utiliza um classificador multi-categoria que fornece
os padres de entrada para uma rede neural de trs camadas treinada com algoritmo
backpropagation. Testado em uma base prpria, o algoritmo teve uma taxa de acerto de 96.5%
para amostras de treinamento e 90% para amostras de teste.
3.3.2 Redes Neurais Modulares
19

O conceito de arquitetura neural modular foi desenvolvido por (Jordan & Jacobs, 1991). Essa
arquitetura inicial possui muitas redes especialistas e uma rede de chaveamento. Uma nica
tarefa ento decomposta em mltiplas subtarefas e cada subtarefa alocada a uma rede
especialista. A rede de chaveamento controla a sada final aps receber a sada de cada uma
das redes especialistas.
O livro (Hrycej, 1992) devotado ao aprendizado modular de redes neurais. O autor
notou o fato que uma rede neural comumente vista como uma caixa preta desestruturada
com uma capacidade de aprendizado. Um problema surge quando seu tamanho se torna muito
grande devido a complexidade, ento baseado em suas caractersticas, pode ser feita uma
tentativa de modularizao da rede em vrios aspectos, e.g, decomposio em partes no-
supervisionadas e supervisionadas, ou partes lineares e no-lineares. Para demonstrar que a
modularidade pode alavancar o desempenho do aprendizado, experimentos de
reconhecimento so discutidos utilizando dados de uma desordem na tireide e dgitos
manuscritos.
No artigo (Oh & Suen, 2002) proposto uma arquitetura de Perceptron multicamada
de alimentao direta com modularizao de classe para o problema de reconhecimento de
caracteres. So gerados K classificadores binrios, treinados independentemente, ou seja, cada
classificador treinado para distinguir entre uma das K classes em detrimento do restante. O
erro de propagao reversa aplicado para cada um dos classificadores binrios da mesma
maneira que uma rede neural convencional. Sua arquitetura, tal como mostra a Figura 2, foi
testada e comparada em relao abordagem convencional atravs de quatro diferentes
conjuntos de caracteres: dgitos (10 classes), letras maisculas (26 classes), dgitos em pares
com pontos em comum (100 classes) e caracteres coreanos (352 classes). Todos os testes
tiveram resultados melhores que suas contrapartidas de abordagem convencional.
20

Figura 2 Arquitetura modular definida em (Oh & Suen, 2002)
Uma arquitetura MLP com classes modulares para reconhecimentos dos nomes
manuscritos dos meses do ano proposta em (Kapp, Freitas, Nievola, & Sabourin). As
caractersticas utilizadas neste artigo so caractersticas perceptuais e caractersticas baseadas
em concavidades/convexidades e seus nmeros de ocorrncia, alm de mecanismo de
extrao de primitivas por zoneamento. O artigo alega obter 81,75% de taxa de
reconhecimento.
3.3.3 Redes Neurais Convolutivas
O melhor resultado at agora publicado para dgitos manuscritos na base NIST SD 19
o (Ciresan, Meier, Gambardella, & Schmidhuber, 2011). Utiliza um grupo de
classificadores, redes neurais convolutivas, treinadas na base MNIST por 800 pocas, obtendo
um erro mdio de u.27 _u.u2%.
3.3.4 SVM
O artigo (Travieso, Alonso, & Ferrer, 2011) prope a combinao de trs
classificadores SVM, cada um recebendo um tipo diferente de entrada: mscara de Kirsch e
Descritores Elpticos. Testado na base de dados NIST-SD19, obteve taxa de acerto de
98,55% 0.02.
21

4 FUNDAMENTOS TERICOS
Neste captulo, apresentaremos a fundamentao terica necessria para o
entendimento do trabalho proposto. Na primeira parte, h uma breve descrio sobre os
mtodos de normalizao de dados utilizados, como a remoo de outliers. Na seo seguinte,
abordaremos os mtodos de extrao dos Descritores de Fourier. A ltima parte deste captulo
ser dedicada ao mtodo de treinamento de redes neurais com retropropagao.
4.1 Remoo de padres indesejados (outliers)
Um outlier definido como um ponto que muito distante da mdia da varivel
aleatria correspondente. Esta distncia medida com respeito a um dado limite, usualmente
tomando como referncia o desvio padro. Sabe-se que para uma varivel aleatria, com
distribuio normal, uma distncia de duas vezes o desvio padro cobre 95% dos pontos, e a
distncia de trs vezes o desvio padro cobre 99% dos pontos. Usualmente considera-se como
limite uma distncia de duas ou trs vezes o desvio padro em relao a mdia. Pontos
situados alm do limite estabelecido so descartados. Esse descarte ocorre porque pontos com
valores muito diferentes do valor mdio produzem grandes erros durante o treinamento e
podem ter efeitos desastrosos.
4.2 Normalizao de Dados
Em muitas situaes um projetista pode ser confrontado com caractersticas cujos
valores pertencem a limites muito dinmicos e diferentes. Assim, caractersticas com faixas
dinmicas muito grandes podem influenciar muito mais um sistema de reconhecimento de
padres do que caractersticas com faixas dinmicas menores, embora isso no reflita
exatamente a real significncia desta caracterstica no projeto do classificador. O problema
solucionado ao normalizar a caracterstica de tal forma que seus valores estejam em intervalos
22

similares. Uma tcnica muito utilizada normalizar atravs das respectivas estimativas de
mdia e varincia. Para um conjunto de N caractersticas, o valor mdio da caracterstica x
k

dada por:
x
k
=
1
N
x
k
N
|=1

para k = 1,2, , l

E o desvio padro da caracterstica x
k
dado por:
o
k
2
= _
1
N 1
_ (x
k
x
k
)
2
N
=1

O valor normalizado da caracterstica x
k
dada ento por:
x
k
=
x
k
x
k
o
k

Em outras palavras, todas as caractersticas normalizadas resultantes tero mdia zero
e varincia igual a 1. Esta operao obviamente um mtodo linear. Outras tcnicas lineares
limitam o valor das caractersticas a um intervalo fixo |u, 1] ou |1, 1] atravs de um
escalamento apropriado. Alm dos mtodos lineares, mtodos no-lineares tambm tm sido
empregados em casos onde os dados no so bem distribudos ao redor da mdia. Em tais
casos, transformaes baseadas em funes no-lineares (por exemplo, logaritmo, ou sigmoid)
podem ser usadas para mapear dados com intervalos especificados. Um mtodo no linear de
escalamento que goza de certa popularidade o mtodo softmax. Esse mtodo consiste nos
seguintes passos:
Passo 1: Calcular o novo valor de caracterstica para N(u,1)
y =
x
k
x
k
o
k

23

Passo 2: Normalizar o valor de caracterstica encontrado
x
k
=
1
1 + e
-

Ou seja, basicamente uma funo de esmagamento, limitando os dados no intervalo
de |u, 1]. Usando uma aproximao de expanso de sries, no difcil perceber que para
pequenos valores de yisto o mtodo aproximadamente uma funo linear com respeito a
x
k
. O intervalo de valores de x
k
que corresponde a parte linear depende do desvio padro e
do fator r, que livremente definido. Valores longe da mdia so 'esmagados'
exponencialmente.
4.3 Medidas de separabilidade entre classes
4.3.1 Divergncia
De acordo com a regra de Bayes, dadas duas classes m
1
e m
2
e um vetor de
caractersticas x, pode-se dizer que x representa a classe m
1
se:
P(m
1
|x) > P(m
2
|x)
Dessa forma, o erro de probabilidade depende da diferena entre P(m
1
|x) e P(m
2
|x).
Logo, a taxa
P(m
1
|x)
P(m
2
|x)
pode fornecer uma boa informao acerca das capacidades
discriminatrias com respeito as duas classes m
1
e m
2
. Verifica-se que a mesma informao
reside na relao |n
p(x|m
1
)
p(x|m
2
)
=
12
(x). Para classes completamente sobrepostas, o valor de
12
= u. Considerando o valor mdio sobre a classe m
1
, obtm-se:
12
= _ p(x|m
1
) |n
p(x|m
1
)
p(x|m
2
)
+
-

Da mesma forma para a classe m
2
, tem-se:
24

21
= _ p(x|m
2
) |n
p(x|m
2
)
p(x|m
1
)
+
-

A soma J
12
=
12
+
21
conhecida como divergncia e pode ser usada como
medida de separabilidade para as classes m
1
, m
2
, com respeito ao vetor de caractersticas x.
Para problemas multiclasse, a divergncia calculada para cada par m
, m
]
:
J
]
=
]
+
]

J
]
= _ (p(x|m
) p(x|
]
))|n
p(x|m
)
p(x|m
]
)
Jx
+
-

E a separabilidade mdia de classe pode ser calculada utilizando a divergncia mdia:
J = P(m
)P(m
]
)J
]
M
]=1
M
=1

Assumindo que as funes de densidade so Gaussianas w(
, 2
) e w(
]
, 2
]
) a
divergncia para o caso unidimensional pode ser dada por:
J
]
=
1
2
_
o
]
2
o
2
+
o
2
o
]
2
- 2 _ +
1
2
(

]
)
2
_
1
o
2
+
1
o
]
2
_
A medida de separabilidade de classe no pode depender somente da diferena entre
valores de mdia, deve ser tambm dependente da varincia. Assim, J
]
pode ser maior
mesmo para valores de media iguais porm com varincias que tenham uma diferena
significativa. Dessa forma, a separao entre classe possvel mesmo se os valores de mdia
das classes coincidirem.
4.3.2 Fisher's Discriminant Ratio (FDR)
FDR utilizado algumas vezes para quantificar a capacidade de separabilidade de
caractersticas individuais. Um maior valor da razo FDR, tal como mostrada na equao
abaixo, significa uma medida maior de separabilidade entre as classes.
25

FR =
(
1
-
2
)
2
o
1
2
+o
2
2

Para problema multi-classe, FDR pode ser extendido para:
FR =
(

]
)
2
o
2
+o
]
2
M
]=
M

Onde:

a mdia das amostras da classe i

]
a mdia das amostras da classe j
o
2
a varincia das amostras da classe i
o
]
2
a varincia das amostras da classe j

4.4 Seleo de Caractersticas
Um grande problema associado com o reconhecimento de padres a assim chamada
maldio da dimensionalidade. Esse fenmeno ocorre quando existe um grande nmero de
caractersticas a disposio de um projetista de um sistema de reconhecimento de padres.
Existem algumas razes para reduzir o nmero de caractersticas para um mnimo suficiente.
Uma delas a questo da reduo da complexidade computacional.Outra razo que, embora
duas caractersticas possam carregar uma boa informao de classificao quando tratadas
separadamente, h pouco ganho quando so combinadas em um vetor de caractersticas, por
conta de sua alta correlao mtua.
Do ponto de vista das propriedades de generalizao do classificador, quanto maior for
a relao do nmero de padres de treinamento N para o nmero de parmetros livres do
classificador, melhores so as qualidades de generalizao do classificador resultante. Um
maior nmero de caracterstica diretamente traduzido em um maior nmero de parmetros
do classificador, e.g, pesos sinpticos em uma rede neural, pesos de um classificador linear.
26

Assim, para um nmero N de padres de treinamento e nmero l de parmetros do
classificador, manter uma alta taxa
N
I
, aumenta o desempenho da classificador, aumentando
sua estimativa de erro de classificao.
4.4.1 Seleo Escalar de Caractersticas
Seleo escalar de caractersticas trata do problema de selecionar um subconjunto de
caractersticas a partir de um vetor de caractersticas, tratando uma a uma, de forma
individual, ou seja, como escalares. necessrio escolher um mtodo de medida de
separabilidade de classe, um critrio C(k) calculado para cada caracterstica k = 1,2, , m.
As caractersticas ento so organizadas em ordem descrescente de valores de C(k), e so
escolhidas os melhores valores de C(k) para formar um novo vetor de caracterstica.
A maior vantagem de lidar com caractersticas individualmente a reduo da
complexidade computacional. Embora, tais abordagens no levem em conta as correlaes
existentes entre as caractersticas. Assim, o coeficiente de correlao cruzada definido em
(Theodoridis K. , 2007) como:
p
]
=
_ x
n
x
n]
N
n=1
__ x
n
2
_ x
n]
2 N
n=1
N
n=1

O procedimento de seleo de caracterstica se desenvolve nos seguintes passos:
Selecione um critrio C(k) de separabilidade de classe e computar todo os seus
valores para todas as caractersticas disponveis x
k
para k = 1,2, , m.
Ordene de forma decrescente e escolha o melhor valor de C(k). Vamos chamar
de x
1

Para selecionar uma segunda caracterstica, calcule o coeficiente de correlao
cruzada entre a caracterstica escolhida x
1
e cada um das restantes m 1
caractersticas
27

Escolha a caracterstica x
2
para o qual
i
2
= argmax
]
|u
1
C(]) u
2
p
1
]
|
onde u
1
, u
2
so fatores de peso para determinar a importncia relativa que damos para
os dois termos.
4.S 4.S 4.S 4.S Traado da Borda
O prposito do algoritmo extrair informao da borda (contorno) de um caractere
segmentado e apresent-lo em uma forma mais compactada. Existem vrios mtodos de
traado de borda. O mtodo de adjacncia de '4-vizinhana' adotado neste trabalho.
Basicamente, o algoritmo escaneia a imagem binria at encontrar a borda. Uma vez
que um pixel de borda detectado, continua a busca at encontrar o pixel seguinte. Dessa
forma, o traado seguir o contorno automaticamente.
Quando o primeiro pixel encontrado, o programa atribui as coordenadas daquela
posio para indicar que esta a origem do traado. O algoritmo de traado busca ento pelos
pixels mais prximos. A busca ocorre seguindo a sentido horrio. A sequncia de busca
iniciada em P1 para P2, ento P3 e finalmente P4.
Conforme o algoritmo de traado se movimenta pelos contornos da imagem, as
coordenadas correspondentes so armazenadas em um vetor, com o objetivo de calcular os
Descritores de Fourier.
Durante o processo de busca pelo contorno, o programa verifica sempre se as
primeiras coordenadas obtidas so iguais as ltimas. Atingindo esta condio, o algoritmo
termina sua operao, pois todo o contorno dever ter sido traado.

28

4.6 Descritores de Fourier
Na literatura foram desenvolvidos inmeros mtodos para a extrao da forma de
imagens, embora os descritores de Fourier sejam um dos mtodos mais populares e eficientes.
Em princpio, representa a forma do objeto no domnio da frequncia. Por fazer isso, os
descritores de Fourier tiram proveito de mltiplas vantagens: forte habilidade de
discriminao, baixa sensitividade a erros, fcil normalizao e preservao de informao. A
sequncia discorre sobre as diferentes assinaturas de forma e ento explica minuciosamente os
descritores padres de Fourier.
Descritores de Fourier (Theodoridis & Koutroumbas, 2009) so usados para descrever
a forma (curva fechada) de qualquer objeto encontrado em uma imagem de entrada. Um pr-
requisito para computar os Descritores de Fourier digitalizar e extrair as informaes de
borda do objeto e normalizar todas as informaes. Durante a normalizao, os pontos de
dados da forma das bordas do objeto so amostrados para terem o mesmo nmero de pontos.
Como os descritores de Fourier requerem uma representao unidimensional da informao
de borda, assinaturas de forma so utilizadas. A assinatura da forma mapeia uma
representao 2D de uma forma para uma representao 1D. Embora existam inmeros tipos
de assinaturas de forma, sero considerados apenas trs tipos: coordenadas complexas,
distncia de centride e curvatura.
A transformada de Fourier para uma forma assinatura formada com L pixels,
assumindo que s(t) normalizada para N pontos no estgio de amostragem, dado por:
u
n
=
1
N
s(t)c
[
-]nnt
N

N-1
t=0

Os coeficientes so chamados de descritores de Fourier da amostra. Eles podem ser
denotados por F
n
.

29

4.7 Redes Neurais
Redes Neurais so compostas de simples elementos operando em paralelo. Estes
elementos so inspirados no sistema nervoso biolgico. Assim como na natureza, as conexes
entre elementos determinam a funo da rede. possvel treinar uma rede neural para realizar
uma funo particular atravs de ajustes nos valores das conexes, ou seja, um ajuste de
pesos, entre elementos.
Quanto ao treinamento, existem dois tipos de redes neurais: redes baseadas em
treinamento supervisionado e redes baseadas em treinamento no supervisionado. Essas
ltimas destinam-se a aplicaes de agrupamento de dados, enquanto que as primeiras
destinam-se a aplicaes de reconhecimento de padres.
No treinamento supervisionado, as redes neurais so ajustadas, ou treinadas, de forma
que uma entrada particular leve a uma sada alvo especfica. A rede ajustada, baseada na
comparao da sada e o alvo, at que a sada da rede se torne igual ao valor alvo. O
treinamento da rede necessita de pares de entrada e valores alvo, permitindo que a rede atinja
o seu objetivo de projeto.
As redes neurais utilizadas nesse trabalho tm uma arquitetura de propagao direta,
sem realimentaes, com trs camadas, conforme mostrado na Figura 2. A primeira camada
denominada de camada de entrada. A segunda camada denominada de camada
intermedirias ou camada escondida, enquanto que a ltima camada denominada de camada
de sada. A arquitetura de uma rede de trs camadas usualmente descrita por trs nmeros:
n m o, em que: n o nmero de neurnios da camada de entrada, m o nmero de
neurnios da camada intermediria e o o nmero de neurnios da camada de sada.

30

Figura 3 Arquitetura de uma Rede neural de trs camadas
Redes Neurais tm sido utilizadas para realizar funes complexas em vrios campos,
incluindo reconhecimento, identificao e classificao de padres, aplicaes envolvendo
voz, viso e em sistemas de controle. Problemas difceis para computadores convencionais ou
para seres humanos tambm podem ser resolvidos atravs de redes neurais treinadas para este
fim.
4.7.1 Redes Neurais Multi-Layer Perceptron com o algoritmo de treinamento
Backpropagation
Proposto em 1986, o algoritmo backpropagation ou regra delta generalizada o
algoritmo de treinamento mais utilizado para ajustes de pesos de redes neurais artificiais
(Hagan, Demuth, & Beale, 1995) (Hagan, Demuth, & Beale, 1995). Tambm chamado de
mtodo do gradiente descendente, por se basear no clculo do gradiente do erro total cometido
pela rede para ajustes dos pesos, o algoritmo backpropagation requer que as funes de
ativao dos nodos sejam contnuas e, geralmente, no decrescentes, de forma que seja
possvel o clculo da derivada da funo.
31

O erro total cometido pela rede a funo de custo a ser minimizada pelo algoritmo.
Tal funo definida como a mdia da soma dos erros quadrticos sendo definida pela
equao:
E =
1
2N
(J
)
2
N
=1

Na equao acima, E o erro total mdio cometido pela rede, N a quantidade de
padres que forma o conjunto de treinamento, J
a sada desejada para o i-simo padro

fornecido a rede como entrada e y
o valor produzido pela rede como sada para o i-simo

padro.
O algoritmo backpropagation um algoritmo supervisionado j que trabalha com
pares de valores (entrada, sada desejada). Quando no h o conhecimento a priori da sada
desejada para o padro de entrada, o algoritmo dito no supervisionado. Supervisionado e
no supervisionado so as duas principais classificaes de algoritmos quanto forma de
aprendizagem.
Formado por duas etapas bem definidas chamadas de fase forward (fase responsvel
por calcular as sadas de cada nodo para cada padro de entrada apresentado rede) e fase
backward (fase responsvel por atualizar os pesos das conexes das redes atravs da retro-
propagao do erro cometido pela rede), o algoritmo backpropagation descrito como:
Algoritmo 1 Pseudo-cdigo Backpropagation
1. Inicializar pesos e bias
2. Apresentar o padro de entrada juntamente com a sua respectiva sada
3. Propagar esse padro de camada em camada, de forma que seja calculada sada para
cada nodo da rede.
4. Comparar a sada gerada pela rede com a sada desejada e calcular o erro cometido
pela rede para os nodos da camada de sada.
32

5. Atualizar os pesos dos nodos da camada de sada com base no erro cometido por tais
nodos
6. At a chegar camada de entrada:
a. Calcular o erro dos nodos da camada intermediria baseada no erro cometido
pelos nodos imediatamente seguintes ponderado pelos pesos entre os nodos da
camada atual e os nodos imediatamente seguintes.
7. Repetir os passos 2, 3, 4,5 e 6 at obter um erro mnimo ou at atingir um dado nmero
de interaes.

O erro cometido por um nodo j da camada de sada formalizada pela equao:
o
]
= (J
]
y
]
) - (nct
]
)
O valor J
]
a sada desejada para o nodo, y
sada que foi produzida pela rede, a

derivada da funo de ativao para o valor nct
]
, que por sua vez representa a ativao do
nodo j pela equao:
nct
]
= x
w
]
N
=1

O valor n representa o nmero de nodos da camada imediatamente anterior conectados
ao nodo j, x
a sada de cada nodo da camada anterior que serve como entrada do nodo j e
w
]
o peso associado conexo entre cada nodo da camada imediatamente anterior e o nodo
j.
Para um nodo j da camada intermediria, seu erro dado pela equao
o
]
=
i
(nct
]
) o
n
w
n]
n

O valor o
n
representa os erros cometidos pelos nodos imediatamente direita de j e
w
n]
representa os pesos das conexes existentes entre o j e os nodos imediatamente sua
direita.
33

Por fim, a frmula de ajuste dos pesos pode ser definida pelas equaes:
w
]
(k +1) = w
]
(k) + Aw
]

Aw
]
= po
]
x

Na equao acima, p um valor no intervalo |u,1] que representa a taxa de
aprendizagem, lambda (o
]
) o erro produzido por um nodo da camada de sada ou camada
intermediria e x
o valor de entrada do nodo j.

Para evitar custos computacionais desnecessrios, um critrio de parada do algoritmo
estabelecido: ao atingir uma taxa de erro mnima ou quando ultrapassar um nmero mximo
de iteraes.
Na literatura diversos mtodos foram desenvolvidos para acelerar o treinamento de
uma rede neural. Nesse trabalho utilizou-se o algoritmo Levenberg-Marquadt. Esse algoritmo
uma variao do mtodo de Newton que foi projetada para minimizar funes que so a
soma dos quadrados de outras funes no-lineares. Segundo (Hagan, Demuth, & Beale,
1995) este algoritmo converge em menos iteraes do que a maioria dos mtodos conhecidos
na literatura. Apesar da desvantagem de possuir um custo computacional maior por iterao,
dado que necessrio calcular a matriz inversa, este algoritmo o mtodo de treinamento de
redes neurais mais rpido. Devido as caractersticas de agilidade no treinamento, este mtodo
foi escolhido para ser utilizado neste trabalho.

34

5 MATERIAIS E MTODOS
Para realizar o treinamento da rede neural, utilizaremos um microcomputador com
processador Intel Xeon 2.4 GHz e 24 GB de RAM, operando sob a plataforma Windows 7.
Os scripts para treinamento e simulao da rede neural foram desenvolvidos em linguagem
MATLAB, escritos e executados no programa MATLAB R2009a operando com a verso
1.6.0_22 da mquina virtual Java.
A metodologia adotada para realizar o treinamento da rede neural para o problema do
reconhecimento de dgitos manuscritos segue as etapas descritas no diagrama em blocos
mostrado na Figura 4, que sero discutidas nas sees a seguir.

Figura 4 Etapas da Metodologia utilizada neste trabalho

5.1 Escolha da base de dados
Foi escolhida a base de dados MNIST para a realizao desse trabalho. Esta uma
base dados contendo 60000 padres de treinamento e 10000 padres de teste. Os padres
foram obtidos de aproximadamente 250 autores diferentes. A base de dados adequada para
testes de algoritmo de aprendizagem para reconhecimento e classificao de padres. Os
nmeros so armazenados em escala de cinza e normalizados para o tamanho 2u 2u
pixels, onde se encontram centralizados. A vantagem desta base o fato de padres no
35

necessitarem de uma etapa de pr-processamento extensa ou complexa, sendo tambm
amplamente conhecida e bem avaliada na literatura.
5.2 Extrao de Caractersticas
Utilizando amostras contidas na base de dados MNIST de dgitos manuscritos, so
extrados um conjunto de caractersticas representativas de cada amostra. Cada conjunto
formado por 20 valores relativos aos Descritores de Fourier e 8 valores obtidos pela Tcnica
de transio de borda. Estas caractersticas foram escolhidas entre algumas levantadas em
uma busca na literatura, conforme pode ser visto na Tabela 3 Cronograma de Atividades.
5.3 Normalizao e Seleo das Caractersticas
Para selecionar um conjunto de caractersticas timo para o processo de
reconhecimento utilizaremos Fisher's Discriminant Ratio (FDR) associado seleo escalar
de caractersticas, conforme explanado na seo Seleo de Caractersticas. Para a seleo da
primeira caracterstica calcula-se o valor FDR para todas as caractersticas. Aquela com maior
valor FDR selecionada. Em seguida, selecionam-se as demais caractersticas que melhor
complementam a primeira. Para o processo de seleo das caractersticas seguintes, utiliza-se
o conceito de seleo escalar de caractersticas apresentado anteriormente. Para este trabalho,
com o propsito de obter o melhor conjunto de caractersticas que servir de entrada rede
neural, sero testados conjuntos com nmeros de caractersticas diferentes. Pensa-se
inicialmente utilizar conjuntos com um nmero de caractersticas variando entre 12 e 18.

5.4 Reconhecimento dos dgitos atravs de uma rede neural de mltiplas camadas
Nessa etapa ser utilizada uma rede neural de trs camadas de propagao direta,
treinada com o algoritmo de retropropagao, para o reconhecimento dos dgitos. Vrias
36

arquiteturas de rede sero testadas e ser escolhida aquela que apresentar um melhor
desempenho.
O conjunto de treinamento da rede ser constitudo por 60000 amostras extradas
aleatoriamente da base de treinamento MNIST, um total 6000 amostras por classe. O conjunto
de teste da rede ser constitudo por 10000 padres de teste provenientes da base de teste
MNIST, sendo 1000 amostras por classe. Para cada amostra utilizada em ambos contextos de
treinamento e teste, ser feita a extrao das caractersticas definidas na seo 5.2, as quais
servem de entrada para o classificador neural escolhido.
Testes iniciais j realizados mostram que a aplicao dessa rede no suficiente para
uma perfeita distino entre os dgitos. Existem pares de dgito como 5 e 6, 2 e 9 e outros,
que, em muitos casos, so confundidos uns com os outros. Assim sendo, na prxima seo
mostramos como ser montada uma matriz de confuso, em funo dos resultados dessa rede.
5.5 Preenchimento da matriz de confuso
A matriz de confuso montada segundo mostrado na Figura 5. As clulas dessa
matriz so preenchidas utilizando o conjunto de teste da rede neural descrito na seo anterior.
Assim, aps a aplicao da rede neural anteriormente treinada no conjunto de teste, ser
determinado, por exemplo, quantas vezes o dgito 5 foi reconhecido pela rede como ele
prprio ou como cada um dos outros dgitos (0, 1,2,3,4,6,7,8,9). O valor correspondente ao
nmero de vezes que ele foi reconhecido como ele prprio ser utilizado para preencher a
clula mostrada na Figura 4 correspondente a interseo da linha 5 com a coluna 5. O valor
correspondente ao nmero de vezes que ele foi reconhecido como o dgito 1 ser utilizado
para preencher a clula mostrada na Figura 5 correspondente a interseo da linha 5 com a
coluna 1. E assim sucessivamente.
Determinada essa matriz de confuso, sero analisadas as clulas com maiores valores.
As linhas e colunas das clulas que correspondem a esses maiores valores correspondem aos
37

pares de dgitos que a rede neural mais se confundiu no reconhecimento. No sentido de obter
um melhor reconhecimento desses pares de dgitos, sero treinadas vrias redes neurais
especficas, tantas quanto forem os pares de dgitos com valores altos de confuso, utilizando
conjuntos de treinamentos distintos, um para cada rede. Esses conjuntos de treinamento sero
constitudos por pares de dgitos. Assim, conforme j exemplificado, se a rede neural se
confundir muito no reconhecimento dos dgitos 5 e 6, o que ser mostrado pela matriz de
confuso, uma rede neural especfica ser treinada com um conjunto de treinamento
constitudo de dgitos manuscritos 5 e 6, e assim sucessivamente.

Dgito 1 2 3 4 5 6 7 8 9 0
1
2
3
4
5
6
7
8
9
0

Figura 5 Matriz de confuso

5.6 Aplicao de redes neurais especficas para distino de pares dgitos
Assim como a rede apresentada na seo 5.4, as redes a serem utilizadas nessa etapa
so tambm redes de 3 camadas, de propagao direta, treinadas com o algoritmo de
retropropagao. O nmero de redes a serem utilizadas nessa etapa depende do nmero de
pares de dgitos com altos valores na matriz de confuso. Espera-se que a utilizao dessas
redes especficas possa aumentar de forma significativa o desempenho do sistema de
reconhecimento de dgitos proposto.

38

6 CRONOGRAMA
Tabela 3 Cronograma de Atividades

Perodo

Atividade
2012 2013
J
A
N
F
E
V
M
A
R
A
B
R
M
A
I
J
U
N
J
U
L
A
G
O
S
E
T
O
U
T
N
O
V
D
E
Z
J
A
N
F
E
V
M
A
R
A
B
R
M
A
I
J
U
N
J
U
L
Busca por base
de dados

X
x

Reviso
bibliogrfica
x x x x x
Estudo Terico

x x X x X
Extrao de
Caractersticas

x x x
Experimentos
preliminares

x x x x
Seleo das
Caractersticas
utilizando
FDR

x x x
Redao da
Qualificao

x x x x
Exame de
Qualificao

x
Experimentos
com
abordagem
Clssica

x
Experimentos
com
abordagem
Clssica

x x
Experimentos
com
abordagem
Clssica

x x
Redigir artigos

x x
Escrita da
dissertao

x x x
Defesa da
dissertao

X
39

REFERNCIAS BIBLIOGRFICAS
Cheriet, M., Kharma, N., Liu, C.-L., & Suen, C. (2007). Character Recognition Systems.
Hoboken, New Jersey: Wiley.
Chung, Y. Y., & Wong, M. T. (1997). Handwritten character recognition by Fourier
descriptors and neural network. TENCON '97. IEEE Region 10 Annual Conference. Speech
and Image Technologies for Computing and Telecommunications., Proceedings of IEEE, 1,
pp. 391 - 394.
Ciresan, D. C., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2011). Convolutional
Neural Network Committees for Handwritten Character Classification. Document Analysis
and Recognition (ICDAR), 2011 International Conference on, (pp. 1135 -1139).
Gonzalez, R. C., & Woods, R. E. (2008). Digital Image Processing (Third Edition ed.).
Pearson Prentice Hall.
Gonzalez, R. C., Woods, R. E., & Eddins, S. L. (2009). Digital Image Processing Using
Matlab (Vol. 2). Gatesmark Publishing.
Hagan, M. T., Demuth, H. B., & Beale, M. H. (1995). Neural Network Design. PWS Pub.
Hrycej, T. (1992). Modular Learning in Neural Networks: A Modularized Approach to
Neural Network Classification. New York, NY, USA: John Wiley & Sons, Inc.
Jordan, M. I., & Jacobs, R. A. (1991). A competitive modular connectionist architecture.
Advances in Neural Information Processing Systems. 3, pp. 767 - 773. San Maeto, CA:
Morgan Kaufmann Publisher Inc.
Kapp, M. N., Freitas, C. O., Nievola, J. C., & Sabourin, R. Evaluating the conventional and
class-modular architectures feedforward neural network for handwritten word recognition.
Computer Graphics and Image Processing, 2003. SIBGRAPI 2003. XVI Brazilian Symposium
on, (pp. 315 - 319).
Lathi, B. P. (2007). Sinais e Sistemas Lineares (2 ed.). Porto Alegre: Bookman.
Mantas, J. (1986). An overview of character recognition methodologies. Pattern Recognition ,
19 (6), 425 - 430.
Masmoudi, M., Samet, M., Taktak, F., & Alimi, A. M. (2000). A hardware implementation of
neural network for the recognition of printed numerals. Microelectronics, 1999. ICM '99. The
Eleventh International Conference on, (pp. 113 - 116).
MATLAB Image Processing Toolbox User Guide
MATLAB Neural Network Toolbox User Guide.
Morns, I. P., & Dlay, , S. S. (1996). The dynamic supervised forward-propagation neural
network for handwritten character recognition using Fourier descriptors and incremental
40

training. Electronics, Circuits, and Systems, 1996. ICECS '96., Proceedings of the Third IEEE
International Conference on, 2, pp. 1123 - 1126.
Oh, I.-S., & Suen, C. Y. (2002). A class-modular feedforward neural network for handwriting
recognition. Pattern Recognition , 35 (1), 229 - 244.
Poon, J. C., & Man, G. M. (1992). An enhanced approach to character recognition by Fourier
descriptor. Singapore ICCS/ISITA '92. 'Communications on the Move', 2, pp. 558 - 562 .
Cingapura.
Theodoridis, K. (2007). Pattern Recognition. John Wiley & Sons, Inc.
Theodoridis, S., & Koutroumbas, K. (2009). Pattern Recognition (4 ed.). San Diego,
California: Elsevier.
Travieso, C. M., Alonso, J., & Ferrer, M. A. (2011). Combining different off-line handwritten
character recognizers. INES 2011, 15th International Conference on Intelligent Engineering
Systems. Propad, Slovakia.

Qualification

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Qualification

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDADE FEDERAL DO AMAZONAS

a mdia das amostras da classe i

a sada desejada para o i-simo padro

o valor produzido pela rede como sada para o i-simo

sada que foi produzida pela rede, a

o valor de entrada do nodo j.

Vous aimerez peut-être aussi