Vous êtes sur la page 1sur 48

Captulo 6

Reconhecimento Sinttico e Estrutural de Padres

Jos Luiz de Souza Pio, Camillo Jorge Santos de Oliveira,


Arnaldo Albuquerque de Arajo e Newton Jos de Oliveira

Abstract
The Syntactic Pattern Recognition approach emphasizes the descrip-
tion of significative structural regularities, or patterns, in noised and complex
media. It is a consistent mathematical approach based on formal languages
and automata theory. Its importance is due to a lot of pattern ocurrencies in our
daily human life, becoming a principal component in intelligent systems. This
work introduces the main concepts in languages theory and graphs, aiming
the syntactic pattern recognition applications in machine vision, information
retrieval and bioinformatics.

Resumo
O Reconhecimento Sinttico de Padres enfatiza a descrio estrutu-
ral de padres. Trata-se de uma abordagem matematicamente consistente por
causa da disponibilidade da teoria das linguagens formais e dos autmatos
como fundamentao. Sua importncia atual deve-se s muitas ocorrncias na
vida humana que tomam forma de padres, tornando-se, assim, um importan-
te componente em sistemas inteligentes. Este trabalho introduz os principais
conceitos inerentes teoria das linguagens e grafos no contexto do reconhe-
cimento sinttico de padres e descreve o estado da arte por meio de um
conjunto de aplicaes em viso de mquina, recuperao da informao e
bioinformtica.

6.1. Introduo
Padres, em termos gerais, podem ser compreendidos como os meios
pelos quais pode-se interpretar o mundo [Fu 1982]. O Reconhecimento de
Padres uma disciplina cientfica que estuda e desenvolve tcnicas com o
objetivo de descrever, classificar ou reconhecer regularidades significativas,
ou padres, em meios ruidosos e complexos [Schalkoff 1992]. A importncia
atual do reconhecimento de padres deve-se, principalmente, s muitas ocor-
rncias na vida humana que tomam forma de padres, tornando-se, assim, um

283
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

componente fundamental em sistemas inteligentes. A formao da linguagem,


o modo de assinar documentos, o desenho das figuras, o entendimento das
imagens, o sequenciamento do DNA, tudo envolve padres.
A Figura 6.1 mostra alguns exemplos de padres visuais que ocorrem
rotineiramente na vida humana. Os diferentes tipos de escrita, as notas musi-
cais, impresses digitais, pegadas de animais, esquemas de circuitos eltricos,
cdigos de barras e frmulas de cadeias de qumica orgnica representam
alguns padres que so reconhecidos e processados rotineiramente por espe-
cialistas ou por equipamentos capazes de reconhec-los.

Figura 6.1. Exemplos de diferentes tipos de padres. Pautas e


notas musicais, letras, padres caligrficos, impresses digitais,
pegadas de animais, esquemas de circuitos eltricos, cdigos
de barras e frmulas de cadeias orgnicas so alguns exemplos
de padres rotineiramente reconhecidos por equipamentos ou
pessoas especializadas.

O objetivo principal do reconhecimento de padres a classificao. O


que se procura por meio da classificao atribuir classes a objetos usando
relaes estabelecidas por meio de observaes obtidas sobre estes ltimos
[Fu 1982]. Em outras palavras, a soluo de um problema de classificao con-
siste na caracterizao das relaes existentes entre um conjunto de classes
consideradas C, um conjunto O de objetos a serem classificados e um conjunto
X. de observaes tomadas sobre os objetos A Figura 6.2 ilustra os conjuntos
e as relaes envolvidas no problema de classificao de padres.

284
Reconhecimento Sinttico e Estrutural de Padres

Figura 6.2. Os conjuntos das classes, o conjunto dos objetos,


o conjunto de medidas e suas relaes. Um problema de
reconhecimento de padres resolvido quando uma classe
associada a um objeto, tendo como base medidas tomadas sobre
este ltimo.

O conjunto de classes C um conjunto finito geralmente com um nme-


ro relativamente pequeno de elementos no qual so consideradas as classes
para o problema. Esse conjunto contm classes que agrupam objetos de um
mesmo tipo, que satisfazem determinadas propriedades e compartilham car-
actersticas em comum.
O conjunto dos objetos O contm todos os objetos a serem classifi-
cados, podendo ser um conjunto muito grande, em geral muito maior que o
conjunto de classes C, porm finito. Cada objeto possui seus atributos que os
caracterizam e os representam em relao s classes.
conjunto de observaes X um conjunto formado por valores de me-
didas obtidas sobre os objetos. Nesse conjunto, os objetos so representados
por medidas obtidas sobre seus atributos. Assim, diferentes objetos podem
possuir atributos em comum mas com medidas diferentes, assim como atribu-
tos distintos porm com mesmas medidas.
A relao M entre o conjunto dos objetos O e o das observaes X,
pode ser compreendida como uma projeo dos objetos em um determinado
espao de representao (o espao das caractersticas consideradas). Essa
projeo que viabiliza de maneira mais ou menos eficiente a distino entre
as classes a que pertencem os objetos.
Considere, por exemplo, um grupo de pessoas a partir do qual se dese-
ja classificar em duas classes: C1 pessoas altas C2 - pessoas baixas, formando
o conjunto de classes C ={ C1, C2 }. O conjunto de objetos formado por todas
as m pessoas a serem classificadas O = {p1,p2,...,pm}. O conjunto de observa-

285
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

es X = {x1, x2,...,xn} formado por todas as n medidas tomadas sobre todas


as pessoas do conjunto de objetos.
As relaes Gi (i=1,..,m) entre o conjunto formado pelos n objetos de O
e o conjunto das classes C representam o mapeamento entre as pessoas con-
sideradas altas, as consideradas baixas e suas respectivas classes C1 e C2. As
relaes Mj (j=1,..,n) representam o mapeamento entre as pessoas do conjunto
O e as medidas do conjunto X, no caso a altura, tomada sobre cada pessoa.
Se as relaes Mi fossem funes que admitissem inversa, ento a
soluo de um problema de classificao seria trivial, bastando encontrar as
funes inversas que mapeassem as medidas sobre os atributos dos objetos
e os objetos em suas respectivas classes. Porm, o problema no trivial.
Necessita-se da caracterizao das relaes entre os conjuntos de classes,
objetos e medidas. Com as relaes caracterizadas de alguma forma, procu-
ra-se estabelecer critrios que viabilizem a definio de uma classe para um
objeto a partir de um dado vetor de observaes, eventualmente atendendo a
alguma restrio ou critrio de otimizao.
Em geral, os mtodos de classificao diferem-se na forma de repre-
sentao dos objetos, na maneira de como so definidas as regies no espao
de representao e na escolha de algum critrio a ser minimizado baseado na
amostra dada.
Historicamente, o reconhecimento de padres inicialmente utilizou tc-
nicas probabilsticas e da teoria da deciso estatstica para sua fundamentao.
Teve como fundamento a teoria das probabilidades, baseando-se na aborda-
gem Bayesiana. Sob essa abordagem, um conjunto de medidas caractersticas
(ou atributos) so extradas dos padres. Cada atributo extrado passa a ser
visto como um ponto em um espao n-dimensional. A idia principal partir o
espao de caractersticas em regies que agrupem objetos de mesma classe.
A classificao a busca pela regio do espao de caractersticas mais ade-
quado para um dado padro de entrada. As tcnicas de reconhecimento de
padres podem ser aplicadas a vrios domnios do conhecimento, dentre os
quais, destacam-se:
Bioinformtica, em particular na anlise de seqncias de prote-
nas e do DNA;
Minerao de dados (data mining), - procura por padres signifi-
cativos em espaos multidimensionais;
Classificao de documentos de Internet;
Anlise de imagens de documentos para reconhecimento ptico
de caracteres (Optical Character Rocognition - OCR);
Inspeo visual em automao industrial;
Busca e classificao em base de dados multimdia;
Reconhecimento biomtrico, incluindo o reconhecimento de fa-
ces, ris ou impresses digitais;
Sensoriamento remoto e anlise de imagens multiespectrais de
satlite;

286
Reconhecimento Sinttico e Estrutural de Padres

Reconhecimento de fala;
Diagnstico mdico;
Outras aplicaes que se estendem as Cincias Sociais e Com-
portamentais.

O foco deste trabalho so os mtodos sintticos e estruturais. No m-


todo sinttico, a informao estrutural que descreve cada padro importante.
O processo de reconhecimento inclui, alm da capacidade de designar uma
classe para um padro, a capacidade de descrever os aspectos do padro de
tal maneira que ele no possa ser designado para outra classe.
Muitas vezes, as informaes significativas em um padro no consis-
tem apenas na presena ou ausncia de valores numricos de um conjunto de
caractersticas. Ao invs disto, a inter-relao ou interconexo das caracters-
ticas produz informaes estruturais importantes, que facilitam a descrio ou
classificao. Esta a base do reconhecimento sinttico padres.
A abordagem sinttica v um padro como uma composio de sub-
padres mais simples, os quais so constitudos de sub-padres ainda mais
simples. Os padres mais elementares so conhecidos como primitivas. Um
padro complexo ento expresso em termos do relacionamento entre suas
primitivas. Em outras palavras, o reconhecimento sinttico formula uma des-
crio hierrquica de padres complexos, construda a partir de sub-padres
mais simples, sendo que no nvel mais baixo se encontram os elementos mais
simples, extrados dos dados de entrada que so as primitivas.
Para a fundamentao da abordagem sinttica faz-se uma analogia en-
tre as estruturas do padro e a teoria das linguagens formais. Os padres so
vistos como sentenas pertencentes a uma linguagem, as primitivas como seu
alfabeto e as sentenas so geradas de acordo com a respectiva gramtica
da linguagem. A idia principal a de que um conjunto de padres complexos
pode ser descrito por meio de um nmero finito de primitivas e de regras gra-
maticais. Porm, muito mais alm da simples classificao de objetos pode ser
obtido por meio da abordagem sinttica. As regras formadas por uma gramti-
ca propiciam a descrio de como se estruturam os objetos e os padres em
termos de suas primitivas [Oommen e Kashyap 1998].

Figura 6.3. Diagrama de blocos de um sistema de


reconhecimento sinttico de padres tpico. O sistema dividido
em duas partes principais: o treinamento e o reconhecimento.

287
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Um sistema de reconhecimento sinttico de padres composto por


duas partes principais: treinamento e reconhecimento. A Figura 6.3 mostra os
blocos funcionais de um sistema de reconhecimento sinttico, separado em
seus componentes de treinamento e reconhecimento [Banks 1990 e Schalko-
ff 1992]. A parte inerente ao treinamento consiste na seleo de primitivas,
inferncia gramatical e construo do autmato, ou de um reconhecedor da
gramtica. A parte de reconhecimento composta por uma etapa de pr-pro-
cessamento, segmentao ou decomposio, reconhecimento de primitivas,
construo da representao do padro e a anlise sinttica do padro forne-
cido como entrada.
Existem vrias aplicaes onde os padres devem ser descritos por
meio de primitivas e suas relaes. Porm, em alguns casos, as gramticas
no so capazes de descrever padres para a descrio de classes porque
os padres sob considerao no apresentam regularidades e no podem ser
definidos por meio de regras. Nesses casos, a abordagem estrutural para o
reconhecimento de padres adotada.
Na abordagem estrutural, empregam-se estruturas de dados simbli-
cas como cadeias de caracteres, rvores e grafos para a representao de
padres individuais, de maneira semelhante a abordagem sinttica. Porm, em
vez de usar uma gramtica, as classes de padres so representadas por meio
de prottipos [Ogiela e Tadeusiewicz 2003].
Como conseqncia, o problema de reconhecimento estrutural tra-
tado como um problema de casamento de padres. Para ilustrar o casamento
de padres, considere, por exemplo, uma base de dados consistindo de ca-
deias de caracteres, cada cadeia representando uma amostra de um padro.
A classificao de um padro desconhecido determinada pelo casamento
entre o padro dado como entrada com todas os prottipos contidos na base
de dados. O objetivo final associar o padro desconhecido a uma classe do
prottipo mais similar da base de dados.
De maneira semelhante abordagem sinttica, existe na abordagem
estrutural uma relao de custo entre o poder de representatividade e a com-
plexidade computacional. A medida do grau de similaridade entre um par de
cadeias de caracteres possui complexidade quadrtica somente em relao
ao comprimento das duas cadeias tomadas em considerao. Em geral, as
cadeias so adequadas para modelar sinais e objetos unidimensionais e pos-
suem srias limitaes para descrever padres bidimensionais ou de maiores
dimenses. Por outro lado, os grafos caracterizam-se como uma ferramenta de
modelagem poderosa. Porm, as operaes sobre grafos so, em geral, com-
putacionalmente muito caras. Logo, comum a utilizao de heursticas e res-
tries que reduzem a complexidade das operaes a um tamanho tratvel.
Este captulo est organizado em sete sees, contando com esta in-
trodutria. Os conceitos tericos so abordados na Seo 6.2. A Seo 6.3
descreve a teoria inerente aos mtodos de reconhecimento sintticos e a cons-
truo de gramticas. Os mtodos de reconhecimento so detalhados na Se-

288
Reconhecimento Sinttico e Estrutural de Padres

o 6.4. O reconhecimento estrutural e a utilizao de grafos so apresentados


na Seo 6.5. Alguns exemplos de aplicao do reconhecimento sinttico de
padres e o desenvolvimento de alguns exemplos so mostrados na seo 6.6.
A Seo 6.7 trata das consideraes finais e mostra algumas tendncias de
pesquisa no reconhecimento sinttico e estrutural de padres.

6.2. Fundamentos Tericos


O reconhecimento sinttico de padres possui seus fundamentos te-
ricos baseado na teoria das linguagens formais. Uma linguagem, em termos
gerais, pode ser compreendida como uma coleo de palavras (ou cadeias de
caracteres) sobre um alfabeto. Uma linguagem formal, segundo [Vieira 2006 e
Hopcroff et al 2000], tal que:
a) tem sintaxe bem definida, de forma que, dada uma sentena,
seja sempre possvel saber se ela pertence ou no linguagem;
e
b) tem semntica precisa, de modo que no contenha ambigida-
des ou sentenas sem significado.
Toda linguagem est associada a um alfabeto. Um alfabeto um con-
junto de smbolos, finito e no vazio. Uma palavra ou uma cadeia de smbolos
ou ainda cadeia de caracteres sobre um alfabeto uma seqncia finita de
smbolos de [Vieira 2006]. A sintaxe das linguagens expressa na forma de
uma gramtica. Uma gramtica consiste de um conjunto de regra de produes
que combinadas, descrevem a gerao de diferentes seqncias de smbolos.

6.2.1 Gramticas
As gramticas so o formalismo projetado para a definio de lingua-
gens. Um formalismo que mostra como gerar as palavras de uma linguagem.
O elemento fundamental da gramtica regra. Uma regra um par ordenado
(u, v), em geral escrito da forma uv, em que u e v so palavras de dois alfa-
betos disjuntos, um com smbolos denominados de variveis, ou no terminais,
e outro com smbolos denominados de terminais. As variveis so smbolos
auxiliares para a gerao das palavras da linguagem1, enquanto o conjunto de
terminais nada mais do que o alfabeto da linguagem definida2. Formalmente,
uma gramtica definida como [Vieira 2006]:

1
Uma palavra vazia (ou sentena vazia) denotada por , tendo as seguintes proprieda-
des vlidas para qualquer palavra u: u = u = u e || = 0. Seja V um alfabeto; denota-
se por V2 =VV o conjunto de todas as palavras de comprimento 2 derivadas de V e por
V3 = VVV o conjunto de todas as palavras de comprimento 3 derivadas de V, assim
sucessivamente, definindo-se at Vn. Por fim, define-se V+ = V V2 V3 ... como
o conjunto de todas as sentenas no vazias produzidas usando V. Adicionando-se
a palavra nula a V+ produz-se V*, isto , V*={}V+. O conjunto V* denotado de
fechamento de V, assim como V+ o fechamento positivo de V.
2
Sero usadas letras maisculas para representar as variveis e minsculas para os
terminais.

289
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Definio 6.1. (Gramtica) Uma gramtica uma qudrupla ( V, , R, P),


em que:
a) V um conjunto finito de elementos denominados de variveis;
b) um alfabeto; V = ;
c) R (V )+ (V ) um conjunto finito de pares ordenados
chamados de regras; e
d) P V uma varivel conhecida como varivel de partida.

Em anlise sinttica de padres, o alfabeto conjunto de primitivas


dos padres. Em algumas aplicaes, a escolha do conjunto de primitivas
muito difcil de ser realizada, residindo ai a maior complexidade dos proble-
mas em reconhecimento sinttico [Schalkoff 1992]. O conjunto de smbolos
no terminais V, ou variveis, representa a criao ou ocorrncia de um padro
especifico consistindo exclusivamente de smbolos terminais. O conjunto de
produes R, ou regras de produo ou regras de reescrita, viabilizam a subs-
tituio e derivao de smbolos da gramtica. Esse conjunto e os smbolos
terminais que fornecem a estrutura da gramtica. Uma gramtica pode ser
empregada de dois modos:
1. Generativo. A gramtica usada para criar seqncias de sm-
bolos terminais (palavras) usando R; uma sentena na lingua-
gem da gramtica gerada.
2. Analtico. Dada uma sentena (possivelmente na linguagem da
gramtica), junto com a especificao da gramtica G, deseja-se
determinar:
i. Se a sentena foi gerada por G; e se foi,
ii. A estrutura da sentena (em geral caracterizada como a se-
qncia de produes usadas).
A linguagem gerada pela gramtica G o conjunto das formas senten-
ciais finais (contendo apenas smbolos terminais) derivveis a partir da varivel
de partida P. Estas formas sentenciais finais so chamadas sentenas da lin-
guagem gerada pela gramtica, ou de maneira mais suscinta L(G).
Com o objetivo de separar as linguagens que so de interesse ao
estudo da Teoria das Linguagens, Noam Chomsky, famoso lingista ame-
ricano que produziu trabalhos fundamentais sobre as propriedades mate-
mticas das linguagens formais, desenvolveu um modelo matemtico para
gramticas. Chomsky dividiu as linguagens classes diferentes, cada classe
associada a um tipo de mecanismo de reconhecimento e a um tipo de gra-
mtica capaz de especific-la. Nesta hierarquia, as linguagens/gramticas
classificam-se em:
- Linguagens Enumerveis Recursivamente (tambm denomina-
das de livres ou irrestritas) ou Tipo 0.
- Linguagens Sensveis ao Contexto ou Tipo 1.
- Linguagens Livres de Contexto ou Tipo 2.
- Linguagens Regulares ou Tipo 3.

290
Reconhecimento Sinttico e Estrutural de Padres

Os tipos de gramticas e linguagens sero melhor definidas em segui-


da. As gramticas so classificadas de acordo com as restries sobre o con-
junto de regras ou de produo R. Nas definies apresentadas em seguida,
sero exploradas regras de produo da forma3,

1 2, 6.1
significando que a palavra 1 substituda pela palavra 2. Em geral, 1 e 2
podem conter smbolos terminais e no terminais. Os quatro tipos de gramti-
cas definidas por Chomsky, so [Hopcroff et al 2000]:
Definio 6.2 (Tipo 0 Gramtica Livre ou Irrestrita - GL) Geram as lingua-
gens livre de contexto ou irrestritas. A gramtica totalmente livre. No h
qualquer restrio ao formato das regras gramaticais. O mecanismo de aceita-
o utilizado para essa classe denominado mquina de Turing4
Um aspecto interessante da GL sua possibilidade de apagar pro-
dues, j que restries do tipo |1| |2| no existem. Essa caracterstica
importante para o reconhecimento sinttico de padres quando se considera
gramticas que geram variaes em padres e remoo de sub-padres.
Definio 6.3 (Tipo 1 Gramticas Sensveis ao Contexto GSC) - Formal-
mente, as restries impostas sobre as regras das GSC, so

2 , 6.2
e

|1| |2|. 6.3


Tipicamente, uma GSC restringe as regras de produo forma

i i, 6.4
significando que i substitui i no contexto de e , onde , (V ) , i *

V e i (V )*-{}.
A Equao 6.3 requer que |i| |i|. Com os reconhecedores das
linguagens geradas pelas gramticas do tipo 1, utiliza-se tambm a mquina
de Turing, porm com memria limitada.
Definio 6.4 (Tipo 2 Gramticas Livres de Contexto GLC) So gramti-
cas que possuem restries nas produes na forma

3
Regras de produo ou de re-escrita so descritas por meio de setas , significando
a substituio do termo da esquerda pelo termo da direita. O uso de uma regra de pro-
duo para gerar uma nova palavra xn a partir da palavra x chamado de derivao,
sendo empregado o smbolo para escrev-la. Em outras palavras, A c denota
a regra de produo, enquanto x xn denota o uso da produo para converter a
palavra x na palavra xn.
4
Uma mquina de Turing um modelo abstrato de computao que se restringe apenas
aos aspectos lgicos do funcionamento de um computador convencional (memria,
estados e transies) e no sua implementao fsica.

291
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

1 2 com 1 = S1 V, 6.5
significando que 1 um smbolo no-terminal para toda regra de pro-
duo em R e |S1| |2|. As gramticas do tipo 2 tambm so caracterizadas
por regras do tipo

S1 2, 6.6
onde 2 (V )*-{}.

Nota-se que as Equaes 6.1, 6.5 e 6.6 restringem as regras de produ-


o substituio de S1 pela palavra 2 independente do contexto no qual S1
ocorre. As GLC podem gerar palavras de terminais ou no-terminais ou ambos
em uma nica produo. Assim, como produes do tipo A A so poss-
veis, as GLC so chamadas de gramticas auto-contidas.
As restries impostas s GLC englobam um conjunto de linguagens
extremamente importante para o reconhecimento sinttico de padres. As
linguagens do tipo 2 so teis para descrever expresses aritmticas, com
aninhamento ou balanceamento de parnteses e estruturas de blocos. Essas
caractersticas credenciam as linguagens Livres de Contexto a descrever a
maioria das linguagens de programao, por exemplo.
Definio 6.5 (Tipo 3 Gramticas Regulares GR) As restries
impostas as regras de produo de uma GR so as mesmas impostas a uma
GLC acrescida de mais uma restrio que impe a existncia de no mximo
um nico smbolo no terminal ao lado da regra de produo, ou seja,

1 = S1 , 6.7
|S1| |2|, 6.8
com as regras de produo restritas a

X1 a, 6.9
ou

X1 aX2, 6.10
onde X1, X2 V e a - {}.

fcil perceber que uma GR uma GLC especial em que toda forma
sentencial contm uma nica varivel, que sempre o smbolo mais direita.
Para qualquer gramtica regular pode-se construir um autmato finito que re-
conhece a linguagem gerada pela GR.
Em sntese, as linguagens dos tipos 0 e 1 so reconhecidas por mqui-
nas de Turing. As linguagens do Tipo 2 por autmatos de Pilha. As linguagens
do Tipo 3 por Autmatos Finitos. As linguagens do tipo 3 so tambm de tipos
2, 1 ou 0. As linguagens do tipo 2 so tambm dos tipos 1 e 0. As linguagens

292
Reconhecimento Sinttico e Estrutural de Padres

do tipo 1 so tambm do tipo 0. Esta hierarquia pode ser representada pelo


diagrama mostrado na Figura 6.4.
Se existir uma gramtica que pode ser usada para representar todos
os padres dentro de uma classe, ento o prximo passo projetar um classi-
ficador sinttico que ir associar o padro a uma determinada classe.

Figura 6.4. Relaes entre os tipos de gramticas e linguagens


geradas. Os crculos representam a hierarquia de Chomsky. As
setas indicam a representao da capacidade de representao e
dificuldade de reconhecimento das gramticas.

6.2.2. Grafos
Os grafos so estruturas relacionais empregadas para o reconhecimento es-
trutural de padres. O reconhecimento e a anlise do padro executado por
meio de um processo de casamento entre a estrutura relacional que repre-
senta um determinado objeto e com uma outra estrutura relacional que serve
como exemplo.
Um grafo G(V,E) definido pelo par de conjuntos V e E, onde V um
conjunto no vazio dos vrtices ou ns do grafo e E o conjunto de pares
ordenados e(v,w), onde v e w so as arestas do grafo. Existem dois tipos de
grafos: os dirigidos e os no dirigidos [Vieira 2006]. Nos grafos dirigidos, as
arestas (dirigidas) so pares orientados de vrtices e, nos grafos no dirigidos,
as arestas (no dirigidas) so pares no orientados de vrtices. A Figura 6.5
mostra exemplos de grafos no dirigido e dirigido.

293
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Figura 6.5. O grafo G1 um grafo no dirigido. O grafo G2 um


grafo dirigido, repare na orientao de suas arestas (arcos).

O problema de isomorfismo de grafos (ou casamento de grafos) mui-


to importante para o reconhecimento sinttico e estrutural de padres, sendo
assim definido:
Definio 6.6 (Isomorfismo de grafos) - Sejam dois grafos G1(V1,E1) e G2(V2,E2).
Um isomorfismo de G1 sobre G2 um mapeamento bijetivo
f: V1 V2 tal que {x,y} E1 se e somente se {f(x),f(y)} E2, para todo x,y V1.

Os grafos da Figura 6.6 so isomorfos pois h a funo { (a2), (b1), (c3),


(d4), (e6), (f5) } que satisfaz a condio descrita acima.

Figura 6.6. Grafos isomorfos. Os vrtices do grafo da esquerda


mantm um isomorfismo com os vrtices do grafo da direita.

A seguir so apresentadas algumas definies de maneira menos for-


mal, mas no menos importante. A ordem de um grafo G dada pela cardinali-
dade do conjunto de vrtices, ou seja, pelo nmero de elementos de V. Em um

294
Reconhecimento Sinttico e Estrutural de Padres

grafo no orientado dois vrtices a e b so adjacentesse h uma aresta e = (a,


b) em E. Caso o grafo seja dirigido, um vrtice b sucessor de a se existe um
arco que parte de a e chega em b. Um vrtice a antecessor de b se existe um
arco que parte de a e chega em b. O grau de um vrtice dado pelo nmero
de arestas que lhe so incidentes. Um grafo dito ser regular quando todos os
seus vrtices tm o mesmo grau. Um grafo dito ser completo quando h uma
aresta entre cada par de seus vrtices. Um grafo dito ser bipartido quando
seu conjunto de vrtices Vpode ser particionado em dois subconjuntos V1 e
V2, tais que toda aresta de G une um vrtice de V1 a outro de V2. Um grafo
G2(V2,E2) um subgrafo de um grafo G1(V1,E1) se V2 V1 e E2 E1. Os enun-
ciados seguintes so facilmente verificados:
1. Todo grafo subgrafo dele mesmo.
2. O subgrafo de um subgrafo de G um subgrafo de G.
3. Um vrtice de G um subgrafo de G.
4. Um aresta de G com os dois vrtices que ele liga um subgrafo de G.
5. Um clique um subgrafo que completo, melhor caracterizado por
meio da definio dada em seguida.
Definio 6.7 (Clique) Um clique em um grafo no-dirigido um conjunto de
vrtice dois a dois adjacentes. Em outras palavras, um conjunto V de vrtices
um clique se tiver a seguinte propriedade:
Para todo par u,v de vrtices distintos de V, existe uma aresta um aresta
com pontas u e v.
Um tipo de grafo importante em reconhecimento sinttico de padres
a rvore. Uma rvore pode ser definida como um grafo acclico e conexo. Em
uma rvore existe um vrtice especial denominado de raiz. Uma rvore pode
ser assim definida:
Definio 6.8 (rvore) Supondo-se que os vrtices sejam tomados em um
universo U, uma rvore definida recursivamente coma a tripla (V, A, r) tal que:
a) ({v}, , v) uma rvore para qualquer v U;
b) se (V, A, r) uma rvore, v V e v U V , ento (V {v}, A {{v,
v}}, r) uma rvore.
Os conceitos de linguagens, gramticas, grafos e rvores que foram
aqui desenvolvidos, sero empregados nas prximas sees de forma mais
aplicada ao reconhecimento sinttico de padres.

6.3. Reconhecimento de Padres por meio de Gramticas


Em reconhecimento de padres, o conceito de classe definido pelos
seus limites. Para toda classe existe uma definio clara de quais atributos e
valores de atributos de uma instncia podem ou no podem pertencer classe.
A pertinncia a uma classe dada por meio da satisfao do conjunto desses
limites.
Por outro lado, a abordagem sinttica tambm utiliza prottipos do pa-
dro, definidos dentro de uma categoria. Uma categoria um conjunto definido
por meio de um prottipo que se encontra no centro do espao de instncia

295
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

que ela define. Para toda categoria h um prottipo que representa os valores
tpicos de uma instncia desta. A pertinncia a uma categoria dada por meio
de similaridade com o prottipo. Padres, prottipos e primitivas sero consi-
derados em maiores detalhes nas sees seguintes.

6.3.1 Padres, Prottipos e Primitivas


Na abordagem estatstica de reconhecimento de padres, um padro
de entrada x transformado em termos de rotao e escala em um padro
normalizado . Na abordagem de reconhecimento sinttica, x (ou ) so trans-
formados em um conjunto de primitivas, ou seja
x (padro x normalizado em ),
x a1a2 ...am (padro x decomposto em primitivas),
x b1b2 ...bm,
onde a1a2 ...am e b1b2 ...bm so primitivas expressas por meio de uma cadeia
de smbolos que representam o padro x (ou o padro normalizado ). Para o
reconhecimento sinttico de padres so considerados dois tipos de padres:
padres com prottipos e
padres sem prottipos,
que sero analisados em seguida.

6.3.2 Padres com Prottipos


Um prottipo p k de uma categoria C possui vrios outros prottipos
k
deformados da mesma categoria. Por exemplo, considere o prottipo a letra
a grafada com o tipo times new roman. Os sub-prottipos de a podem ser
a, a, a, a, a, a, a. A Figura 6.7 mostra um exemplo de uma categoria das letras
a minsculas. O centro dessa categoria a letra a com fonte do tipo times
new roman. Seus sub-padres so formados por letras a de fontes diferentes e
por sua variaes ou deformaes, como o itlico e negrito, sobre a fonte times
new roman original.

Figura 6.7. Categoria da letra a minscula com fonte times new


roman. O prottipo central da categoria o mais representativo,
os outros padres so sub-prottipos formados por distores e
variaes do prottipo da categoria.

296
Reconhecimento Sinttico e Estrutural de Padres

Assim, seja

S( p k )={ p k1 , p k 2 , p k 3 ,...}, 6.11


o conjunto de prottipos de uma determinada categoria Ck. O esforo na ob-
teno de um conjunto de prottipos S( p k ) representativo o que torna o
reconhecimento sinttico de padres uma tarefa muito difcil. Determinar, preci-
samente, se p k S ( p k ) uma tarefa muito difcil, uma vez que de conhecer
todo S( p k ) pode ser impossvel [Jurek 2000].
A Figura 6.8 mostra diferentes prottipos para silhuetas de peixes.
Encontrar todas as silhuetas para todas as espcies de peixes existentes
invivel. Estima-se que s no rio Amazonas existem 2 mil espcies de peixe.
Seria impossvel encontrar todos os prottipos de silhuetas para todas as es-
pcies de peixe do rio Amazonas.

Figura 6.8. Silhuetas de diferentes espcies de peixe e suas


deformaes representando os prottipos das espcies.

297
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Uma alternativa montar um subconjunto de prottipos mais represen-


tativos dos padres das classes. Assim, seja

S ( p k ) = { p k1 , p k 2 , , p km }, 6.12
o conjunto de sub-prottipos de uma determinada categoria Ck, onde o nme-
k ), pode ser escrito
ro m de prottipos finito. O conjunto de prottipos S( p
como

m
6.13
S ( p k ) = S ( p ki ).
i =1

A Figura 6.9 ilustra os subconjuntos de categorias e seus respectivos protti-


pos. fcil perceber pela figura que S ( p ) S ( p
).
k k

Figura 6.9. A figura da esquerda mostra um prottipo p k de uma


categoria Ck e o conjunto de padres S( p k ). Na figura central
mostram-se os subconjuntos de prottipos S ( p ki ) , i=1,...,m. O
conjunto de sub-prottipos S ( p
k ) visto na figura da direita
[Tanaka 1999].

Como muito difcil, ou at mesmo impossvel a obteno do conjunto


prottipos S( p k ), pode-se concluir que tambm muito difcil, ou at mesmo
impossvel, encontrar uma gramtica Gk cuja a linguagem gerada L(Gk) seja tal
que L(Gk) = S( p k ). Porm, por meio da aproximao de um nmero finito de

sub-prottipos representativos do padro, pode-se determinar uma gramtica
Gk tal que L( ) = S ( p ) . Se a linguagem gerada por meio de uma gram-
Gk k
tica L(G) for infinita, a linguagem incluir palavras de tamanho infinito, que no
existem no mundo do reconhecimento de padres ou no universo de aplicao
dos mtodos de classificao. Estes fatos indicam a necessidade em reconhe-
cimento sinttico do conjunto de sub-padres ser finito.

298
Reconhecimento Sinttico e Estrutural de Padres

6.3.2 Padres sem Prottipos


Existem alguns padres que no possuem prottipos como ondas, cur-
vas, retngulos, entre outros. Esses padres podem ser expressos por meio de
uma gramtica usando um conjunto de primitivas. Considere, por exemplo, o
conjunto de primitivas a e b mostradas na Figura 6.10, o conjunto de todos os
retngulos gerados por meio dessas primitivas pode ser escrito como

{ambnambn | m,n 1} 6.14


e sua gramtica dada por meio de G={V, , R, P}, onde
V = {S, H, V, A, B},
= {a, b},
e
R = {P aH, P VH, V aVA, HBHb, AB BA, aV aa, Hb ab, bB
bb, Aa aa}.

As derivaes de abnabn e ambnambn (m 2) so as seguintes:
P aH aBnHbn abnab n (n1),
P VH am-1Vam-1BnHbn amAm-1BnHbn amBnAm-1Hbn
ambnAm-1abn ambnambn (m 1).
Como pode ser observado, L(G) pode ser um conjunto infinito, se G
uma gramtica para um conjunto de padres sem prottipos. Encontrar gram-
ticas para formas simples uma tarefa relativamente fcil. Porm, no uma
tarefa trivial encontrar uma gramtica para formas mais complexas.

Figura 6.10. Primitivas para a construo de um retngulo.

A definio e a descrio de primitivas no um procedimento algort-


mico. O projeto de primitivas baseado fortemente na anlise do problema e
no conhecimento e experincia do projetista. Porm, [Sonka et al. 1992] desta-
ca alguns princpios que devem ser seguidos:
1. O nmero de primitivas deve ser pequeno;
2. A escolha de primitivas deve seguir uma representao apro-
priada do objeto;

299
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

3. As primitivas devem ser facilmente segmentadas; e


4. As primitivas devem corresponder a elementos naturais signifi-
cativos da estrutura do objeto.
Se for feita a descrio de desenho tcnico, por exemplo, ento o
conjunto de primitivas deve ser formado por segmentos de retas e curvas e
relaes binrias que descrevam relaes tais como: adjacente, estar es-
querda, estar direita, estar acima.
As gramticas podem ser utilizadas de maneira bem conveniente para
descrever padres compostos por meio de primitivas grficas. A Linguagem de
Descrio de Figuras (LDF) [Banks 1990] um exemplo de linguagem definida
em termos de primitivas. Cada primitiva possui somente dois pontos (cabea
e cauda) que podem ser agrupadas e formar outras primitivas. Cada primitiva
ento representada por um vetor composto por uma cabea e uma cauda.
As primitivas podem ser conectadas em uma das quatro formas mostradas na
Figura 6.11.

Figura 6.11. Primitiva de um objeto pictrico e a ligao entre


primitivas em uma linguagem de definio de figuras (LDF).
As primitivas so identificadas por uma seta, definida por uma
cauda (t) e uma cabea (h).

Assim, se b uma primitiva, ento ~b o reverso de b, representado


por uma seta com o sentido contrrio ao de b. Existe tambm a primitiva nula
, uma seta com comprimento zero, com a cauda idntica cabea. Uma gra-
mtica que gera sentenas LDF uma gramtica livre de contexto GLC, G

300
Reconhecimento Sinttico e Estrutural de Padres

= (V,,R,P), onde V contm os objetos que a serem formados a partir das


primitivas do padro, contm todas as primitivas, que dependem das particu-
laridades do problema, e por smbolos (, ), +, , -, *, ~.
Por exemplo, supondo-se que se deseja identificar a letra A e o objeto
envelope representados na Figura 6.12. Uma gramtica para o reconhecimen-
to dada por
GLDF = (V,,R,P),
onde
V = {P, A, Envelope, Tringulo},
= {a, b, c, d, (, ), +, -,*, ~},
R = { P A,
P Envelope,
A (b + (Tringulo + c)),
Envelope ((((c + c) + (~d)) * (d + (a (b + b)))) * Tringulo),
Tringulo ((b + c) * a) }.
Ento,
L(G) = {b + ((b + c) * a) + c)), ((((c + c) + (~d)) * (d + (a (b + b)))) * ((b +
c) * a))}

Figura 6.12. Reconhecimento da letra A e do objeto Envelope


por meio de uma linguagem de descrio de figuras (LDF). As
primitivas so representadas por setas que so associadas a um
smbolo da gramtica.

301
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

6.4. Os Mtodos de Reconhecimento de Padres


Neste texto, o termo reconhecimento sinttico e estrutural de padres
significa o processo de se aceitar ou rejeitar padres para uma determinada
classe ou categoria por meio de uma anlise sinttica do padro ou por meio
de um processo de similaridade entre padres e prottipos. Por simplicidade,
assume-se que L(Gi) L(Gj) = para qualquer i e j (i j) . Emprega-se a
notao D(px, p k ) como uma mtrica de distncia (ou de similaridade) entre
p )) e D(p ,
os prottipos pk e k . Define-se, ainda, as distncias D(px, L( G

S ( p k ) ) , dadas por meio de
k x

D(px, L( G k )) = min{ D(px, p ki ) | p ki L( G k )}, 6.15

D(px, , S ( p k ) ) = min{ D(px, p ki ) | i =1,2,...,m}. 6.16


Os mtodos usuais de reconhecimento sinttico de padres esto es-
quematicamente representados na Figura 6.13. O primeiro mtodo (Mpar)
denominado de reconhecimento por anlise sinttica. A idia fundamental
verificar se um padro px pertence ou no a uma linguagem L(Gk) gerada por
uma gramtica Gk usando um analisador sinttico (ou parser). Se o prottipo
px L(Gi), o padro x associado categoria Ci (Figura 6.13 ( a )).

Figura 6.13. Mtodos de reconhecimento sinttico. (a)


Mpar. (b) Macp. (c) Mpro.
), D(p ,
O segundo mtodo (Macp), calcula a distncia de px para L( G k
)) ,
L( G
x

k
k = 1,2,...,m, usando um analisador sinttico com correo de erro [Amengual
e Vidal, 1998]. Se D(px, L( G )) o menor valor da distncia dentre todas D(p ,
)) calculadas, ento x i associado a categoria C . Se existirem pelo me-x
L( G k i
nos dois valores menores, tais que D(px, L( G )) = D(p x
)) (i j), ento
, L( G
i j
x rejeitado (Figura 6.13 ( b )).

302
Reconhecimento Sinttico e Estrutural de Padres

O mtodo Mpar baseado na gramtica G, que difcil de ser determi-


nada. Por outro lado, Macp baseado na gramtica G , que mais fcil de ser
determinada. Isso indica que Macp mais natural e mais prtico do que o Mpar.
Um terceiro mtodo (Mest), no mostrado nos diagramas da Figura 6.13, atribui
a cada regra de produo uma probabilidade, sendo denominado de mtodo
estocstico e ser apresentado um pouco mais frente no texto. Um proce-
dimento geral para a construo de um mtodo de reconhecimento sinttico
descrito pelo Algoritmo 6.1 mostrado em seguida.

Algoritmo 6.1. Reconhecimento sinttico.

1. Aprendizado: Baseado na anlise do problema, defina as primiti-


vas e suas possveis relaes.
2. Construa uma gramtica descritiva para cada classe (ou catego-
ria) de objetos usando os resultados da anlise sinttica ou um pro-
cesso automtico de inferncia gramatical.
3. Reconhecimento: Para cada objeto, extraia suas primitivas, reco-
nhea a classe (ou a categoria) das primitivas e descreva as relaes
entre elas. Construa a palavra de descrio que representa o objeto.
4. Baseado nos resultados da anlise sinttica da palavra de descri-
o do objeto, classifique o objeto em uma classe para qual a gram-
tica da classe (construda no passo 2) gere a palavra de descrio.

A principal caracterstica do reconhecimento sinttico o processo de


aprendizado. A construo da gramtica pode ser automtica, mas exigir, de
qualquer maneira, grande interao humana. Imagina-se, em geral, que quanto
mais complexas as primitivas sejam, mais simples ser a gramtica e mais
simples e rpida ser a anlise sinttica. Por outro lado, a descrio detalhada
das primitivas torna o passo 3 do Algoritmo 6.1 mais complexo e mais demora-
do, assim como a extrao das primitivas e a avaliao das relaes no sero
tarefas simples.
O mtodo de casamento de prottipos (Mpro) usado sob o contexto
estrutural. Um padro de entrada identificado por meio da menor distncia
(ou medida de similaridade) entre o padro de entrada e os prottipos de uma
categoria. Esse mtodo, em sntese, calcula as distncias D(px, S ( p k ) ), k =
1,2,...,m. Se D(px, S ( p i ) ) a menor distncia entre todas as D(px, , S ( p k ) ),
ento x associado categoria C. Se existirem pelo menos dois valores tais
que D(px, , S ( p
i ) ) = D(px, S ( p j ) ), ento x rejeitado. Os mtodos de reco-
nhecimento sinttico sero mostrados em detalhes nas sees seguintes.

6.4.1. Reconhecimento por Anlise Sinttica


A deciso se uma palavra pode ser gerada por uma determinada gram-
tica realizado por meio do processo denominado de anlise sinttica. Por meio
da anlise sinttica tambm possvel construir uma rvore de descrio do

303
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

padro, uma forma de representao da informao estrutural sobre o padro.


O princpio do reconhecimento simples: se a linguagem finita, en-
to o analisador procura por uma correspondncia entre a palavra analisada
e todas as outras palavras da linguagem (o Mpar descrito na seo anterior).
Outra abordagem consiste na comparao entre o padro e os prottipos re-
presentativos da classe ou da categoria (Mpro). Esta ltima abordagem mais
simples de ser implementada e mais rpida, porm pode produzir resultados
no confiveis devido a pouca informao sinttica contida no conjunto de pro-
ttipos escolhidos.
O analisador sinttico baseado na construo de um padro de teste
por meio da aplicao de uma seqncia apropriada de regras de substituies
a partir de um smbolo inicial. Se o processo de substituies bem sucedido,
ento o processo pra e o padro de teste pode ser gerado pela gramtica. O
padro ento classificado como pertencente classe ou categoria para qual
a gramtica foi implementada. Se o processo de substituies no tem sucesso,
ento o padro no classificado como pertencente classe da gramtica.
Se a classe da gramtica for regular (GR, tipo 3), a anlise sinttica
muito simples. A gramtica pode ser substituda por um autmato finito no-
determinstico, sendo muito fcil decidir se a palavra aceita ou no pelo au-
tmato. Se a gramtica for livre de contexto (GLC, tipo 2) a anlise sinttica
um pouco mais difcil, porm, um autmato com pilha pode ser desenvolvido
como reconhecedor.
O mtodo de construo do padro no tem importncia significativa.
Como mostrado anteriormente, a descrio das primitivas no necessaria-
mente um procedimento algortmico, estando muito mais prximo da experin-
cia e conhecimento do analista. O processo de transformao pode ser execu-
tado de duas maneiras: top-down (descendente) ou bottom-up (ascendente).
A anlise sinttica top-down parte do smbolo inicial e, por substituies
sucessivas, procura alcanar a palavra que se quer analisar. Ou seja, o objetivo
do analisador sinttico e produzir a seqncia de smbolos terminais que lhe foi
apresentada como entrada a partir do smbolo inicial da gramtica. Do ponto de
vista da construo de uma rvore sinttica, o processo inicia-se a partir da raiz
para alcanar as folhas. O objetivo gerar o mesmo padro (palavra) fornecida
como entrada. Toda substituio parcial cria um conjunto de sub-objetivos, como
se novos galhos fossem criados na rvore. Cada aresta da rvore corresponde
a um regra de produo e cada n mostra a palavra obtida a partir da execuo
da regra, at aquele ponto. Uma rvore sinttica mostrada na Figura 6.14.

304
Reconhecimento Sinttico e Estrutural de Padres

Figura 6.14. Uma rvore sinttica parcial. Cada aresta uma


regra e cada n a palavra obtida a partir da execuo da regra.

O esforo computacional sempre dirigido para o corrente sub-objetivo.


Uma escolha incorreta de uma regra de substituio invoca um procedimento
de retrocesso na rvore para o mais alto nvel e a tentativa de aplicao de
uma nova regra. Os processos de retrocesso e de aplicao de regras so
repetidos at que se resulte na obteno de uma palavra. Se o processo de
gerao de palavras termina de forma insatisfatria, a gramtica no gera a
palavra, ento o padro no pertence classe.
A abordagem top-down no muito eficiente, j que muitos caminhos
incorretos podem ser gerados. Porm, nmero de caminhos errados pode ser
minorado por meio da aplicao de testes de consistncia. Por exemplo, se
uma palavra inicia com o smbolo no-terminal A, ento somente as regras
do lado direito que iniciam com A devem ser consideradas. Algumas outras
tcnicas usam como vantagem o conhecimento a priori dos padres. Essas
abordagens so conhecidas como poda da rvore.
A poda da rvore tambm utilizada se a busca completa no pode ser
realizada devido ao esforo gasto pela procura do padro dentro de um limite
de tempo considerado. A poda no especifica que a soluo no obtida ou
at mesmo que esta no seja a soluo tima. Isso depende da qualidade da
informao que aplicada e obtida durante o processo de poda. Informaes
obtidas a priori favorecem o processo de poda. Se a palavra possui tamanho
n, ento os galhos da rvore que formam palavras maiores que n podem ser
podados. Outra tcnica utiliza o conhecimento da estrutura da palavra. Se, por
exemplo, sabe-se a priori que a palavra inicia-se com o smbolo w1, ento todo
ramo da rvore que forma palavras que iniciam com smbolos diferentes de w1
so podados.

305
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Existem dois principais meios de recuperao de um caminho errado.


O primeiro o mecanismo de retrocesso descrito anteriormente. O outro no
inclui o retrocesso. Todas as possveis combinaes de regras de substituies
so aplicadas em paralelo e vrias rvores so construdas simultaneamente.
Se nenhuma rvore gera a palavra padro, ento o processo finaliza. Se al-
guma rvore termina sem alcanar o padro, ento ela abandonada. Essa
abordagem do tipo fora bruta, porm dispensa o processo de retrocesso
do algoritmo.
O procedimento top-down uma seqncia de expanses, iniciando
com o smbolo de partida P. Um processo bottom-up inicia-se a partir da pa-
lavra a ser analisada, que reduzida a partir da aplicao de substituies
reversas. Do ponto de vista da construo de uma rvore sinttica, o analisador
sinttico constri a rvore de baixo para cima. Cada vez que uma reduo
feita, uma sub-rvore criada, ou seja, um pai gerado a partir de um conjunto
de filhos. Enquanto no encontra o lado direito da regra apropriada, o algoritmo
perfaz uma srie de operaes de empilhamento.
O princpio da anlise bottom-up detectar sub-palavras na palavra
analisada que correspondem ao padro do lado direito de alguma regra de
substituio. realizado um processo de reduo, que substitui o lado direito
com o lado esquerdo da regra no padro analisado. A anlise no procura por
sub-objetivos. Todo o processo voltado para se obter uma reduo e a simpli-
ficao no padro at que o smbolo de partida seja obtido. Se o processo no
obtiver sucesso, a gramtica no gera a palavra analisada.
importante destacar que nem todo lado direito de uma regra encon-
trado serve para uma operao de reduo. Os lados direitos que servem para
este propsito tem como caracterstica fazer parte de uma derivao mais
direita. Como o analisador parte da sentena formada em direo ao smbolo
inicial procurando refazer as derivaes de uma derivao mais direita, diz-
se que o analisador percorre a derivao mais direita em reverso.
O Algoritmo de Cocke-Younger-Kasami (CYK) um dos algoritmos usu-
ais para anlise sinttica, sendo descrito em seguida. Assume-se que dado
uma gramtica livre de contexto G={V, , R, P} na forma normal de Chomsky,
ou seja, todas suas regras de produo so do tipo A BC ou A a, com A,
B, C, V e a , ento o algoritmo gera uma tabela T com clulas tij tais que
estas ltimas contero A V se e somente se A* w1w2,...,wn for uma palavra
de entrada da gramtica.
A tabela construda a partir da linha de baixo (j = 1), seguindo os pas-
sos mostrados no Algoritmo 6.2 a seguir.

306
Reconhecimento Sinttico e Estrutural de Padres

Algoritmo 6.2. Cocke-Younger-Kasami (CYK)


1. tij = {A: A wi est em R} para i = 1,...n;
2. Se tik for encontrado para todo i e 1 k < j ento
3. tij = {A: para qualquer k, 1 k < j, A BC em R,
4. B est em tik e C em ti+k,j-k};
5. Repita o passo 2 para 1 i < n, 1 j < n-i+1;
6. Se P estiver em t1n ento w est em L(G).

A tabela do mtodo CYK construda a partir da posio (1,1). Se uma


subpalavra de w, comeando em wi e de comprimento j pode ser derivada a
partir de um smbolo no terminal, ento esse smbolo no terminal posto na
clula (i,j). Se a clula (1, n) conter P, ento a tabela contm uma derivao
vlida de w em L(G). A Figura 6.15 mostra a tabela construda para uma pala-
vra com n = 4.

Figura 6.15. Tabela do analisador sinttico do mtodo CYK. A


figura montada para uma palavra com tamanho n = 4.

difcil comparar a eficincia desses analisadores. A anlise bottom-


up mais eficiente para algumas gramticas e a top-down mais eficiente
para outras. A maioria dos analisadores sintticos so baseados no princpio
top-down. uma abordagem apropriada para a maioria das gramticas, porm
menos eficiente.

6.4.2. Reconhecimento por Distncia Mnima entre Padres
Outra forma de se trabalhar com padres corrompidos por rudo usar
medidas de similaridade no processo de reconhecimento terico (mtodos do
tipo Mpro). Pode-se imaginar que os padres ou seus prottipos sejam definidos
por meio da introduo de erros na representao das primitivas. Os erros
podem ser de trs tipos:

307
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

1. erro de substituio: 1a2 | 1b2 a,b (a b);


2. erro de remoo: 1a2 | 12 a ; e
3. erro de insero: 12 | 1a2 a .
A idia bsica da correo do erro de mnima distncia minimizar
a ocorrncia desses erros no processo de anlise sinttica. Assim, define-se
uma distncia d(w1, w2) entre duas palavras w1 e w2 como sendo o nmero
mnimo de transformaes ( sobre os trs tipos de erros mostrados anterior-
mente) necessrias para se transformar w1 em w2. Por exemplo, seja w1 = abd
e w2 = accd, ento d(w1, w2) = 2.
Seja L(G) uma dada linguagem e w uma dada palavra, que no per-
tence a L(G). Na anlise sinttica para correo de erro por distncia mnima
procura-se pela palavra w em L(G), tal que
6.17
d ( w, w ) = min d ( w, w).
wL ( G )
Isto conseguido por meio da adio de smbolos extras em w para G, sendo
dado G e estendendo L(G) para L(G).

6.4.3. Gramticas Estocsticas


Em todos os exemplos de gramticas vistos at a seo anterior, pa-
dres e primitivas so usados como se o rudo no tivesse importncia. As
linguagens estocsticas foram desenvolvidas com o objetivo de incorporar a
incerteza no modelo da gramtica [Banks 1990, Chi e Geman 1998]. Uma
gramtica estocstica uma gramtica em que associa-se uma probabilidade
a cada uma das regras de produo. Formalmente:
Definio 6.6 (Gramtica Estocstica) - Uma gramtica estocstica Gs uma qu-
drupla (V, , R, P, p) onde:
V um conjunto finito de elementos denominados de variveis;
um alfabeto; V = ;
P V uma varivel conhecida como varivel de partida;
R {(V )*
V (V

)* (V *), p}
o conjunto de regras de produo. A cada regra est associada
uma probabilidade p, 0 p 1, para cada A V e para cada {A
ipi} R, com
p = 1.
i i

Dada uma linguagem L gerada por uma gramtica estocstica Gs,


pode-se associar a cada palavra x desta linguagem um valor p(x|Gs), chamado

5
Uma cadeia de Markov uma sucesso de variveis aleatrias que descrevem o esta-
do de um sistema ao longo do tempo, com a propriedade que o estado do sistema a
partir de um certo instante s depende do estado nesse instante.

308
Reconhecimento Sinttico e Estrutural de Padres

de probabilidade da palavra x dado Gs. Esta probabilidade calculada multipli-


cando-se os valores das probabilidades das produes utilizadas na derivao
de x. O valor p(x|Gs) pode ser utilizado para caracterizar o grau de certeza de
que x pertence a L(Gs), ou seja, pode-se dizer que uma gramtica estocstica
uma representao de uma distribuio de probabilidade.
A linguagem estocstica gerada por uma Gs formada por palavras da
linguagem e pela probabilidade de produo, que se obtm mediante o produto
de todas as probabilidades das regras utilizadas. A teoria das gramticas es-
tocsticas est baseada na teoria matemtica que complementa a teoria das
linguagens formais. Uma gramtica estocstica regular equivalente a uma
cadeia de Markov5
As gramticas estocsticas podem ser definidas como livres de contex-
to (GLC), sensvel ao contexto (GSC) e regular (GR) de maneira semelhante
s definies anteriores. Assim, seja A1, A2,,Am o conjunto de regras de pro-
duo em R e
A1 A2 A3 Am 6.18
P ... = w,
1 2
A derivao de uma palavra w, onde i uma 3palavra intermediaria obtida em
uma etapa i da derivao. Como definido anteriormente, cada regra de produ-
o Ai est associada a uma probabilidade p(Ai). Logo, a probabilidade para se
gerar a palavra w dada por

p(w) = p(A1)p(A2|A1)p(A3|A1,A2)p(Am|A1,,Am-1), 6.19


onde p(Aj|A1,,Aj-1) a probabilidade de Aj dado que as regras de produo
A1,,Aj-1 j tenham sido aplicadas. Se p(Aj|A1,,Aj-1) = p(Aj), ento diz-se que
a probabilidade de associao com Aj irrestrita.
Um exemplo de uma gramtica estocstica livre de contexto dado por Gs =
(V, , R, P, p), com
V = {P},
= {a, b},p
R={P p 1 aPb,

P ab}.
A probabilidade de cada regra de produo est mostrada sobre a seta da
produo.
A teoria da anlise sinttica para linguagens estocsticas similar a
desenvolvida para as linguagens determinsticas [Chrnaiak 1997]. Porm, a
rvore sinttica pode ser eficientemente minimizada por meio da escolha, em
cada n, da execuo da produo de maior probabilidade, seguida da pro-
duo mais provvel e assim sucessivamente. Porm, o problema mais difcil
no reconhecimento sinttico estocstico precisamente a determinao das
probabilidade das regras de produo. Um mtodo simples, usado para deter-
minar essas probabilidades ser agora descrito.
Supondo-se que se tenham M classes definidas por meio de M gram-
ticas estocsticas

309
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Gk = (VNk, Tk, Rk, Pk, pk), 1 k M, 6.20


onde somente a probabilidade das regras de produo pk so desconhecidas.
Assume-se ainda que se dispe de um conjunto de amostras de palavras W
= {w1, w2,..., wk} onde cada palavra s pertence a uma, e somente uma, L(Gk).
Seja n(wi), 1 i K o nmero de vezes que wi ocorre em W. Para simplificar,
assume-se ainda que Gk regular ou livre de contexto, de tal maneira que cada
produo esteja na forma X , com X V.
O processo inicia a partir da anlise sinttica de cada palavra wi em
cada uma das gramticas. Seja Xi j, qualquer regra de produo de uma
gramtica Gk e Nkij(wi) o nmero de vezes que essa produo usada na an-
lise sinttica de wi. Finalmente, seja p(wi|Gk) a probabilidade com que wi
gerada por Gk.
Se wi pertence a uma nica classe k, ento p(wi|Gk) = 1. Caso contrrio,
ou seja, se wi no pertena a classe k, ento p(wi|Gk) = 0. Porm, se wi perten-
ce a L(Gk) para diferentes valores de k, ento p(wi|Gk) pode ser estimada por
meio da freqncia relativa com a qual wi ocorre nas classes. Porm, deve-se
impor a restrio

m
6.21
p( w | G ) = 1 .
k =1
i k

O nmero de vezes nklj que a regra de produo Xi j usada a


partir do smbolo de partida P em R dado por

K
6.22
n klj = n( wi ) p ( wi | Gk ) N klj ( wi ),
i =1
e a probabilidade associada a cada regra de produo Xi j de R
pode ser estimada por meio de

nklj 6.23
pklj
n
j klj ,
onde o somatrio tomado sobre todas as regras de produo Xi j em R. O
Algoritmo 6.3 sintetiza os passos principais do mtodo apresentado.

Algoritmo 6.3. Probabilidade da Regra de Produo


1. Entrada: M classes definidas por meio de M gramticas estocs-
ticas Gk = (VNk, Tk, Rk, Pk, pk), 1 k M

310
Reconhecimento Sinttico e Estrutural de Padres

2. Encontre p nmero de vezes nklj que a regra de produo Xi


j usada a partir do smbolo de partida P em R.
3. Estime a probabilidade associada a cada regra de produo Xi
j de R

6.4.4. Gramticas em rvores


Uma gramtica em rvore definida por meio de

G = {V, , R, r, P}, 6.24


onde V e , como definidos anteriormente, so conjuntos de smbolos termi-
nais e no terminais, respectivamente. P V uma varivel de partida, que
pode ser uma rvore. R um conjunto de regras de produo da forma

Ti Tj, 6.25
onde Ti e Tj so rvores e r uma funo de graduao ou ranking que denota
o nmero de descendentes diretos de um n terminal na gramtica. As produ-
es tm a forma

6.26
,
onde X1, X2,...,Xn so smbolos no terminais e k um terminal [Barrero 1991].
O exemplo na Figura XX mostra a estrutura do esqueleto de uma pea descrita por
meio de uma gramtica em rvore formada por
V = {X1, X2, X3, P},
= {a, b, c, d, e},
e regras de produo da forma

As primitivas e os smbolos terminais podem ser vistos na Figura 6.16


mostrada a seguir.

Figura 6.16. Gramticas em rvores. (a) Um objeto e seu


esqueleto (linhas tracejadas) e (b) primitivas usadas para
representar o esqueleto por meio de gramticas em rvores.

311
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Gonzlez, R. et al. (2002) apresenta uma aplicao de gramticas em


rvores na anlise de fotografias de experimentos de fsica de altas energias.
So fotografias de feixes de partculas com propriedades conhecidas que bom-
bardeiam o ncleo de alvo conhecido. O interesse rastrear partculas secun-
drias que escapam do feixe a partir do ponto de coliso. Um experimento tpi-
co utiliza milhares de fotografias que podem no conter eventos de interesse. A
anlise e categorizao de milhares de fotografias um trabalho tedioso para
o ser humano, tornando-se necessrio o desenvolvimento de um procedimento
automtico por meio das tcnicas de reconhecimento sinttico de padres.

6.4.5. Inferncia Gramatical


Na maioria dos problemas de reconhecimento sinttico de padres no
se dispe previamente de uma gramtica. A nica informao disponvel , em
geral, um conjunto de exemplos formados por prottipos ou sub-prottipos (pri-
mitivas) dos padres, sendo tambm necessrio o conhecimento da gramtica.
Nesses casos, a obteno da gramtica realizada por meio de um processo
de aprendizagem, empregando-se mtodos de conhecimento indutivo [de La
Higuera 2005].
A Inferncia gramatical um processo de inferncia indutiva com o ob-
jetivo de construir uma gramtica que gera uma linguagem desconhecida a
partir de uma amostra finita de palavras desta linguagem [de Mauro 2003].
Como qualquer outro problema de inferncia indutiva, a inferncia gra-
matical necessita da definio de:
a) Um domnio de inferncia;
b) Um espao de hipteses ou representaes;
c) Um mtodo de apresentao de exemplos;
d) Um mtodo de inferncia; e
e) Um critrio de xito.
O domnio de inferncia qualquer subconjunto das linguagens formais
(ver Figura 6.17). Mais especificamente, se restringe a qualquer subconjunto
das linguagens recursivas. O espao de hipteses depende do domnio de
inferncia e da representao utilizada. Como nica condio, o espao de
hipteses deve ser composto de pelo menos uma representao (a descrio
de uma hiptese) para cada linguagem. Por exemplo, caso se trate de inferir
uma linguagem da subclasse de linguagens regulares sobre um alfabeto V, o
espao de hipteses ser formado pelas gramticas regulares sobre V, assim
como os autmatos finitos sobre V.
Em geral, se utilizam mtodos de apresentao de exemplos para a
inferncia indutiva:
Apresentao positiva da linguagem L. So apresentadas suces-
ses de elementos positivos da linguagem L.
Apresentao completa da linguagem L. So apresentadas suces-
ses de elementos de L e de seu complemento (amostras positi-
vas e negativas), marcados para indicar se pertencem ou no a L.
A cada novo exemplo, o algoritmo de apresentao fornece uma hipte-
se vlida ou no vlida para os exemplos apresentados.

312
Reconhecimento Sinttico e Estrutural de Padres

Figura 6.17. Domnio de inferncia.

sempre desejvel que o mtodo de inferncia seja consistente, isto


, que aceite todos os exemplos positivos lidos at o momento que rejeite os
negativos, caso existam. Tambm, o mtodo deve ser conservativo, ou seja, s
troca a hiptese se o novo exemplo for incompatvel com a hiptese presente.
A maioria dos sistemas de inferncia gramatical s utiliza apresenta-
es positivas, principalmente devido aos mtodos enumerativos, que no so
o suficientemente rpidos, e os mtodos construtivos existentes, que no per-
mitem a utilizao de mostras negativas. Outra razo, de no menos peso na
prtica, reside no fato de que, prescindindo de consideraes tericas, no
necessrio identificar perfeitamente uma linguagem para poder construir um
sistema reconhecedor que funcione. Em um classificador, por exemplo, basta
que a linguagem inferida pertena a uma classe e a interseo com as outras
classes seja vazia.
O problema da inferncia gramatical pode ser abordado de duas ma-
neiras: utilizando mtodos de enumerao (ou enumerativos) e mtodos de
construo (ou construtivos). Na abordagem por enumerao, primeiramen-
te listam-se todas as gramticas possveis de uma determinada classe e em
seguida escolhemos aquelas que podem ser utilizadas para gerar palavras a
partir de um conjunto de amostras finito. Assim, assume-se a possibilidade de
enumerar hiptese. A cada novo exemplo, um mtodo enumerativo buscar,
seqencial e exaustivamente, na lista de hipteses a primeira hiptese que
seja compatvel com todos os exemplos apresentados.
Um mtodo de inferncia melhor ou mais poderoso do que outro, se
dado um critrio de sucesso e um mtodo de apresentao, o conjunto de lin-
guagens que capaz de inferir mais amplo. Os mtodos enumerativos se ba-
seiam numa busca exaustiva do espao das hipteses. evidente que podem
inferir qualquer classe de linguagens, e que portanto so muito poderosos.

313
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Toda limitao no poder dos mtodos enumerativos ser pois vlida tambm
aos outros mtodos de inferncia, o que permite limitar o estudo terico aos
enumerativos, conceitualmente mais simples.
O tempo de convergncia de um mtodo de inferncia se define como
o ponto (nmero do exemplo) a partir do qual se conseguiu a identificao no
limite. Um mtodo uniformemente mais rpido do que outro quando, seja
qual for a apresentao, seu tempo de convergncia menor para pelo menos
uma das linguagens a inferir (e no maior para nenhuma outra dessas lin-
guagens). Sabe-se que, para uma determinada linguagem e uma determinada
apresentao, no existe um algoritmo uniformemente mais rpido do que o
correspondente mtodo enumerativo.
Infelizmente, muito difcil implementar na prtica um mtodo enume-
rativo. A complexidade da busca exaustiva cresce exponencialmente com o
espao das hipteses. Apesar disso, algumas variantes dos mtodos enumerati-
vos foram estudadas. Estes algoritmos, que se baseiam em estruturar o espao
das hipteses com alguma relao mais complexa do que a simples enumera-
o, conseguem diminuir drasticamente a complexidade da busca em alguns
casos concretos (poda, busca em reticulado, entre outros).
Na abordagem por construo, gramticas so construdas diretamente
de exemplos de treinamento. Novas hipteses so construdas a partir de no-
vos exemplos. Em geral, as aplicaes prticas descartam, por sua intratabili-
dade, a utilizao dos mtodos de enumerao de inferncia gramatical.
Devido s razes expostas, a maioria dos mtodos prticos de infern-
cia gramatical so construtivos e utilizam unicamente apresentao positiva.
Porm, a maioria dos mtodos de construo esto orientados para as lingua-
gens regulares, sendo escassos os que inferem gramticas livres de contexto
ou superiores.
Dentre os mtodos de inferncia de gramticas regulares, cabe desta-
car os que se baseiam em diferentes mtodos de agrupar os estados em um
autmato. Este autmato proporciona um espao de busca adequado, sempre
que a mostra seja estruturalmente completa, ou seja, se utilizou para gerar
todas as regras da gramtica a inferir.

6.5. Reconhecimento Estrutural de Padres por Meio de Grafos


Esta seo explora as tcnicas que descrevem a estrutura dos padres
por meio de grafos. Nesse caso, uma rede formada por grupos de primi-
tivas cujos arcos representam relaes entre os elementos que formam os
padres.
A utilizao de grafos em reconhecimento estrutural de padres tem
se destacado como uma ferramenta importante em reas de pesquisa como a
viso computacional e inteligncia artificial [de Mauro 2002]. Os mtodos em
tais abordagens so marcados pelo fato de que a tarefa de reconhecimento
no envolve apenas os objetos em uma imagem, mas igualmente as relaes
entre tais objetos. Parte da importncia da utilizao dessas relaes advm

314
Reconhecimento Sinttico e Estrutural de Padres

do fato que tais relaes so freqentemente mais estveis nas cenas que
muitas propriedades dos objetos em si [Lei 2004].
Sero considerados grafos com ns e arcos valorados, que so avalia-
dos de acordo com a descrio da estrutura relacional que eles representam. O
objetivo decidir se a representao do objeto corresponde de fato a estrutura
de um padro de uma classe. Ou seja, se o objetivo reconhecer um objeto
descrito por meio de suas caractersticas estruturais, corresponde exatamente
a um modelo que o descreve em uma classe. O exemplo mostrado na Figura
6.18 mostra um padro representando um rosto e a relao entre a cabea,
olhos, boca, nariz e orelhas. Se objeto a ser reconhecido possui a mesma
estrutura relacional, ento os grafos G1 e G2 devem manter um relao de ca-
samento entre vrtices e arestas.

Figura 6.18. Reconhecimento por meio de grafos. Os grafos


obtidos para o padro (G1) e para o objeto (G2) devem ser
correspondentes.

O casamento exato entre grafos chamado de isomorfismo de grafos e


sua determinao um problema clssico da teoria dos grafos. Devido des-
crio imprecisa dos objetos, rudo, condies de obteno das caractersticas
do objeto, entre outros, o isomorfismo no ocorre precisamente entre os grafos
[Lei et al 2004]. Trata-se de um problema difcil e a avaliao da similaridade
entre grafos no uma tarefa trivial. Um problema relevante na determinao
da similaridade de grafos encontrar uma mtrica que determine o quanto dois
grafos so similares [Flasinski 1993].

315
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

O problema do isomorfismo de grafos pode ser dividido em trs princi-


pais classes [Sonka et al 1992]:
1. Isomorfismo de grafos. Este problema j foi definido na Seo 2.
Porm vale lembrar que trata-se um mapeamento f um-para-um
(um isomorfismo) entre os conjuntos de vrtices V1 e V2 tal que
para cada aresta de E1 que conecte qualquer par de ns v e v
V1, existe uma aresta de E2 conectando f(v) e f(v).
2. Isomorfismo de subgrafos. Consiste em encontrar um isomorfis-
mo entre um grafo G1 e subgrafos de outro grafo G2. Este proble-
ma mais difcil que o anterior.
3. Duplo isomorfismo de subgrafos. Encontrar todos os isomorfis-
mos entre os subgrafos de um grafo G1 e os subgrafos de outro
grafo G2. Este problema da mesma ordem de dificuldade do
problema 2.
No existe atualmente um algoritmo eficiente para resolver o isomorfis-
mo de grafos. Por meio de fora bruta pode-se tentar todas as permutaes
possveis, mas isso daria um algoritmo de complexidade exponencial. Para que
dois grafos sejam isomorfos, no mnimo essas condies tem que ser respei-
tadas:
1. Os dois tm o mesmo nmero de vrtices.
2. Os dois tm o mesmo nmero de arestas.
3. Os dois tm o mesmo nmero de vrtices de grau n, para qual-
quer valor n entre 0 e o nmero de vrtices que o grafo contm.
Estas condies no so suficientes para que dois grafos sejam isomor-
fos. Para determinar se um grafo isomorfo, existe uma tcnica baseada nas
condies a cima, porm de implementao no trivial. Em sntese, procura-se
modificar a maneira de desenhar um grafo para torn-lo igual ao outro, com a
exceo dos rtulos dos vrtices. O Algoritmo 6.4 sumariza essa tcnica.

Algoritmo 6.4. Isomorfismo de grafos

1. Entrada: dois grafos G1(V1, E1) e G2(V2, E2);


2. Usando o critrio de propriedade dos ns, gere os subconjuntos
V1i e V2i de ns. Teste se condies de cardinalidade entre os
subconjuntos so correspondentes. Se no, o isomorfismo re-
provado.
3. Particione os subconjuntos V1i e V2i em outros subconjuntos W1j
e W2j, de tal maneira que nenhum dos dois conjuntos contenham
os mesmo ns (W1j W2j = ). Teste as condies de cardina-
lidade para todos os subconjuntos W1j e W2j. Se a condio de
cardinalidade no for alcanada, ento o isomorfismo reprova-
do.
4. Repita os passos 2 e 3 usando outro critrio de propriedade dos
ns em todos os subconjuntos W1j e W2j gerados. Pare se ocorrer
alguma das situaes anteriormente mencionadas.

316
Reconhecimento Sinttico e Estrutural de Padres

5. Baseado na situao de parada do processo de repetio, o


isomorfismo pode ser aprovado, reprovado ou aplica-se algum
outro procedimento de retrocesso para completar o teste.

O isomorfismo de subgrafos e o duplo isomorfismo de subgrafos so


problemas NP-Completos, significando que nenhuma soluo determinstica
pode ser alcanada em tempo polinomial. As solues s so obtidas em tem-
po proporcional a uma funao exponencial do tamanho da entrada. No se
sabe se o isomorfismo de grafo NP-completo ou no.

6.6. Aplicaes e Estudos de Casos


Nesta seo sero abordadas as aplicaes do reconhecimento sintti-
co de padres. Em particular, enfatiza-se a aplicao das tcnicas sintticas e
estruturais em viso de mquina, recuperao da informao e em bioinform-
tica. Sero abordados tpicos inerentes anlise de padres de textura para
a inspeo visual, os problemas da recuperao de imagens por contedo, a
recuperao da forma tridimensional de objetos contidos em uma imagem por
meio da construo de gramticas e uma viso geral sobre novas aplicaes
do reconhecimento de padres em bioinformtica [Todesco 1995].

6.6.1 Reconhecimento Sinttico em Bioinformtica


So muitas e variadas as aplicaes das tcnicas de reconhecimento
de padres nas reas mdicas e biolgicas [Hava e Arridge 1999, Jurek 2000].
Em bioinformtica existem pelo menos duas classes de sinais de uma dimen-
so que consistem em dados para problema em reconhecimento de padres
[Hong e Yang 2005]:
seqncias de bases e
sinais de DNA microarray.
Seqncias de base pode formar uma molcula de DNA ou RNA, que
so estudas na biologia molecular. Existem cinco bases diferentes: adenina
(A), guanina (G), citosina (C), timina (T) e uracila (U), formando palavras como
AGCGGCTAGTC...
A partir de uma seqncia de bases podemos aplicar algoritmos de
reconhecimento de padres que podem solucionar problemas de agrupamen-
to ou de casamento. O problema de casamento de seqncias consiste ba-
sicamente em determinar quo similares so duas seqncias. Em geral o
problema encontrar alguma similaridade entre uma seqncia e um conjunto
grande de seqncias (um para muitos). O problema pode estender-se em en-
contrar similaridade entre dois conjuntos de seqncias (muitos para muitos).
No cido RiboNuclico (RNA), os nucleotdeos adenina (A), citosina
(C), guanina (G) e uracila (U) atuam uns sobre os outros, em caminhos espe-
cficos para formar a estrutura secundria em caracterstica principais como as
hlices, laos e salincias. Em geral, a dobra da cadeia de RNA em molcula
funcional governada pela formao de intramolculas de A-U e G-C, deno-

317
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

minados pares de Watson-Crick. Tais pares de bases constituem o chamado


palndromo biolgico no genoma.
Quando as seqncias de RNA esto alinhadas, ambas estruturas pri-
mrias e secundrias necessitam ser consideradas desde a gerao do alinha-
mento mltiplo da seqncia e anlises de dobras so mutuamente exerccios
dependentes.
Em [Sakakibara et al. 2004], mostra-se que o pareamento das bases
no RNA pode ser descrito por uma linguagem livre de contexto. Em particu-
lar, utilizando as regras na forma X AYU , X UYA , X GYC
e X CYG descreve-se a estrutura em RNA que combina com o parea-
mento base de Watson-Crick. Usando regras deste tipo, a gramtica livre de
contexto pode especificar a linguagem de palndromos biolgicos.
Dada a gramtica a seguir:

G = (V , , R, P)
V = {P, X 1 , X 2 , , X 15 , X 16 }
= { A, C , G, U }
P A X 1U ,
X G X 2C , X2 X3X4, X3 A
1 X 5U ,

X 5 A X 6U , X 6 X 7 X8, X7 A
X 9U ,


P = X 9 G X 10 C , X 10 A
X 1 , X1 U
G ,
X G X 12 C , X 12 A U, X 13 A
X X 14 ,
8 13

X 14 GC , X4 G
X 15 C, X 15 C
X 16 G ,

X 16 U
G
Por exemplo, a aplicao das regras na gramtica anterior pode gerar a
seqncia de RNA CAUCAGGGAAGAUCUCUUG e a derivao pode ser dis-
posta em uma estrutura de rvores chamada rvore de derivao. Um rvore
de derivao representa a estrutura sinttica de uma seqncia produzida por
uma gramtica.

6.6.2. Classificao de Cromossomos


A classificao de cromossomos explorada em profundidade no tra-
balho de [Todesco 1995], a partir do qual constitudo grande parte do texto
aqui desenvolvido. A anlise microscpica dos cromossomos humanos visa
o pareamento dos mesmos para a avaliao de sua integridade estrutural. O
caritipo o processo pelo qual os cromossomos em uma clula, preparada
adequadamente, so identificados e alocados para uma determinada classe a
qual presumivelmente pertencem. Esta uma importante tarefa clnica, pois
a identificao de anormalidades nos cromossomos de uma particular classe
pode ser detectada e, assim, feito o diagnstico de certas sndromes clnicas.

318
Reconhecimento Sinttico e Estrutural de Padres

A classificao pela inspeo (cariotipagem) uma tarefa importante e


trabalhosa em diagnstico pr-natal de anormalidades genticas e no diagns-
tico e monitoramento do cncer. O estudo microscpico demorado e exige
extrema experincia do profissional, constituindo-se em um trabalho artesanal.
Para formar um caritipo de 46 cromossomos de uma clula humana
normal, algumas caractersticas dos cromossomos (comprimento, posio do
centrmero, padro de bandas, etc.) devem ser mensuradas de maneira que
cada cromossomo possa ser atribudo a uma das 24 classes. So 22 pares de
cromossomos idnticos (homlogos) e um par sexual designado pelas letras X
e Y (um par de cromossomo X no caso de feminino ver a Figura 6.19, e um
cromossomo X e um Y no caso de masculino).

Figura 6.19. o caritipo feminino humano normal. Imagem obtida


na www em www.virtual.epm.br/ cursos/genetica/htm/base.htm.

Os cromossomos esto presentes em todas as clulas nucleadas de


todos os organismos vivos, levando informaes genticas que so usadas
como mensageiros na reproduo das clulas e organismos. Seu nome deri-
vado do Grego chroma para cor e soma para corpo, isto porque elas podem
ser fixadas com certas tinturas. Para melhor entendimento de sua funo de
mensageiro, um esboo do processo reprodutivo de clulas e organismos ser
apresentado. A reproduo das clulas serve para dois importantes propsi-
tos: o crescimento e manuteno dos organismos vivos gerando novas clulas
por meio da diviso, chamada mitose e a reproduo dos organismos como um
todo pela gerao de clulas reprodutivas especializadas atravs da reduo
da diviso, chamada meiose.
Do ponto de vista citogentico, o principal interesse na clula em um
especfico estgio da mitose, a metfase, e muito menos extensivo, a prfa-

319
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

se, porque somente nestes estgios os cromossomos so visveis como enti-


dades separadas e podem passar informao. Desta forma, o objetivo tentar
o maior nmero de metfases pela interveno no ciclo mittico normal da
clula, por meio de um processo laboratorial chamado cultura. Alm disso,
contrastar o cromossomo para que detalhes possam ser visualizados para fins
de diagnstico.
Quando propriamente focado, a prfase e metfase so facilmente visu-
alizadas, porque elas mostram um padro muito caracterstico de um agrupa-
mento de poucas dzias de objetos. Os cromossomos geralmente diferem de
uma clula para outra tanto em tamanho quanto em forma. Uma vez achada a
metfase, a possibilidade de anlise julgada pelos vrios graus de contrao
e alongamento dos cromossomos, e o nmero estimado de cromossomos que
se tocam e se sobrepem. Deve tambm ser notado, que a anlise depende
dos requerimentos necessrios. Se o objetivo apenas verificar anormalidade
numrica, a qualidade da metfase suficiente se os cromossomos so cont-
veis. Se o objetivo analisar anormalidades estruturais, em alguns casos basta
que a metfase seja suficiente para determinar o caritipo (ou cariograma).
O caritipo dos cromossomos assistido pelo computador para anlise
dos cromossomos tem alcanado o estgio no qual muitos laboratrios acei-
tam que tanto clinicamente til quanto economicamente justificvel. Sistemas
comerciais j se encontram hoje disponveis, proporcionando facilidades grfi-
cas interativas para a classificao automtica pelo computador, embora exista
a necessidade de interao com um operador. A comparao entre os padres
realizada em bases de imagens digitalizadas de cromossomos.
Existem 28 caractersticas disponveis nos cromossomos, sendo impra-
ticvel fazer uma busca exaustiva para um subconjunto timo. Os critrios mais
usados para identificao dos cromossomos pelos citogenicistas so: compri-
mento, posio do centrmero, caractersticas auto-radiogrficas, localizao
das constries secundrias e padro de bandas.
A extrao das caractersticas comumente toma tempo, pois muitas ve-
zes um pr-processamento se torna necessrio, no sentido de melhorar as
condies da imagem para a extrao. Este o caso da determinao do eixo
principal do cromossomo para medir o comprimento do mesmo. Os cromos-
somos nem sempre esto dispostos de forma prpria, ou seja, eles aparecem
tortos, ou em posies que no so adequadas para a extrao das caracters-
ticas. Em alguns estudos os cromossomos severamente tortos e sobrepostos
foram retirados a ttulo de praticidade, porm, em outros estudos este problema
tem sido largamente explorado, uma vez que em sistemas automticos esta
uma condio normal.
Assim, um processamento prvio torna-se necessrio, com o objetivo
de esticar (desentortar) e rotacionar o cromossomo. As caractersticas mais
utilizadas na classificao automtica de cromossomos so o comprimento e
posio do centrmero (ou ndice centromrico), sendo que com estas duas
caracterstica possvel separar os cromossomos em 7 grupos, tambm cha-
mado grupo de Denver (ver Figura 6.17).

320
Reconhecimento Sinttico e Estrutural de Padres

Figura 6.20. A constrio primria ou centrmero e constries


secundrias ( esquerda). Descrio dos cromossomos de
acordo com a posico do centrmero ( direita). Figura obtida em
www.virtual.epm.br/ cursos/genetica/htm/base.htm.

Uma outra caracterstica, talvez a mais explorada desde o advento da


preparao de amostras de cromossomos com bandas, o padro de banda do
cromossomo ao longo do eixo longitudinal. Estas trs caractersticas tm sido a
base da grande maioria dos estudos desenvolvidos nas duas ltimas dcadas.
O comprimento do cromossomo medido ao longo do eixo longitudinal.
Cada cromossomo em seu grupo tem um comprimento dentro de cada clula
(metfase), sendo que a variao depende da preparao da amostra. Isso faz
com que seja necessria a normalizao desta medida. O centrmero um
ponto de constrio primria dos cromossomos que a divide em duas partes,
chamados brao curto p e brao longo q. A relao entre p e q chamada ndi-
ce centromrico, ou seja, p e q so metacntricos quando os dois braos tm
praticamente o mesmo comprimento (p/q = 1); submetacnctricos quando a
relao p/q aproximadamente 0.5, ou seja, os comprimentos dos dois braos
so diferentes, e acrocntricos quando o centrmero est na extremidade do
cromossomo (p/q = 0.1).
Variaes na medio do ndice centromrico so feitas, utilizando-se
tambm a razo da rea do brao curto e do brao longo, ou a razo da den-
sidade (p/q) no nvel de pixels. O padro de bandas, ou simplesmente bande-
amento, a variao de tonalidade ao longo do eixo principal do cromossomo,
formando listras, de propriedades tingidas. Esta variao de propriedades tin-
gidas normalmente independente de qualquer variao estrutural imediata-
mente bvia.
A determinao do comprimento do cromossomo pode ser feita de v-
rias maneiras. Uma das tcnicas que tem sido mais utilizada a determinao
do eixo longitudinal do cromossomo, uma vez que, se esse eixo determina-
do, o comprimento torna-se imediato. Tcnicas no-paramtricas que acham
o eixo por montagem local podem ser mais poderosas no trato com cromos-
somos tortos.
A determinao da posio do centrmero outro importante passo no
processamento da imagem do cromossomo. Para cromossomos sem padro

321
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

de bandas o centrmero pode ser achado diretamente por meio da anlise do


perfil de densidade ao longo do eixo principal do cromossomo. Contudo, para
cromossomos com bandas esta anlise no pode ser usada, uma vez que o
perfil de densidade ser dominado pelas bandas. Algumas abordagens pro-
pem a utilizao do perfil da largura do cromossomo, e a outra a anlise da
curvatura da fronteira do cromossomo (mxima concavidade no contorno do
cromossomo) [Todesco 1995].
O padro de bandas a caracterstica seguramente mais explorada,
possibilitando vrias combinaes no seu processo de classificao. Basica-
mente o perfil da densidade mdia ao longo do cromossomo tem-se tornado
uma prtica comum sendo utilizado em vrios estudos [Mali e Mitra 2003]. A
classificao utiliza as caractersticas previamente extradas para atribuir cada
cromossomo da metfase a uma das 24 classes, formando assim o cariotipo.
Em [Todesco 1995] cita-se ainda vrios outros classificadores, dentre
os quais os Classificadores Paramtricos e No-Paramtricos, Algoritmos de
Busca em Grafos, Sequncias de Transio de Bandas, Modelos de Redes de
Markov, Algoritmos de Transportes e mais recentemente Redes Neuronais Arti-
ficiais tem sido estudado e propostas para a classificao dos cromossomos.

6.6.3 Reconhecimento Sinttico em Minerao de Dados


A minerao de dados tem por objetivo extrair informaes implcitas
e potencialmente teis em grandes bases de dados. Normalmente todo este
processo consiste em uma srie de etapas, que inicia com a seleo do con-
junto ou amostra dos dados a serem processados. Estes dados podem ser
submetidos a uma etapa de pr-processamento em que so transformados
para um formato adequado ao algoritmo de minerao, que procura por regras
ou padres ocultos nos dados. Finalmente as informaes descobertas so
selecionadas e formatadas para a exibio, a fim de serem interpretadas e
avaliadas, de forma que se selecione os conhecimentos teis resultantes de
todo o processo.
Atualmente, cada vez mais reas podem ser beneficiadas com os resul-
tados que advm do processo de minerao de dados. Tcnicas de minerao
de dados em banco de dados com informaes de mercado podem ser usadas
em diferentes aspectos de relaes entre clientes e negcios. Vendas a varejo
envolvem minerar as transaes de venda para encontrar associaes entre
os produtos. Esta informao ento usada para determinar afinidades de
produtos e sugesto de estratgias de promoes que podem maximizar o
lucro, por exemplo.
A minerao de dados utilizada pelo mercado financeiro para detectar
e prevenir fraudes, ou para traar um perfil dos clientes. Estas informaes so
teis para o processo de tomada de deciso no momento de fornecer produtos
bancrios aos clientes.
Nas reas de Sade e Medicina, a minerao de dados usada para
a administrao de servios de pacientes, diagnsticos e tratamento de doen-

322
Reconhecimento Sinttico e Estrutural de Padres

as. A indstria da sade utiliza a minerao de dados para detectar fraudes de


pacientes que gozam de boa sade. Nestes casos so utilizadas tcnicas de
reconhecimento de padro como agrupamento e modelagem de funes. Nos
sistemas de diagnstico de vrios tipos de cncer e ataques do corao, dados
de pacientes podem ser coletados sobre uma grande populao e apresenta-
dos para uma rede neural artificial. Percebe-se que o sistema de minerao de
dados pode avaliar mais pacientes em um dia do que um mdico poderia fazer
em toda a sua vida.
Por exemplo, na minerao de um enorme banco de dados pode-se
descobrir padres em estruturas moleculares, informaes genticas, mudan-
as no clima mundial, etc. Alm disso, pode-se ensinar um determinado con-
ceito de um determinado corpo estelar e utilizar o computador para avaliar
imagens de telescpio e descobrir novos corpos estelares.
Existem diversos mtodos que podem ser utilizados para realizar a mine-
rao de dados e estes mtodos podem ser implementados de diversas formas,
dependendo das necessidades de aplicao ou dos objetivos da minerao. Em
todos eles importante que se defina qual ser o formato utilizado para descre-
ver os padres descobertos, alm de se definir critrios que permitam a avalia-
o desses padres. Alm disso, importante determinar quais so os parme-
tros necessrios ao mtodo e qual o nvel de interatividade com o usurio.
A tcnica de classificao utiliza um conjunto de exemplos pr-classifi-
cados para desenvolver um modelo que pode classificar uma populao de re-
gistros. Esta aplicao freqentemente utiliza rvores de deciso ou algoritmos
de classificao. O uso de algoritmos de classificao inicia-se com um conjun-
to de treinamento de transaes, por exemplo, pr-classificadas. O algoritmo
de treinamento do classificador utiliza estes exemplos para determinar o con-
junto de parmetros necessrios para a discriminao apropriada. O algoritmo
ento codifica estes parmetros num modelo chamado classificador.
A funo da tcnica de classificao examinar o conjunto de registros
classificados e produzir descries das caractersticas dos registros para cada
classe. O problema da tcnica de classificao em realizar corretamente esta
funo a descoberta de regras que particionem os dados em todo o processo
de minerao de dados. Como resultado da tcnica de classificao pode-
se determinar regras que classificam um determinado conjunto de dados ou
regras que discriminem os dados. Na tcnica de classificao, possui-se um
conjunto de dados pr-determinados para a classificao, isso caracteriza um
mtodo de aprendizado supervisionado, em que o algoritmo controlado por
parmetros que no so passados ao sistema.
Uma prtica comum o aninhamento de estruturas de deciso para se
obter uma classificao dos dados por meio da utilizao de sentenas do tipo
if-then. De forma geral, as sentenas if-then podem ser muito complexas se
forem muito longas. As rvores de deciso e regras que usam diviso no va-
rivel tm uma forma de representao simples, fazendo com que a inferncia
do modelo seja relativamente fcil de ser compreendida pelo usurio.

323
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Entretanto, a restrio a uma representao particular de rvore ou re-


gra pode restringir significativamente a forma funcional (e logo o poder de apro-
ximao) do modelo. O aumento do espao do modelo permite expresses
mais gerais (tais como, hiperplanos multivariveis com ngulos arbitrrios),
ento o modelo pode ser mais poderoso para predio, mas pode ser muito
difcil compreend-lo.

6.6.4. Reconhecimento de Texturas


Texturas, em viso computacional, pode ser compreendida como a
variao de brilho em padres sobre a superfcie de objetos de uma cena.
A descrio estrutural de texturas baseada na analogia entre as relaes
espaciais de uma primitiva de textura e a estrutura de uma linguagem formal.
Essa abordagem tem sido intensamente utilizada em viso computacional para
a deteco de reas de plantao, queimadas ou desmatamento de florestas
em imagens de sensoriamento remoto, diagnstico automtico de doenas no
pulmo por meio de imagens de raio X, reconhecimento de tipos de nuvens em
dados de imagens de satlite, entre outras.
As texturas so de ocorrncia muito comum em nosso mundo e seu re-
conhecimento tem um campo vasto de aplicaes. Sob a abordagem sinttica,
as classes de textura so descritas por meio de uma linguagem e podem ser
inferidas a partir de um conjunto de treinamento formado pelas palavras da lin-
guagem. O processo de reconhecimento nada mais do que a anlise sinttica
da palavra que representa determinado padro de textura.
O descritor sinttico de texturas parte da idia de que uma textura em
uma imagem consiste de primitivas localizadas sobre os objetos e obedecem
a um padro de relacionamento regular. Como visto em sees anteriores,
uma maneira eficiente de se descrever o relacionamento entre padres usar
uma gramtica que represente uma regra de construo da textura a partir de
primitivas por meio da aplicao de regras de transformao em um conjunto
limitado de smbolos. Os smbolos representam os tipos de primitivas de textu-
ra e as regras de transformao representam o relacionamento espacial entre
primitivas.
O maior problema no reconhecimento de texturas que padres de
textura reais no apresentam, na maioria dos casos, regularidade nem unifor-
midade que possam ser descritas de forma direta por meio de uma gramtica.
Usualmente empregam-se gramticas estocsticas para a representao des-
ses padres. Quando o padro possui uma forma regular bem comportada,
ento se pode empregar gramticas de cadeias e gramticas de grafos, como
descrito em seguida.

Gramticas de Cadeia
Uma gramtica de cadeia nada mais que uma gramtica convencio-
nal, como descrita na seo de fundamentos tericos, que pode ser usada
para descrever texturas regulares [Sonka et al 1992]. Estas gramticas geram

324
Reconhecimento Sinttico e Estrutural de Padres

texturas que iniciam com smbolos que so seguidos pela aplicao das regras
de produo, aqui referidas como regras de transformao ou regras de for-
ma. O processo de criao da textura inicia-se a partir do smbolo de partida
e procura, em primeiro lugar, por uma regra de transformao. Em seguida,
a regra deve ser geometricamente ajustada para corresponder exatamente a
textura gerada. As regras so gerais e no incluem tamanho, orientao, etc.
O Algoritmo 6.5 mostrado em seguida exemplifica o processo de gerao de
texturas regulares.

Algoritmo 6.5. Criao de texturas por meio de gramtica de cadeia.


1. Inicie o processo de gerao de textura aplicando alguma regra
de transformao ao smbolo de partida;
2. Encontre uma parte da textura previamente gerada que cor-
responda ao lado esquerdo de alguma regra de transformao.
Caso nenhuma parte de textura possa ser encontrada, pare;
3. Encontre uma transformao geomtrica que possa ser aplica-
da ao lado esquerdo da regra escolhida para que esta corres-
ponda exatamente a textura considerada.
4. Aplique a transformao geomtrica ao lado direito da regra de
transformao;
5. Substitua a parte especificada da textura (a parte que corres-
ponde geometricamente ao lado esquerdo transformado da
regra escolhida) com o lado direito da regra de transformao
escolhida que foi geometricamente transformado.
6. Volte ao passo 2.

Este algoritmo pode ser demonstrado por meio da construo de uma


textura hexagonal [Sonka et al. 1992]. Seja, V o conjunto de smbolos no ter-
minais, o conjunto de smbolos terminais, R o conjunto de regras e P o sm-
bolo de partida conforme descritos na Figura 6.21 mostrada em seguida e que
pode ser aplicada para construir um padro de textura hexagonal, seguindo os
passos do Algoritmo 6.5.

325
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

Figura 6.21. Gramtica para a criao de texturas hexagonais.

A gramtica usada para gerar a textura hexagonal mostrada na


Figura 6.22. Como pode ser observado, o smbolo no terminal aparece em
diferentes rotaes. As rotaes so representadas na gramtica por meio de
ponto preto anexado ao lado da figura da primitiva hexagonal. O reconheci-
mento de texturas hexagonais a prova de que texturas podem ser criadas por
meio dessa gramtica. O processo de reconhecimento similar ao processo
de anlise sinttica (o mtodo Mpar) descrito em sees anteriores.

326
Reconhecimento Sinttico e Estrutural de Padres

Figura 22. Padro de textura gerado pela gramtica de cadeia de


formas.

Gramticas de Grafos
A maneira mais natural de para o reconhecimento de texturas com pa-
dres regulares construir um grafo planar sobre a disposio espacial das
primitivas utiliza-lo como entrada no processo de reconhecimento. A classe
das primitivas e o relacionamento espacial entre estas devem ser conhecidos
previamente para se efetivar a construo do grafo.
As primitivas de texturas so codificadas como ns do grafo e dois ns
so conectados por uma aresta, caso no tenha nenhuma outra primitiva na
vizinhana. Cada n rotulado de acordo com a classe correspondente a sua
primitiva e os arcos so avaliados em termos de seus comprimentos e dire-
es. O relacionamento espacial entre as primitivas definem uma vizinhana.
O tamanho dessa vizinhana que tem maior influncia na complexidade de
construo do grafo planar.
Com o grafo construdo, o problema de classificao texturas passa a
ser tratado como um problema de reconhecimento em grafos, para o qual ,
quaisquer uma das abordagens seguintes vlida:
1. Simplifica-se a descrio da textura por meio da decomposio
do grafo em um conjunto de cadeias. A descrio das cadeias da
textura podem representar bordas da primitiva de regies fecha-
das, diferentes caminhos no grafo, a vizinhana de uma primiti-
va, entre outras. Um conjunto de treinamento construdo a par-
tir da descrio de texturas do grafo planar para cada classe de
textura. Empregam-se, ento, as gramticas apropriadas para

327
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

inferir as texturas de cada classe. Como a presena de rudo


altamente provvel, empregam-se, geralmente, gramticas es-
tocsticas. O processo de classificao consiste, basicamente,
nos seguintes passos:
a. A textura representada por meio de um grafo;
b. O grafo decomposto em cadeias;
c. As cadeias so utilizadas em um processo de anlise sintti-
ca;
d. A textura classificada de acordo com a classe para qual a
gramtica aceitar todas as cadeias do grafo planar decom-
posto.
2. Outra classe de descries por meio de grafos planares re-
presentada por meio de uma gramtica de grafos estocsticos
ou por uma gramtica de grafos estendida para a descrio das
texturas.
3. Os grafos planares podem ser comparados diretamente usando
um algoritmo de casamento de grafos (isomorfismo). Se neces-
srio pode-se definir uma distncia entre dois grafos como uma
medida de similaridade.
A maior vantagem da abordagem (1) sua simplicidade; a impossibi-
lidade de se reconstruir o grafo original a partir da decomposio em cadeias
sua principal desvantagem, uma vez que isso indica que alguma poro da
informao sinttica foi perdida durante o processo de decomposio. A abor-
dagem (2) muito difcil, tanto do ponto de vista implementacional quanto al-
gortmico; seu maior problema a inferncia gramatical. Se alguma mtrica,
como uma distncia, for definida na abordagem (3) ento mtodos padres
usados no aprendizado estatsticos podem ser convenientemente empregados
como na anlise de agrupamento, por exemplo.
A abordagem sinttica usual em reconhecimento de texturas devido a
habilidade de se descrever as caractersticas do padro de textura em diferen-
tes nveis. Isso permite a anlise qualitativa da textura por meio da decomposi-
o em subestruturas descritivas, objetivando a incorporao da descrio do
padro em todo componente da cena.

6.7 Consideraes Finais


Neste texto, apresentaram-se as tcnicas de reconhecimento de pa-
dres por meio das abordagens sinttica e estrutural levando-se em consi-
derao a relao entre o conjunto de padres e a gramtica, a semntica
das gramticas e aspectos inerentes inferncia gramatical. Por meio dessas
relaes, mostrou-se o limitado poder de expresso das gramticas livres de
contexto e a difcil tarefa de tratar com as gramticas sensveis ao contexto.
Mostrou-se tambm que os mtodos estruturais devem apresentar um conjun-
to finito e bem definido de prottipos, caso contrrio fica difcil ou at mesmo
impossvel determinar uma gramtica representativa para a efetivao do ca-
samento entre padres.

328
Reconhecimento Sinttico e Estrutural de Padres

Em sntese, verificou-se que os mtodos de reconhecimento sinttico de


padres so difceis de se implementar sem levar-se em considerao o co-
nhecimento prvio do analista e a definio de um bom conjunto de primitivas.
Porm, mesmo sob o aspecto dificultoso e trabalhoso da definio de primitivas
e construo de gramticas, verificou-se por meio de exemplos a aplicao bem
sucedida dos mtodos de reconhecimento sinttico em reas como a bioinform-
tica, recuperao de informao, minerao de dados e viso computacional.
Os exemplos ilustrativos de aplicaes mostrados na ltima seo co-
brem uma ampla faixa de conceitos que foram aqui desenvolvidos e apresen-
tam, dentro dos exemplos mostrados, eventuais linhas de pesquisas e temas
para desenvolvimento futuro. No contexto mais especfico de abordagem sint-
tica, vale destacar o interesse crescente no desenvolvimento de analisadores
sintticos baseados em correo de erro mais rpidos e eficientes, o desenvol-
vimento de novas tcnicas de construo de gramticas, a implementao de
gramticas de maneira declarativa executados por meio de interpretadores, a
aplicao de gramticas de alta ordem como as gramticas plex [Peng 1990],
gramticas livres de contexto de atributo, gramticas de atributo bidimensional
estendido [Zhao 1990], gramticas de grafos [Flasinski 1993], gramticas pro-
gramadas [Lee 1992], gramticas estratificadas e de lgica lebulosa [Parizeau
e Plamondon 1992], entre outras.

Referncias
[Amengual e Vidal 1998] - Amengual, J.C., Vidal, E. (1998) Efficient Error-correcting Viter-
bi Parsing, PAMI(20), No. 10, pp. 1109-1116,
[Banks 1990]- Banks, S. (1990) Signal Processing, Image Processing and Pattern Re-
cognition. Prentice Hall.
[Barrero 1991] - Barrero, A. Unranked tree languages. Pattern Recognition, Vol. 24, No.
1, pp. 9-18, (1991).
[Chi e Geman 1998] - Chi, Z. e Geman, S. (1998). Estimation of probabilistic context-free
grammars, Computational Linguistics Vol. 24, No. 2, pp. 299-305.
[Chrnaiak 1997] - Chrnaiak, E (1997).. Statistical parsing with a context-free grammar
and word statistics. Proceedings of the Fourteenth National Conference on Artificial
Intelligence, pp. 598-603.
[de La Higuera 2005] - de La Higuera, C. (2005). A bibliographical study of grammatical
inference, Pattern Recognition, Vol. 38, pp. 1332-1348,
[de Mauro et al. 2003] - de Mauro, C. , Diligenti, M., Gori, M., Maggini, M. (2003). Simi-
larity lernaing for graph-based image representations, Pattern Recognition Letter 24,
pp. 1115-1122.
[Flasinski 1993] - Flasinski, M. (1993). On the parsing of deterministic graph languages
for syntactic pattern recognition, Pattern Recognition 26, pp. 1-16.
[Fu 1982] - Fu, K. S. (1982). Syntactic Pattern Recognition and Applications, Prentice-
Hall, Inc., Englewood Cliffs.
[Hava e Arridge 1999] - Hava, L. Arridge, S.R. (1999). A survey of hierarchical non-linear
medical image registration, Pattern Recognition, Vol. 32, No. 1, pp. 129-149.
[Hong e Yang 2005] -Hong, A. W-C.Y. e Yang, M. (2005). Pattern recognition techniques
for the emerging field of bioinformatics: A review. Pattern Recognition, Vol. 38, N. 11,
pp. 2055-2073.

329
Souza Pio, Santos de Oliveira, Albuquerque de Arajo e Oliveira

[Hopcroff et al. 2000] - Hopcroff, J.E., Montwani, R., Ullman, J.D. (2000). Introduction to
Automata Theory, Languages, and Computation. Addison Wesley, 2a. ed.
[Jurek 2000] - Jurek, J. (2000). On the linear computational complexity of the parser for
quasi-context sensitive languages, PRL(21), No. 2, pp. 179-187.
[Lee et al. 1992] - Lee, K.H., Eom, K. B. e Kashyap, R.L. (1992). Character recognition
based on attribute-dependent programmed grammar, IEEE Trans. PAMI-14, pp. 1122-
1128.
[Lei et al. 2004] - Lei, H., Chia, Y. H., Everding, B. e G. W., William (2004). Graph ma-
tching for object recognition and recovery. Pattern Recognition, Vol. 37, No. 7, pp. 1557-
1560.
[Mali e Mitra 2003] -Mali, K., Mitra, S. (2003). Clustering and its validation in a symbolic
framework, Pattern Recognitio Letters Vol. 24, No. 14, pp. 2367-2376.
[Ogiela e Tadeusiewicz 2003] - Ogiela, M. R. e Tadeusiewicz, R. (2003). Artificial in-
telligence structural imaging techniques in visual pattern analysis and medical data
understanding. Pattern Recognition, Vol. 36, No. 10, pp. 2441-2452.
[Oommen e Kashyap 1998] - Oommen, B.J., Kashyap, R.L. A Formal Theory for Optimal
and Information Theoretic Syntactic Pattern Recognition, Pattern Recognition Vol. 31,
No. 8, pp. 1159-1177, (1998).
[Parizeau e Plamondou 1992] - Parizeau, M. e Plamondon, R. (1992). Fuzzy-shape gram-
mars for cursive script recognition, Advances in Structural and Syntactic Pattern Re-
cognition, H. Bunke, ed., World Scientific.
[Peng et al. 1990] - Peng, K.J., Yamamoto, T. e Aoki, Y. (1990). A New Parsing Scheme for
Plex Grammars, Pattern Recognition, 23, pp. 393-402.
[Sakakibara et al. 1994] - Sakakibara, Y., Brown, Hughey, M. R., Mian I. S., Sjolander,
K., R. (1994). Stochastic Conntext-free Grammars for RNA Modeling. Nucleic Acids
Research, vol. 22, pp 5112-5120.
[Sanfeliu et al. 2002] - Sanfeliu, A., Alquzar, R., Andrade, J., Climent, J., Serratosa, F.,
Vergs, J. (2002). Graph-based representations and techniques for image processing
and image analysis, Pattern Recognition, No. 3, pp. 639-650,
[Schalkoff, 1992] - Schalkoff, R. (1992). Patter Recognition Statistical, Structural and
Neural Approachs, John Willey & Sons.
[Sonka 1992] - Sonka, M., Hlavac, V. e Boyle, R. (1992). Image Processing, Analysis and
Machine Vision. Chapman & Hall.
[Tanaka 1995] - Tanaka, E. (1995). Theorical Aspects of Sintactic Pattern Recognition,
Pattern Recognition, No. 7, pp. 1053-1061.
[Todesco 1995] - Todesco, J. L. (1995). Reconhecimento de Padres Usando Rede Neu-
ral Artificial com Funo de Base Radial: Uma Aplicao na Classificao de Cro-
mossomos Humanos. Tese de Doutorado, Universidade Federal de Santa Catarina,
Programa de Ps-Graduao em Engenharia da Produo.
[Trytten e Tucerya 1995] - Trytten, D. A. e Tucerya, M. (1995). The construction of labeled
line drawings from intensity images. Pattern Recognition, Vol. 28, pp. 171-198.
[Vieira 2006] - Vieira, J. N. (2006). Introduo aos Fundamentos da Computao Lin-
guagens e Mquinas. Thomson.
[Zhao 1990] - Zhao, M. (1990). Two-dimensional extended attribute grammar method for
the recognition of hand-printed Chinese characters, Pattern Recognition. 23, pp. 658-
695.

330

Vous aimerez peut-être aussi