Académique Documents
Professionnel Documents
Culture Documents
2
Este trabalho pretende mostrar que os autmatos adaptativos tambm podem ser utilizados para
no apenas representar as informaes, como tambm para o procedimento da anlise sinttica de
linguagem natural. Os autmatos adaptativos foram criados para solucionar, principalmente, algumas
deficincias existentes no projeto de reconhecedores sintticos de linguagens de programao.
Os Autmatos Adaptativos surgiram a partir, entre outras, da necessidade de eliminar alguns
desvios conceituais existentes na maioria dos compiladores de linguagens de programao dirigidos por
sintaxe. Problemas como o de dependncia de contexto, estruturas de blocos e escopo das variveis,
tratamento de macros, consistncia de uso dos tipos das variveis, entre outros, deveriam ser considerados
no nvel sinttico e no no semntico.
Como tais compiladores se baseiam em mquina de estados e pilhas, surgiu ento o conceito de
Autmato Adaptativo [Jos-94]. O Autmato Adaptativo um modelo de mquina de estados que se
caracteriza por sua adaptabilidade, isto , sua capacidade de se auto-modificar medida que vai
reconhecendo a cadeia de entrada. Essa caracterstica dinmica o torna capaz de reconhecer linguagens
sensveis ao contexto, podendo tratar os problemas acima mencionados no nvel sinttico, como
desejado.
Como os autmatos adaptativos podem potencialmente apresentar poder computacional
equivalente ao da mquina de Turing [Iwai-00], podendo, portanto, representar linguagens de qualquer
complexidade, intuitivamente, eles tambm podem ser empregados no processamento de linguagem
natural.
1.1. Objetivo e motivao
O objetivo deste trabalho verificar a viabilidade de os autmatos adaptativos serem utilizados
como analisadores sintticos e modelos de representao de informaes no processamento de linguagem
natural.
Este trabalho tem, como principal motivao, mostrar a viabilidade prtica da utilizao do
autmato adaptativo na rea de linguagens naturais, especificamente no que tange fase da anlise
sinttica, visto que tal formalismo capaz de reconhecer e representar linguagens sensveis ao contexto.
2. Conceitos
O tratamento sinttico uma das etapas do processamento da linguagem natural, destinada a
levantar a estrutura do relacionamento entre as partes da sentena, bem como classific-las. A anlise
sinttica prvia pode reduzir consideravelmente a complexidade global do sistema [Rich-93].
Para representar e analisar sintaticamente a linguagem natural, diversos formalismos foram criados
ao longo das ltimas dcadas. Os formalismos existentes de representao de linguagem baseiam-se, ou
na gramtica da linguagem, atravs da qual possvel gerar sentenas vlidas da linguagem em questo,
ou em dispositivos reconhecedores da linguagem, chamados de mquinas de estados ou autmatos, que
contm o conjunto de regras de aceitao de cadeias dessa linguagem, verificando assim, se uma
determinada cadeia de smbolos ou no uma sentena vlida.
Descreve-se, sucintamente, a seguir, os formalismos utilizados neste trabalho: Augmented
Transition Network (ATN), Gramtica de Estrutura de Frase Generalizada (GPSG) e os Autmatos
Adaptativos.
2.1. Augmented Transition Network (ATN)
O formalismo Aumented Transition Network (ATN) [Woods-70] [Bates-78] foi desenvolvido a
partir do modelo de Redes de Transio Recursivas, estendendo-se sua funcionalidade para melhor
representar e analisar a linguagem natural.
Em uma ATN, cada arco pode estar associado a uma condio, que deve ser satisfeita para que o
arco seja transitado, e a um conjunto de aes de construo de estrutura que ser executado caso o arco
seja transitado.
Um modelo ATN consiste num conjunto de redes ATN, tendo cada rede um rtulo diferente. A
definio formal de uma rede ATN pode ser encontrada em [Bates-78].
A seguir, um exemplo de ATN, para a lngua portuguesa, especificado segundo uma linguagem
utilizada para representar uma rede ATN [Bates-78] [Woods-70]:
((S/
(PUSH SS/ T
(SETR SUJ *)
(SETR TIPO DCL)
(TO Q1))
(CAT AUX T
(SETR AUX *)
(SETR TIPO Q)
(TO Q2)))
(Q1
(CAT V T
(SETR AUX NIL)
3
(SETR V *)
(TO Q4))
(CAT AUX T
(SETR AUX *)
(TO Q3)))
(Q2
(PUSH SS/ T
(SETR SUJ *)
(TO Q3)))
(Q3
(CAT V T
(SETR V *)
(TO Q4)))
(Q4
(POP (BUILD (S +++ (SV +)) TIPO SUJ AUX V) T)
(PUSH SS/ T
(SETR SV (BUILD (SV (V +) *) V))
(TO Q5)))
(Q5
(POP (BUILD (S ++++) TIPO SUJ AUX SV) T)))
Q1
AUX
Q2
AUX
SS
Q3
Q4
SS
Q5
sendo que SS quer dizer sintagma substantivo, AUX o verbo auxiliar e V o verbo.
Aps o reconhecimento da sentena O gato come o rato, os registradores conteriam os seguintes
valores:
TIPO
SUJ
V
DCL
O gato
come
DCL
(SS
O gato)
(SV
come o rato)))
O formalismo ATN prov, dessa forma, os mecanismos importantes para a anlise sinttica da
linguagem natural: construo da rvore sinttica durante o reconhecimento da sentena, imposio de
condies para que se aplique a transio e o tratamento de dependncia de contexto.
2.2. Gramtica de Estrutura de Frase Generalizada (GPSG)
A Gramtica de Estrutura de Frase Generalizada foi formalmente especificada em 1985, por
Gerald Gazdar, Ewan Klein, Geoffrey Pullum e Ivan Sag [Gazdar et al.-85]. Foi desenvolvido na tentativa
de se obter um sistema que, apesar de ser formalmente restritivo, pudesse lidar com vrios tipos de
fenmenos sintticos e semnticos do processamento da linguagem natural. Atravs da GPSG, por
exemplo, pode-se tratar o caso de dependncias irrestritas sem a necessidade de efetuar transformaes de
estruturas. Esse formalismo utilizado neste trabalho, por j existir publicada uma especificao da
lngua portuguesa em GPSG [Chin-96].
Na GPSG, as estruturas de caractersticas so bastante restritas. Elas so denominadas categorias,
sendo que cada uma delas representa um conjunto de especificaes caracterstica-valor.
Na GPSG, existem vrios tipos de regras [Gazdar et al.-85]:
regras ID (immediate dominance) so semelhantes s da gramtica livre de contexto, embora no
especifiquem a ordem entre os vrios constituintes. A regra ID do tipo C0 C1, C2, ..., Cn, sendo
C0 a categoria-me, que tem o domnio imediato sobre as categorias-filhas C1, C2, ... Cn. .
regras LP (linear precedence) especificam a ordem linear de todos os constituintes que aparecem
nas regras ID. A regra LP do tipo Ci < Cj < < Cy, sendo que o smbolo < indica a relao de
precedncia entre os termos relacionados.
meta-regras regras que definem novas regras, baseadas em regras ID existentes, e so utilizadas
para expressar relaes entre estruturas, como por exemplo, entre a voz ativa e a passiva.
regras de especificao de defaults (FSD) definem os valores que certas caractersticas devem
assumir quando no so especificados atravs de alguma regra.
A GPSG tambm define algumas restries:
restries sobre a simultaneidade de ocorrncia de caractersticas (FCR) determinam a
simultaneidade de ocorrncia de caractersticas.
Existem trs classes de caractersticas: HEAD ou nucleares, FOOT ou no-nucleares, e de
CONTROLE. Maiores detalhes sobre essas classes podem ser encontrados em [Gazdar et al.-85].
4
Diz-se que uma regra ID C0 C1, ... , Cn admite uma rvore local se e somente se a raiz dessa
rvore tiver domnio imediato sobre os ns filhos, e se cada um dos ns filhos for uma extenso de cada
uma das categorias filhas da regra. As caractersticas que esto presentes nas categorias da rvore podem
ser herdadas ou instanciadas. As herdadas so aquelas determinadas pela prpria regra ID. As
instanciadas so as caractersticas presentes na rvore, porm no na regra. A regra ID, por si s,
bastante permissiva, admitindo por exemplo, uma rvore em que os sintagmas no tivessem
concordncia. Para resolver problemas como esse, a GPSG determina que a rvore tambm deve
satisfazer a determinados princpios de instanciao de caractersticas:
HFC (Head Feature Convention) conveno das caractersticas nucleares exige que as
caractersticas nucleares da categoria-me sejam idnticas s caractersticas nucleares da categoriafilha nuclear, desde que no seja uma das caractersticas nucleares da categoria-me j impostas
pela regra ID ou por FCR.
CAP (Control Agreement Principle) princpio de controle de concordncia na GPSG, a
concordncia analisada como funo, que define o alvo e o controlador da concordncia. A
categoria que corresponde ao alvo da concordncia deve ter a caracterstica de controle AGR, cujo
valor a categoria controladora e as especificaes de concordncia que ela deve ter. O princpio
CAP fora a identidade entre as caractersticas de um controlador e do controlado, para que haja
concordncia sinttica entre eles.
FFP (Foot Feature Principle) princpio de caractersticas no-nucleares estabelece que as
caractersticas do grupo FOOT instanciadas na categoria-me sejam iguais unificao das
caractersticas FOOT instanciadas nas categorias-filhas. Dessa forma, as caractersticas nonucleares das categorias-filhas podem ser passadas para a categoria-me. Assim, fenmenos como
as dependncias de longa distncia e a formao de clusulas relativas, com os quais as
caractersticas FOOT esto relacionadas, podem ser devidamente tratados.
As diversas regras e princpios de uma gramtica GPSG devem ser satisfeitas por uma rvore de
estrutura de frase, que um conjunto das diversas rvores locais admitidas e correspondentes a cada uma
das regras, que tambm satisfazem todos os princpios de instanciao de caractersticas.
2.3. Autmatos Adaptativos
O Autmato Adaptativo consta de uma mquina de estados que se utiliza de uma memria
organizada em pilha e tem caractersticas adaptveis, pois permite que a configurao da mquina seja
alterada dinamicamente, em funo das transies efetuadas pelo autmato.
Essa caracterstica dinmica os torna capazes de representar e lidar com linguagens sensveis ao
contexto. So formalismos poderosos, apresentando poder computacional equivalente ao da mquina de
Turing [Iwai-00]. Dessa maneira, podem tambm ser empregados no processamento de linguagem
natural.
Seu conceito foi formalmente introduzido em [Jos-94], e sua notao posteriormente aprimorada
[Iwai-00], fruto de uma longa pesquisa que visava buscar uma nova soluo para a automatizao da
elaborao de reconhecedores sintticos para linguagens sensveis ao contexto.
O Autmato Adaptativo tem sua estrutura baseada no autmato de pilha estruturado [Jos-94],
acrescido de aes adaptativas, que podem estar associadas s regras de transio. Dessa forma, o
autmato adaptativo ganha o poder de reconhecimento de dependncias de contexto, fenmeno cujo
tratamento no possvel no autmato de pilha estruturado.
As aes adaptativas que esto associadas s transies correspondem a chamadas de funes
adaptativas. As funes adaptativas, por sua vez, so compostas de aes adaptativas elementares
(apresentadas a seguir), declaraes de variveis e de geradores [Iwai-00], e eventuais chamadas de
funes adaptativas anteriores e posteriores execuo de suas aes adaptativas elementares.
Existem trs tipos de aes adaptativas elementares: ao de inspeo (pesquisa a regra de
transio indicada no conjunto de regras do autmato), ao de eliminao (elimina a regra de transio
indicada do conjunto de regras do autmato) e ao de insero (insere a regra de transio indicada no
conjunto de regras do autmato).
O seguinte exemplo de autmato adaptativo ilustra sua aplicao prtica no reconhecimento de
uma linguagem sensvel ao contexto.
Seja a linguagem que aceita como sentenas vlidas as expresses definidas a seguir, mas que s
permite o uso das variveis a e b se elas forem previamente declaradas.
PROG (a|b|a,b|b,a) : S2
S2 (a|b|<S2>)((+|-|*|/)(a|b|<S2>))*
Essa linguagem pode ser representada pelo autmato adaptativo ilustrado na Figura 2:
PROG
S2
A
b
B
12
<
4
>
S2
13
+
*
/
a
1
a
S2
10
B
a
A
:
14
S2
11
3
<
6
Autmato Adaptativo
Notao de estado final:
ou
POP
JUMP
X
Etiq. C
BuscaCat
X
CAT T
6
ATN
Notao de arco do tipo PUSH:
Autmato Adaptativo
T
X
PUSH T
X
O tipo de arco e sua <informao> (que depende do tipo de arco) devem ser mapeados para uma
transio do autmato adaptativo, conforme j foi descrito.
A execuo de <ao>* deve ser mapeada para uma funo correspondente ao adaptativa
posterior associada a essa transio.
Quando <teste> no for apenas T (true), a execuo de <teste> deve ser mapeada para uma funo
correspondente ao adaptativa anterior associada a essa transio. Nesse caso, devem ser inseridas
algumas transies intermedirias que preparam o autmato para prosseguir somente quando <teste> for
verdadeiro. Esse mapeamento representado atravs do diagrama a seguir:
.E
.A
.B
Antes da transio que corresponde ao arco ATN (transio 2-3 do diagrama anterior), deve ser
inserida uma transio em vazio (transio 1-2), associada a uma ao adaptativa posterior (E) que
elimina a transio 3-4, caso ela exista. Em seguida, deve ser criada a transio que corresponde ao arco
ATN propriamente dito (transio 2-3), associada a uma ao posterior (A) que corresponde execuo
de <teste>. Se teste for verdadeiro, deve inserir a transio 3-4, como prosseguimento da transio que
est sendo criada. No estado correspondente ao final da transio 3-4, deve ser criada uma transio
intermediria (transio 4-5), em vazio, associada a uma ao adaptativa posterior (B) que corresponde
execuo de <ao>.
Tanto em <teste> como em <ao>, podem existir chamadas de funes da linguagem LISP. Se
existirem, essas funes tambm devero ser mapeadas para Autmato Adaptativo. Como possvel
escrever uma rede ATN sem a utilizao de funes LISP, este trabalho concentrou-se apenas em mapear
as funes e arcos do ATN propriamente dito. Para que qualquer rede ATN que contenha funes LISP
pudesse ser mapeada para Autmato Adaptativo, o ideal seria que houvesse um interpretador LISP, cuja
implementao se baseasse em Autmato Adaptativo, isto , um interpretador LISP que utilizasse o
Autmato Adaptativo como linguagem de mquina.
Cada entrada lxica ATN tambm deve ser mapeada para um fragmento de autmato adaptativo,
de forma que o item lxico corresponda a um estado inicial, a partir do qual partam transies
correspondentes a cada uma de suas caractersticas para estados que correspondam aos respectivos
valores das caractersticas.
Por exemplo, seja a seguinte entrada lxica:
comeu
Essa entrada lxica deve ser mapeada para o seguinte fragmento de autmato:
comeu
CAT
VFORM
V
RAIZ
FIN
PESSOA
COMER
NUMERO
3
SG
7
implementada por intermdio de um autmato, palavra que representa e ao incio do fragmento do
autmato que descreve suas informaes lxicas.
Por exemplo, a sentena O gato comeu o rato. representada pela lista ligada ilustrada pela
Figura 4.
LISTA_LEX
PROX
PAL
EST
E-O
NUMERO
SG
ETIQ
CAT
O
<O>
DET
PAL
EST
PROX
E-gato
NUMERO
ETIQ
E-comeu ETIQ
NUMERO
SG
EST
PROX
SG
<gato>
<comeu>
CAT
PAL
E-rato
NUMERO
N
PAL
PROX
CAT
SG
EST
ETIQ
<rato>
CAT
N
Figura 4 - Autmato que representa a lista lxica correspondente sentena 'O gato comeu o rato.'
Nesse exemplo, percebe-se que houve o reaproveitamento da entrada lxica da palavra o, que
aparece duas vezes na sentena que est sendo representada. O incio do autmato apontado por
LISTA_LEX. A transio EST aponta para um estado E-palavra, correspondente ao estado que
contm as informaes sobre a palavra. A transio PROX aponta para a prxima entrada da lista. A
transio PAL aponta para a representao da palavra em si, a transio ETIQ aponta para o estado
que contm a representao da etiqueta da palavra (<palavra>) e as demais transies correspondem aos
valores lxicos e sintticos da palavra. Por questes de simplicidade e clareza, na Figura 4, a ilustrao do
estado N (nome) foi repetida para cada substantivo da sentena. O mesmo ocorreu para o estado SG
(singular). Mas o autmato real ter apenas um estado N e apenas um estado SG, que sero comuns a
todas as palavras que os utilizam.
As rotinas relacionadas ao mapeamento de Rede ATN para Autmato Adaptativo so descritas a
seguir, de forma sucinta. A descrio completa desses algoritmos encontra-se em [Taniwaki-01].
Rotina de mapeamento das informaes lxicas.
A rotina MapeamentoLexico processa a cadeia de entrada e cria o autmato correspondente lista
lxica, substituindo na cadeia de entrada a palavra e sua etiquetas morfolgicas pela etiqueta que
representa essa palavra.
8
A submquina BuscaCat responsvel por reconhecer a etiqueta da palavra na cadeia de entrada e
procur-la na lista lxica, inserindo na cadeia de entrada a etiqueta correspondente sua categoria lxica.
O diagrama a seguir ilustra o funcionamento da submquina BuscaCat:
BuscaCat
<EtiqPal>
<EtiqCat>
.A
Rotina da ao adaptativa de BuscaCat:
Esta rotina percorre a lista lxica procurando a etiqueta da palavra e devolve a etiqueta da
categoria correspondente e o estado ESTR_CORR (estrutura corrente) apontando para o estado
correspondente palavra que est sendo reconhecida.
Rotina de mapeamento de rede ATN para Autmato Adaptativo.
A rotina MapeamentoRedeATN-AA recebe uma rede ATN no seguinte formato:
(Nome-da-rede
(Estado1
.....
(EstadoN
(Arco1)
....
(ArcoM))
(Arco1)
....
(ArcoX)))
e cria o autmato adaptativo correspondente, mapeando devidamente cada um dos arcos ATN, e
seus respectivos testes e aes, conforme explicado anteriormente.
Rotina que prepara o autmato para a execuo de <teste>.
A rotina PreparaTeste prepara o autmato para a execuo de <teste> e cria a ao adaptativa
responsvel pela execuo de <teste>.
Rotina que trata <ao>.
A rotina TrataAo cria a ao adaptativa responsvel pela execuo de <ao>.
Rotina que trata <expresso> contida na <ao>.
A rotina TrataExpresso cria as aes adaptativas elementares que tratam <expresso> contida em
<ao> ou em <teste>. Devolve o estado RetornoExpr apontando para o estado que representa o resultado
de <expresso>.
Rotinas que tratam <teste> e <teste <tipo-do-constituinte>>.
As rotinas TrataTeste e TrataTesteTipoConstituinte criam as aes adaptativas elementares que
tratam <teste> e <teste <tipo-do-constituinte>>, respectivamente. Devolvem o estado RetornoTeste
apontando para o estado Verdadeiro ou Falso, dependendo do resultado do teste.
Como exemplo da aplicao dos algoritmos propostos, seja a seguinte Rede ATN, que define um
sintagma substantivo da gramtica da lngua portuguesa. Essa rede foi obtida adaptando-se um exemplo
de Rede ATN, que define o sintagma substantivo da gramtica da lngua inglesa, extrado de [Bates-78].
(NP/
(REGS DET NUMDET GENDET N NUM GEN PP)
(NP/
(CAT DET T
(SETR DET *)
(SETR NUMDET (GETF NUMERO))
(SETR GENDET (GETF GENERO))
(TO NP/DET))
(CAT N T
(SETR N *)
(SETR NUM (GETF NUMERO))
(SETR GEN (GETF GENERO))
(TO NP/N3)))
(NP/DET
(CAT N T
(SETR N *)
(SETR NUM (GETF NUMERO))
(SETR GEN (GETF GENERO))
(TO NP/N1)))
(NP/N1
(JUMP NP/N2 (AND
(AGREE (GETR NUMDET) (GETR NUM))
9
(AGREE (GETR GENDET) (GETR GEN))))
(NP/N2
(PUSH PP/ T (SETR PP *) (TO NP/PP1))
(POP (BUILD (+ + + +) DET NUM GEN N) T))
(NP/PP1
(PUSH PP/ T (SETR PP (APPEND PP *)) (TO NP/PP1))
(POP T (BUILD (+ + + + +) DET NUM GEN N PP)))
(NP/N3
(PUSH PP/ T (SETR PP *) (TO NP/PP2))
(POP (BUILD (+ + +) NUM GEN N) T))
(NP/PP2
(PUSH PP/ T (SETR PP (APPEND PP *)) (TO NP/PP2))
(POP T (BUILD (+ + + +) NUM GEN N PP))))
NP/
NP/DET
CAT N
NP/N1
JUMP
NP/N2
PUSH PP
NP/PP1
PUSH PP
CAT N
NP/N3
PUSH PP
NP/PP2
Submetendo-se essa rede ao algoritmo de mapeamento de Rede ATN para Autmato Adaptativo,
obtm-se o autmato adaptativo ilustrado na Figura 6, a seguir. A simulao passo a passo desse
mapeamento e a descrio completa das aes adaptativas so descritas em [Taniwaki-01].
NP/
NP/
BuscaCat
NP/DET
BuscaCat
<Etiq-N>
.B
<Etiq-DET>
e <Etiq-N>
<Etiq-DET>
.A
NP/
<Etiq-N>
NP/N1
.G
NP/N2
.J
NP/N3
PP/
NP/PP2
.L
.M
NP/PP2
E-ERRO
NP/N1
.D
NP/N2
.K
PP/
NP/DET
<Etiq-N>
.C
NP/N3
PP/
.F
NP/N1
.E
NP/PP1
NP/N1
PP/
.H
.I
NP/PP1
10
NUMERO de Nome e insere a transio do estado E-GEN para o estado correspondente
caracterstica GENERO de Nome.
Ao adaptativa C insere a transio do estado E-N para o estado correspondente ao
Nome, insere a transio do estado E-NUM para o estado correspondente caracterstica
NUMERO de Nome e insere a transio do estado E-GEN para o estado correspondente
caracterstica GENERO de Nome.
Ao adaptativa D elimina a transio de NP/N1 para NP/N1.
Ao adaptativa E testa se E-NUMDET e E-NUM apontam para o mesmo estado e se E-GEN
e E-GENDET apontam para o mesmo estado. Caso seja verdadeiro, insere a transio de
NP/N1 para NP/N1.
Aes adaptativas F, H, J e L inserem a transio de E-PP para o estado
correspondente ao sintagma preposicional.
Ao adaptativa G insere as transies de EBI para E-DET, E-NUM, E-GEN, E-N, e a
transio de ESTR_CORR para EBI.
Ao adaptativa I insere as transies de EBI para E-DET, E-NUM, E-GEN, E-N, E-PP,
e a transio de ESTR_CORR para EBI.
Ao adaptativa K insere as transies de EBI para E-NUM, E-GEN, E-N, e a
transio de ESTR_CORR para EBI.
Ao adaptativa M insere as transies de EBI para E-NUM, E-GEN, E-N, E-PP, e a
transio de ESTR_CORR para EBI.
Seja tambm a seguinte Rede ATN, que especifica um sintagma preposicional da gramtica da
lngua portuguesa. Essa rede foi obtida adaptando-se um exemplo equivalente lngua inglesa, extrado
de [Bates-78]:
(PP/
(REGS PREP NP)
(PP/
(CAT PREP T (SETR PREP *) (TO PP/PREP)))
(PP/PREP
(PUSH NP/ T (SETR NP *) (TO PP/NP)))
(PP/NP
(POP (BUILD (+ +) PREP NP) T)))
PP/
PP/
BuscaCat
<Etiq-PREP>
PP/
PP/PREP
.N
<Etiq-PREP>
E-ERRO
NP/
.O
PP/NP
.P
PP/NP
11
E-DET
E-NUM
E-GEN
E-N
E-PP
E-a
SG
FEM
E-destruio
E-PREP
E-N
E-de
E-DET
E-NUM
E-GEN
E-a
SG
FEM
E-N
E-cidade
Comprova-se, assim, que os autmatos adaptativos resultantes do mapeamento das Redes ATN
NP/ e PP/ para Autmato Adaptativo so capazes de analisar sintaticamente um sintagma substantivo e
criar uma estrutura sinttica em decorrncia dessa anlise.
Novos experimentos podem ser realizados, mapeando-se os demais sintagmas de uma sentena, e
assim, obter um analisador sinttico representado atravs de Autmato Adaptativo, capaz de reconhecer
sentenas da lngua portuguesa.
Atravs dos algoritmos aqui propostos, possvel, assim, mapear uma rede ATN para um
Autmato Adaptativo e, dessa forma, atinge-se o objetivo proposto de se verificar que o Autmato
Adaptativo pode ser usado na representao e anlise sinttica do processamento de linguagem natural.
4. Mapeamento de GPSG para Formalismo Adaptativo
O GPSG foi o formalismo escolhido para representar a classe de formalismos baseados em
restries, que correspondem aos formalismos mais empregados recentemente para representar a
linguagem natural. Apesar das suas limitaes, o GPSG foi eleito para ser utilizado no desenvolvimento
da proposta devido, principalmente, ao fato de j existir publicada uma especificao da gramtica da
lngua portuguesa nessa notao.
Assim como foi feito para o ATN e o Autmato Adaptativo, pretende-se indicar uma forma de
mapeamento da GPSG para um Formalismo Adaptativo, no caso, o Autmato Adaptativo, e, assim,
provar que qualquer especificao GPSG de uma determinada linguagem natural pode ser mapeada para
uma representao em Autmato Adaptativo. Uma vez comprovada a existncia desse mapeamento,
pode-se concluir que o Autmato Adaptativo capaz de representar a linguagem natural, medida que a
GPSG tem tal capacidade, reconhecendo a linguagem segundo as suas regras sintticas e determinando a
estrutura sinttica correspondente.
Primeiramente, cada entrada lxica GPSG deve ser mapeada para um fragmento de autmato
adaptativo, de forma que o item lxico corresponda a um estado inicial, a partir do qual partam transies
correspondentes a cada uma de suas caractersticas para estados que correspondam aos respectivos
valores das caractersticas.
Por exemplo, seja a seguinte entrada lxica:
preferiu [N-, V+, BAR 0, SUBCAT n, PAST+,
VFORM FIN, AGR NP[PER 3, PLU-]]
Essa entrada lxica deve ser mapeada para o fragmento de autmato, ilustrado na Figura 10.
Observa-se, no exemplo, que no mapeamento lxico, h o aproveitamento de estados que correspondem a
valores repetidos de caractersticas, como o caso do estado que representa o valor - e compartilhado
pelas transies N e PLU.
12
preferiu
N
V
-
BAR
+
SUBCAT
0
PAST
VFORM
AGR
FIN
NP
PLU
PER
3
Como foi explicado no mapeamento de Rede ATN para Autmato Adaptativo, utilizando-se o
analisador e etiquetador morfolgico desenvolvido em [Menezes-00], pode-se criar esses fragmentos de
autmatos correspondentes a cada item lxico conforme se l o texto gerado por esse analisador
morfolgico.
Pode-se, assim, utilizar um algoritmo semelhante ao de mapeamento lxico (Rotina
MapeamentoLexico), descrito no item anterior, para realizar o mapeamento lxico da sentena que ser
submetida ao autmato adaptativo resultante do mapeamento da especificao GPSG.
Uma regra ID X0 X1, ... , Xn (bsica ou derivada de uma meta-regra) de uma especificao
GPSG pode ser mapeada para Autmato Adaptativo da seguinte forma:
a categoria-me X0 corresponder a um autmato adaptativo, com um estado inicial q0.
cada categoria-filha Xi corresponder a duas transies desse autmato.
se Xi corresponder a um item lxico, ento ela ser mapeada para duas transies: a primeira
ser uma chamada da submquina BuscaCat e a segunda tem como estmulo a etiqueta
correspondente categoria lxica de Xi. A submquina BuscaCat a mesma que utilizada
no mapeamento de Rede ATN para Autmato Adaptativo, descrita anteriormente neste
trabalho.
X0
BuscaCat
X1
q0
q0
q1
se Xi no corresponder a um item lxico, ento ela ser mapeada para duas transies: a
primeira ser uma chamada de uma sub-mquina do autmato adaptativo que trata essa
categoria e que, em caso de sucesso, insere na cadeia de entrada uma etiqueta
correspondente categoria tratada; e a segunda transio ter como estmulo a etiqueta da
cadeia de entrada correspondente a essa categoria, desempilhando-a da cadeia de entrada.
X1
X1
X0
q0
q0
q1
X1
e0
e1
em
X1
ef
cada transio com estmulo corresponder a uma ao adaptativa posterior, que processar um
teste para verificar se realmente a transio poder ser processada. Esse teste consiste em
conferir se as caractersticas do item lxico ou da categoria so compatveis com a categoriafilha Xi correspondente. Se tais caractersticas forem compatveis, ento essa transio poder
ser processada. O processamento dessa transio representa o reconhecimento da categoria-filha
Xi pelo autmato. Para que esse trecho do algoritmo possa ser executado vrias vezes, sempre
que houver teste a ser executado, devem ser inseridas algumas transies intermedirias que
preparam o autmato para prosseguir somente quando o resultado do teste for verdadeiro. Nesse
caso, esse mapeamento representado atravs do diagrama a seguir:
X1
X0
1
.E
2
.A
3
4
.B
5
Antes da transio que corresponde categoria-filha X1, deve ser inserida uma transio em
vazio (transio 1-2), associada a uma ao adaptativa posterior (E) que elimina a transio 3-4,
caso ela exista. Em seguida, deve ser criada a transio que corresponde categoria-filha X1
propriamente dita, associada a uma ao posterior (A) que corresponde execuo do teste. Se
teste for verdadeiro, deve inserir a transio 3-4, como prosseguimento da transio que est
sendo criada. No estado correspondente ao final da transio 3-4, deve ser criada uma transio
intermediria (transio 4-5).
Cada transio com estmulo corresponder a uma ao adaptativa posterior (B), que criar um
estado correspondente categoria reconhecida e uma transio partindo desse estado para o
estado inicial do item sendo tratado. Alm disso, verificar se existe alguma caracterstica no-
13
nuclear instanciada para a categoria correspondente. Em caso afirmativo, cria uma transio, a
partir do estado correspondente a essa categoria, para o estado correspondente a essa
caracterstica. No diagrama, essa ao posterior associada ltima transio em vazio
(transio 4-5), que executada aps a verificao de que o resultado do teste verdadeiro.
Aps o reconhecimento da ltima categoria-filha Xn da regra, cria-se mais uma transio em
vazio para um estado final, cuja ao posterior consistir em:
Xn
X0
X0
q0
q1
.
qn-1
qn
.C
qf
Criar um estado que corresponda categoria X0, e criar transies entre X0 e X1, X0 e X2, e
assim sucessivamente, at X0 e Xn.
Verificar se existe concordncia sinttica entre as categorias da regra, ou seja, verificar se a
regra satisfaz o princpio CAP: para cada par de categorias-filhas Xi e Xj, tais que Xi
controla Xj, unificar as caractersticas de concordncia de Xi e Xj.
Verificar se a regra satisfaz o princpio FFP: para cada caracterstica no-nuclear instanciada
de Xi e no definida de X0, acrescentar essa caracterstica a X0, e seu valor ser a unificao
dos valores dessa caracterstica para todo Xi que tiver essa caracterstica instanciada.
Verifica se a regra satisfaz o princpio HFC: unificar cada caracterstica nuclear da
categoria-filha nuclear Xh, com as caractersticas nucleares da categoria-me X0.
A aplicao dos princpios CAP, FFP e HFC, assim como a aplicao do FSD no mapeamento
sugerido por este trabalho baseia-se no mapeamento do formalismo GPSG para o formalismo PATR,
desenvolvido em [Shieber-88].
No mapeamento sugerido neste trabalho, por questes de simplicidade, supe-se que as categoriasfilhas da regra ID devem ocorrer na ordem em que esto dispostas na regra. No difcil alterar
posteriormente o mapeamento para que aceite que as categorias-filhas ocorram em qualquer ordem.
Tambm no esto sendo consideradas, neste mapeamento, as restries FCR (restries sobre a
simultaneidade de ocorrncia de caractersticas), uma vez que possvel realizar um pr-processamento
das regras GPSG para que essas restries sejam impostas.
Haver apenas um autmato adaptativo para cada categoria-me X0, ou seja, se houver mais de
uma regra ID correspondente mesma categoria-me X0, ento todas essas regras sero mapeadas para
um nico autmato adaptativo.
So descritas sucintamente, a seguir, as diversas rotinas relacionadas ao mapeamento de uma regra
ID para autmato adaptativo. A descrio completa dos algoritmos encontra-se em [Taniwaki-01].
14
Rotina que cria a ao adaptativa posterior da transio que corresponde ao final do
reconhecimento de uma regra ID.
A rotina ReconheceRegra cria a ao adaptativa correspondente ao reconhecimento da categoriame X0. Esta ao monta a estrutura final, contendo as informaes da categoria-me X0 que est sendo
reconhecida (cria um estado correspondente categoria reconhecida e uma transio partindo desse
estado para o estado correspondente a X1, uma transio do estado correspondente a X0 para o estado
correspondente a X2, e assim por diante). Alm disso, verifica se a regra satisfaz aos princpios CAP, FFP
e HFC.
Rotinas UnifiqueConcordncia, Unifique e UnifiqueValor.
Estas rotinas realizam a unificao de caractersticas, utilizadas para a verificao dos princpios
CAP, FFP e HFC. Devolvem o estado Verdadeiro ou Falso, dependendo do resultado da unificao e, em
caso de sucesso, devolvem a unificao das caractersticas.
Mediante os algoritmos descritos, pode-se converter, assim, uma especificao GPSG para
Autmato Adaptativo.
Sejam, por exemplo, as seguintes regras ID:
(1) a.
b.
N1 H[1.0]
N1 H[1.1], P2[de]
O autmato adaptativo resultante do mapeamento dessas regras (a simulao passo a passo dos
algoritmos de mapeamento GPSG para Autmato Adaptativo encontra-se em [Taniwaki-01]):
As aes adaptativas que aparecem na Figura 11 so descritas sucintamente a seguir e sua
descrio detalhada encontra-se em [Taniwaki-01]:
N1
BuscaCat
<N>
.A
.L
<N1>
.D
<N>
10
.E
.G
13
P2
.F
14
<P2>
15
.H
.J
19
.B
.I
<N1>
.K
.C
11
12
16
17
18
20
21
22
15
A ao adaptativa F deve testar se as caractersticas de N[1.1] so vlidas, ou
seja, se o item lxico lido da cadeia de entrada tem as seguintes caractersticas e
valores: N+, V-, BAR 0, SUBCAT 1.1. Se o resultado de execuo do teste for verdadeiro,
cria a transio entre os estados 11 e 12.
A ao adaptativa G cria um estado correspondente a N[1.1] e uma transio desse
estado para o estado correspondente ao item lxico reconhecido. Se houver alguma
caracterstica no-nuclear instanciada nessa categoria, cria uma transio a partir do
estado correspondente a essa categoria para o estado correspondente a essa
caracterstica.
A ao adaptativa H elimina a transio entre os estados 16 e 17.
A ao adaptativa I deve testar se as caractersticas de P2[de] so vlidas, ou
seja, se o item reconhecido na cadeia de entrada tem as seguintes caractersticas e
valores: N-, V-, BAR 2, PFORM de. Se o resultado de execuo do teste for verdadeiro,
cria a transio entre os estados 16 e 17.
A ao adaptativa K elimina a transio entre os estados 20 e 21.
A ao adaptativa K cria um estado correspondente categoria N1, uma transio
entre esse estado e o estado correspondente a N[1.1], e uma transio entre esse estado
e o correspondente a P2[de]. Alm disso, se a regra satisfizer aos princpios CAP, FFP e
HFC, cria a transio entre os estados 20 e 21.
N2
N2
P1
P2
H1
[SUBCAT D], H2
H[3.0], N2
H1
<N1>
e0
e1
e1
e1
e1
e1
.L
.M
.O
e 2
BuscaCat
e3
.R
e3
N2
.P
e3
e4
.S
e4
.V
e 5
<N2>
.O
<Det>
.Q
<N2>
.T
<N2>
.V
e2
e2
e3
e3
e4
e4
e5
e5
e2
e4
e5
16
Ao adaptativa T testa se as caractersticas de N2 so vlidas e se forem, cria a
transio entre os estados e4 para e4.
P1
BuscaCat
r0
r1
.Y
r1
N2
r1
.W
r2
r2
.Z
.B
r 3
<PREP>
r1
.X
<N2>
.A
<P1>
.B
r1
r2
r2
r3
r3
r2
r3
P2
u0
P1
u1
.D
u1
.F
u 2
<P1>
.E
<P1>
.F
u1
u1
u2
u2
u1
u2
Como nos experimentos referentes ao mapeamento de redes ATN para Autmato Adaptativo,
submetendo-se o sintagma substantivo a destruio da cidade ao analisador e etiquetador morfolgico
de [Menezes-00], obtm-se:
a /D-F destruio /N da /P+D-F cidade/N
17
EST-N2
N2
EST-N2
N1
EST-N1
P2
EST-P2
P1
EST-P1
N2
EST-N2
N2
EST-N2
N1
DET
EST-D
DET
E-a
N0
EST-N
N0
E-destruio
P0
EST-P
DET
EST-D
P0
E-de
EST-N1
N0
EST-N
DET
E-a
N0
E-cidade
Neste exemplo, atravs da aplicao do princpio HFC, os estados EST-N1 e EST-N2 recebem
os valores [PER3, PLU- , MASC-] , referentes palavra cidade. Aplicando-se o princpio CAP,
verifica-se a concordncia entre os estados EST-D e EST-N2 (ambos apresentam-se no singular e no
gnero feminino).
Pela aplicao do princpio HFC, os estados EST-P1 e EST-P2 recebem o valor [PFORM de], o
que essencial para que se possa aplicar a regra 1b (N1 H[1.1], P2[de]).
Tambm pela aplicao do princpio HFC, os estados EST-N1 e EST-N2 recebem os valores
[PER3, PLU-, MASC-], referentes palavra destruio. Aplicando-se o princpio CAP, verifica-se a
concordncia entre os estados EST-D e EST-N2 (ambos apresentam-se no singular e no gnero
feminino).
Constata-se, assim, que os autmatos adaptativos resultantes do mapeamento das Regras GPSG 1a
a 1f so capazes de reconhecer e analisar sintaticamente um sintagma substantivo da lngua portuguesa,
criando uma estrutura sinttica em decorrncia dessa anlise.
Dessa forma, pode-se comprovar a funcionalidade dos algoritmos de mapeamento de GPSG para
Autmato Adaptativo.
Da mesma forma como se mapeou as regras 1a a 1f, pode-se mapear as demais regras da
especificao da gramtica da lngua portuguesa em GPSG, definidas em [Chin-96]. O mapeamento
completo de todas as regras resultar numa especificao da gramtica superficial da lngua portuguesa
em Autmato Adaptativo e num analisador sinttico da lngua portuguesa implementado atravs de
Autmato Adaptativo.
5. Avaliao
Pelos experimentos realizados, pode-se concluir que os Autmatos Adaptativos podem ser
empregados no processamento de linguagem natural, especificamente no que se refere representao de
informaes lingsticas e anlise sinttica.
Os algoritmos propostos mostraram-se funcionais, e os mtodos utilizados possibilitaram
demonstrar a viabilidade de utilizao prtica dos Autmatos Adaptativos na anlise sinttica da
linguagem natural.
O mapeamento do GPSG para Autmato Adaptativo foi bem menos direto do que o do ATN,
resultando em algoritmos extensos, bem como em aes adaptativas extensas.
18
Embora no se tenha registrado, neste trabalho, experimentos mais significativos, que
possibilitariam uma melhor avaliao dos resultados, pode-se dizer, de maneira geral, que o objetivo
proposto foi atingido.
5.1. Contribuies
A contribuio deste trabalho apresentar uma utilizao prtica do Autmato Adaptativo,
medida que se verifica a sua capacidade de uso como ferramenta para a representao de informaes e
anlise sinttica no processamento de linguagem natural.
Atravs do desenvolvimento deste trabalho, so apresentadas formas de mapeamento, para
Autmato Adaptativo, de duas notaes clssicas de representao de linguagem natural: as redes
Augmented Transition Network e as especificaes GPSG (Generalized Phrase Structure Grammar).
Uma contribuio importante decorrente desses experimentos a utilizao da especificao da
gramtica da lngua portuguesa em GPSG, desenvolvida em [Chin-96], o que representa a evoluo de
um trabalho lingstico e o aproveitamento de esforos j despendidos, possibilitando a gerao de
futuros trabalhos sobre o assunto, a respeito do qual pouco existe disponvel na literatura.
Atravs do desenvolvimento do mapeamento, tambm foi possvel constatar que o Autmato
Adaptativo capaz de resolver diversos problemas de linguagens complexas, tais como especificaes
incompletas e dependncias de contexto, utilizando apenas recursos sintticos.
5.2. Trabalhos Futuros
H a necessidade de ensaios, envolvendo uma implementao completa dos algoritmos propostos
neste trabalho, bem como da especificao da gramtica da lngua portuguesa, para que se possa avaliar
melhor o alcance das tcnicas apresentadas. Disso resultaria um analisador sinttico para a lngua
portuguesa, implementado atravs de Autmato Adaptativo.
Para dar continuidade a esse trabalho, o que pode ser realizado futuramente a especificao da
representao da linguagem e de um analisador sinttico atravs do Autmato Adaptativo, sem que haja
mapeamentos intermedirios de outros formalismos, sendo possvel, assim, melhor aproveitar os recursos
de adaptabilidade dos Autmatos Adaptativos.
6. Referncias
BATES, M. The Theory and Practice of Augmented Transition Network Grammars. Natural language
communication with computer. Berlim, 1978. Lecture Notes in Computer Science, 63, p. 191259.
BATES, M.; BOBROW, R.J.; WEISCHEDEL, R.M. Critical challenges for natural language processing,
p. 3-34. In BATES, M.; WEISCHEDEL, R.M. (Eds.) Challenges in Natural Language Processing
(Studies in Natural Language Processing). Cambridge University Press, 1993.
CHIN, E. Traduo por computador: dicionrio e componentes de anlise e transferncia. 1996.
330p. Tese (Doutorado) - Departamento de Lingstica da Faculdade de Filosofia, Letras e Cincias
Humanas da Universidade de So Paulo. So Paulo.
GAZDAR G.; KLEIN E.; PULLUM G.; SAG I. Generalized Phrase Structure Grammar. Cambridge:
Harvard University Press, 1985.
IWAI, M.K. Um formalismo gramatical adaptativo para linguagens dependentes de contexto. 2000.
191p. Tese (Doutorado) - Departamento de Computao e Sistemas Digitais da Escola Politcnica
da Universidade de So Paulo. So Paulo.
JOS NETO, J. Adaptive automata for context-dependent languages. ACM SIGPLAN Notices, v.29,
n.9, p.115-24, 1994.
JOS NETO, J. Adaptive rule-driven devices general formulation and case study. In: CONFERENCE
OF IMPLEMENTATIONA AND APPLICATIONS OF AUTOMATA, Pretoria, 2001. Proceedings
of the 6th conference on implementationa and applications of automata. p.158-176.
MENEZES, C.E.D. Um mtodo para a construo de analisadores morfolgicos, aplicado lngua
portuguesa, baseado em autmatos adaptativos. 2000. 117p. Dissertao (Mestrado)
Departamento de Computao e Sistemas Digitais da Escola Politcnica da Universidade de So
Paulo. So Paulo.
RICH, E.; KNIGHT, K. Inteligncia Artificial, 2. Ed. So Paulo: Makron Books, 1993.
SHIEBER, S.M. Separating Linguistic Analyses from Linguistic Theories. Natural Language Parsing
and Linguistic Theories, p. 33-68, D. Reidel Publishing Company, 1988.
TANIWAKI, C.Y.O. Formalismos adaptativos na anlise sinttica de linguagem natural. 2001.
210p. Dissertao (Mestrado) - Departamento de Computao e Sistemas Digitais da Escola
Politcnica da Universidade de So Paulo. So Paulo.
19
WOODS, W. A. Transition Network Grammars for Natural Language Analysis. Communications of
the ACM, 13, n. 10, Out. 1970, p. 591-606.