Vous êtes sur la page 1sur 28

PONTIFCIA UNIVERSIDADE CATLICA DE CAMPINAS

CURSO DE MESTRADO EM SISTEMAS DE COMPUTAO






MATRIA DE SISTEMAS INTELIGENTES
PROF.DR.JOO LUS GARCIA ROSA





PROCESSAMENTO DE LINGUAGEM NATURAL (PLN)








ALUNO: Marvin Oliver Schneider






CAMPINAS
2001

I

1. INTRODUCAO....................................................................................................................................... 1
2. RECONHECIMENTO DE VOZ........................................................................................................... 1
2.1. INTRODUO......................................................................................................................................... 1
2.2. OBJETIVO.............................................................................................................................................. 2
2.3. DISCIPLINAS ENVOLVIDAS .................................................................................................................... 2
2.4. HISTRICO ............................................................................................................................................ 2
2.5. SISTEMAS ATUAIS ................................................................................................................................. 3
2.5.1. Sistemos oe Joz Discreto ............................................................................................................ 3
2.5.2. Sistemos oe Joz Cont|nuo........................................................................................................... 3
2.6. PROBLEMAS CONHECIDOS..................................................................................................................... 3
2.7. TECNOLOGIAS ....................................................................................................................................... 4
2.7.1. Comporoco oe Poores............................................................................................................. !
2.7.2. Hiooen Morkov ........................................................................................................................... 5
2.7.3. Reoe Neurol ................................................................................................................................ 5
2.8. VISES PARA O FUTURO ........................................................................................................................ 6
3. RECONHECIMENTO DE ESCRITA.................................................................................................. 6
3.1. INTRODUO......................................................................................................................................... 6
3.2. OBJETIVO.............................................................................................................................................. 6
3.3. PRODUTOS E TECNOLOGIA .................................................................................................................... 6
3.4. APLICAO DE REDES NEURAIS............................................................................................................ 7
4. PRODUCAO DE VOZ A PARTIR DE TEXTO.................................................................................. 8
4.1. OBJETIVOS E PRODUTOS........................................................................................................................ 8
4.2. APLICAO DE REDES NEURAIS............................................................................................................ 8
5. ANLISE DE TEXTO............................................................................................................................ 8
5.1. CONSIDERAES GERAIS ...................................................................................................................... 8
5.2. PROCESSO TRADICIONAL ...................................................................................................................... 8
5.2.1. Anolise Lexico............................................................................................................................. 8
5.2.2. Anolise Sintotico ....................................................................................................................... 10
5.2.3. Anolise Semntico..................................................................................................................... 10
5.3. UTILIZAO DE REDE NEURAIS .......................................................................................................... 11
5.3.1. Utilizoco oe Reoes Feeoforworo............................................................................................. 11
5.3.2. Utilizoco oe Reoe Recorrentes ................................................................................................ 11
5.3.3. Experincio com Reoes Recorrentes......................................................................................... 13

II
5.3.!. Microfeoture Representotion .................................................................................................... 1!
5.4. APLICAES........................................................................................................................................ 14
5.!.1. Correco e resumos oe textos ................................................................................................... 1!
5.!.2. 1rooutores outomoticos ............................................................................................................ 15
5.!.3. Compilooores............................................................................................................................ 15
6. PROJETO DE PROGRAMACAO...................................................................................................... 15
6.1. INFORMAES GERAIS........................................................................................................................ 15
6.2. LIMITAES E CARACTERSTICAS ....................................................................................................... 15
6.3. SCREENSHOTS E UTILIZAO DO SISTEMA.......................................................................................... 16
7. CONCLUSAO....................................................................................................................................... 22
8. BIBLIOGRAFIA................................................................................................................................... 22
9. OBRAS CONSULTADAS.................................................................................................................... 24

Processamento de Linguagem Natural (PLN)


Pgina 1

1. INTRODUO
Seres humanos conversam utilizando uma lngua e isso desde os primeiros
homo sapiens na face da terra. A lngua falada um meio bastante rico de
comunicao. Ele no apenas proporciona o fornecimento de informaes, mas
tambm pode expressar sentimentos e at dar um sentido contrrio ao bvio,
utilizando a entonao. [Jung, 1999] [Rosa4, 1995]
A escrita no tem uma histria to longa possvel observar suas razes no
antigo Egito. Naquela poca usavam-se smbolos para palavras e quem sabia
escrever j tinha um bom lugar reservado na sociedade.
No incio do sculo passado os computadores pessoais surgiram. Ento ns nos
comunicvamos com eles atravs de um teclado uma forma bastante artificial e
complicada. Outros meios como mouse, touch-screen etc. j foram desenvolvidos,
porm, estes meios no revolucionaram a maneira de acesso.
Neste ambiente poucos anos atrs surgiram os primeiros produtos de
reconhecimento de voz, escrita etc. At hoje muitas pessoas no acreditam que
essas ferramentas realmente possam substituir a maneira normal de operar um
microcomputador, provavelmente porque as implementaes atuais tm falhas
grandes e se assume que uma certa inteligncia humana necessria.
Exatamente isto o ponto de partida para a utilizao de uma nova tecnologia
dentro Processamento de Linguagens Naturais: Redes Neurais.
2. RECONHECIMENTO DE VOZ
2.1. Introduo
H algum tempo o reconhecimento de lngua tem sido um assunto de fico
cientfica. Assim foi normal para o Sr. Spok de Jornada nas Estrelas dar comandos
para o computador em voz alta. O legendrio computador HAL em Odissia no
Espao at conseguia ler os lbios. At hoje as pesquisas no chegaram neste
Processamento de Linguagem Natural (PLN)


Pgina 2
ponto, mas muito se evoluiu nos ltimos anos no desenvolvimento de aplicaes
de reconhecimento de lngua [linguatec, 2001] [Wood, 2000].
2.2. Objetivo
Os sistemas existentes so utilizados por exemplo como digitadores automticos
que reconhecem as palavras sendo faladas por determinada pessoa ou como
sistemas de controle que executam uma certa ao a partir de comandos de voz.
[Wood, 2000]
Uma outra aplicao interessante o uso para o reconhecimento de uma pessoa
em sistemas de segurana. [Barton, 1997]
2.3. DiscipIinas EnvoIvidas
A tarefa de reconhecimento de voz no apenas requer um bom conhecimento
computacional, mas envolve tambm as disciplinas Fontica, Lingstica,
Reconhecimento de Padres e Inteligncia Artificial em geral. [linguatec, 2001]
2.4. Histrico
Desde os anos 1960 se fez pesquisas na rea de reconhecimento de voz. Porm,
at os anos 1980 apenas foram implantados sistemas capazes de reconhecer no
mximo 100 palavras distintas.
1984 um sistema foi introduzido pela IBM capaz de tratar 5000 palavras o
processo de clculo, entretanto, levava sempre vrios minutos.
Em 1986 ento foi desenvolvido o prottipo Tangora 4 para a lngua inglesa o
nome foi escolhido em homenagem ao campeo mundial em datilografia, Alberto
Tangora. O sistema trabalhava em tempo real utilizando Trigramas para o controle
de contexto.
Em 1988 o sistema Tangora foi projetado para a lngua alem e quando
apresentado no CeBit em Hannover, fez-se necessrio a utilizao de uma sala
especial em completo silncio.
Processamento de Linguagem Natural (PLN)


Pgina 3
Utilizando a tecnologia de Tangora a IBM lanou em 1993 o Personal Dictation
System com um preo mais acessvel (aproximadamente R$1000,00) e a
possibilidade de rodar em computadores pessoais.
Desde ento vrios sistemas surgiram, cada vez mais perfeitos. Ainda no se
chegou a um sistema realmente 100% confivel. Justamente nesse caso o uso de
redes neurais pode significar um avano tecnolgico muito grande, talvez o
avano que esteja faltando para criar programas realmente poderosos. [linguatec,
2001]
2.5. Sistemas Atuais
Os sistemas atuais se dividem em sistemas de reconhecimento de voz discreta e
voz contnua.
2.5.1. Sistemas de Voz Discreta
Os sistemas de reconhecimento de voz discreta so sistemas que requerem que o
usurio fale cada palavra separada. Isto traz uma necessidade muito menor de
clculos, porm, completamente impraticvel para sistemas de ditado. Se utiliza
estes programa principalmente para fornecer comandos distintos para um
computador como em Telebanking, mas tambm para por exemplo o controle de
jogos. [linguatec, 2001]
2.5.2. Sistemas de Voz Contnua
Utilizados como uma forma de secretria automtica os sistemas de Voz Contnua
tm tarefas muito mais complicadas para resolver, pois a separao das palavras
em uma frase contnua requer bem mais recursos e solues tecnologicas
inteligentes. [linguatec, 2001]
2.6. ProbIemas Conhecidos
Encontram-se vrios problemas nesse caso:
Uma palavra pode ser falada de maneira mais curta ou mais extensa
dependendo do momento, da pessoa, do microfone etc.
Processamento de Linguagem Natural (PLN)


Pgina 4
Quem fala pode engolir silabas, vogais etc. (imagine um portugus, por
exemplo)
O sentido pode estar altamente ambguo (O mais/mas em Mais feijo
bom.). Isto se chama de homfonos e um problema grande para programas
computacionais.
muito difcil de distinguir certas palavras para um sistema que desconhece o
contexto em si: Um sistema automtico nunca iria entender as frases faladas
em uma Cocktail-Party com msica alta o homem enquanto isso entende o
contexto e pode mesmo nessa situao interpretar um significado.
Lnguas diferentes tm problemas diferentes e um vocabulrio ativo bem
diferente: Na lngua inglesa se utiliza apenas cerca de 800 palavras enquanto a
lngua alem possui em volta de 4000 palavras no vocabulrio ativo excludos
os poetas, que usam bem mais.
O sistema precisa de um conhecimento extra para criar escrita minscula e
maiscula problemtico especialmente em alemo, onde os substantivos
todos so escritos com letra maiscula.
O nmero de informaes disponveis se multiplica com uma grande
velocidade. Sendo assim os sistemas devem estar em contnuo
desenvolvimento. [linguatec, 2001] [Richter, 2001]
2.7. TecnoIogias
Sendo que o foco deste artigo so Redes Neurais aplicadas no Processamento de
Linguagem Natural, as outras tecnologias sero tratadas de uma maneira breve,
apenas para comparao.
2.7.1. Comparao de Padres
Em um sistema simples apenas se compara os padres apresentados pela fala
com palavras j salvas no sistema. Isto deve ser feito atravs de um processo no
linear. [linguatec, 2001]
Processamento de Linguagem Natural (PLN)


Pgina 5
2.7.2. Hidden Markov
Um sistema mais exato, mas levando tambm mais tempo de calculo o Hidden
Markov em qual se utiliza autmatos para modelar as probabilidades de
seqenciais de fonemas. [Barton, 1997] [Cole, 1996] [linguatec, 2001]
2.7.3. Rede NeuraI
Geralmente os sistemas de reconhecimento de voz usam Perceptrons
Mulitcamadas. O sinal cru fornecido nas entradas. Isto pode acontecer pela
decodificao da onda em sinais binrios e a alimentao da rede com os padres
ou a entrada com o padro binrio. Conforme o tamanho mximo de uma palavra
se precisa de mais neurnios de entrada. A camada escondida pode ser escolhida
livremente. Recomenda-se no empregar uma camada muito pequena para ter
mais recurso de processamento para a rede, que cria uma representao interna
da palavra com a camada escondida.
Na sada se l o sinal, que representa uma codificao da palavra. Mais palavras
reconhecidas requerem mais neurnios de sada.
Sendo assim o maior problema o uso de um nmero relativamente grande de
neurnios e sinapses o que pode tornar a aplicao da rede neural invivel nas
condies computacionais atuais. [Warth, 1997]
Porm, com sistemas mais poderosos se pode considerar a alternativa bem
interessante, pois o reconhecimento de voz requer uma forma de inteligncia
humana o qu muito bem implementado com uma rede neural. [Helbig1, 2000]
[Helbig2, 1995]

Processamento de Linguagem Natural (PLN)


Pgina 6
figura1: fonte: [linguatec, 2001]: Uma rede bem simples para o tratamento de reconhecimento de
voz.
2.8. Vises para o futuro
Mesmo no estando ainda altamente aceita a forma de ditado ou comando de voz
como forma de interao com o computador, se pode considerar tal processo
como uma seqncia natural, sendo que falar requer muito menos esforo
humano do que digitar.
Atualmente a alta taxa de erros ainda torna as solues um tanto quanto
complicadas para o uso dirio. Mas a pesquisa no pra e com mais recursos
computacionais modelos cada vez mais ambiciosos podem ser criados.

3. RECONHECIMENTO DE ESCRITA
3.1. Introduo
Em paralelo ao reconhecimento de voz se desenvolveram os sistemas de
reconhecimento de escrita.
3.2. Objetivo
Com a finalidade de reconhecer geralmente um texto de letra de forma os
sistemas utilizam algoritmos de reconhecimento de padres. Tambm j esto
sendo desenvolvidos projetos que conseguem transformar letra de mo em texto.
3.3. Produtos e TecnoIogia
Com scanners geralmente so fornecidos produtos de reconhecimento de escrita.
A qualidade dependendo do conjunto de palavras que o produto conhece
normalmente (ainda) duvidosa.
Os programas trabalham com anlises de cada caracter (comparao com
padres salvos e reconhecimento na base de uma lista de probabilidades) ou com
anlises holsticos, isto , comparando palavra por palavra. Especialmente em
Processamento de Linguagem Natural (PLN)


Pgina 7
sistemas que reconhecem letra de mo se usa esta tcnica para minimizar os
erros de reconhecimento. [Cole, 1996]
3.4. ApIicao de Redes Neurais
O seguinte projeto pode ser considerados tpico para a aplicao de redes neurais
no reconhecimento de escrita:

figura2: Uma proposta de uma rede que reconhece escrita
Se usa uma matriz para receber a entrada da rede. Mais ampla seja essa matriz,
melhor a rede reconhecer letras diferentes. Porm, o tempo de treinamento
aumenta consideravelmente.
No caso do exemplo se trata novamente de um perceptron multicamadas uma
estrutura que pode ser aplicada perfeitamente nesse caso.

Processamento de Linguagem Natural (PLN)


Pgina 8
4. PRODUO DE VOZ A PARTIR DE TEXTO
4.1. Objetivos e Produtos
Desde o incio dos anos 1980 existem vrios produtos no mercado que
conseguem gerar fala a partir de um texto escrito. Os programa que no comeo
produziam uma voz parecendo bastante mecnica e de vez em quando at
incompreensvel evoluram bastante. Atualmente existem sistemas que
conseguem ler vrias lnguas com diferentes personagens, velocidades etc. Alm
da brincadeira, estes sistemas so bastante teis para a leitura de textos para
cegos.
4.2. ApIicao de Redes Neurais
O problema pode ser bem tratado sem o uso de uma rede neural (por exemplo
com Hidden Markov).
5. ANLISE DE TEXTO
5.1. Consideraes Gerais
A rea de anlise de textos a mais complexa do Processamento de Linguagem
Natural e sua maior aplicao. Existem vrios produtos prontos no mercado, mas
a rea em si est em pleno desenvolvimento.
5.2. Processo TradicionaI
5.2.1. AnIise Lxica
5.2.1.1. Funcionamento
Um analisador lxico transforma um texto em elementos sintticos, como por
exemplo: preposies, verbos, adjetivos etc. Um certa inteligncia requerida,
pois podem existir muitas ambigidades e construes compostas.
Processamento de Linguagem Natural (PLN)


Pgina 9
Se deve definir chamadas sintagmas. Dependendo do entendimento de lxico
certas palavras podem ser tratadas de uma maneira que no corresponde muito
maneira como elas esto sendo definidas normalmente (por exemplo por meio do
tipo nome se pode representar nomes e substantivos).
Tendo lido e transformado toda frase a anlise sinttica comea. [Michel, 2000]
5.2.1.2. Realizaes Tcnicas
Todo compilador tem um analisador lxico. A gramtica pode chegar a dimenses
realmente assustadoras de complexidade dependendo da aplicao.
5.2.1.3. Anlise Top-Down
A partir de um estado inicial pode-se criar uma rvore como mostrado na figura
abaixo:

figura3: fonte [Michel, 2000]
Com isto se pode chegar a bons resultados sem o uso de uma rede neural. O
algoritmo recursivo.
Porm, em certas constelaes o mesmo sintagma pode ser analisado duas vezes
(anlise redundante). [Michel, 2000]
5.2.1.4. Anlise Bottom-Up
Na anlise bottom-up parte de uma palavra que analisada em todas suas
possibilidades. A partir da todas as palavras sero colocadas com todas suas
Processamento de Linguagem Natural (PLN)


Pgina 10
possibilidades. Novas categorias sero criadas e se acha uma soluo do
problema. [Michel, 2000]

figura4: fonte [Michel, 2000]: Exemplo do mtodo bottom-up.
5.2.2. AnIise Sinttica
5.2.2.1. Funcionamento e Objetivo
Na anlise sinttica testa se os sintagmas foram postos na seqncia correta, ou
seja, se por exemplo dois substantivos podem se seguir ou no.
5.2.2.2. Tecnologias
Existem autmatos finitos para tratar o assunto. A complexidade aumenta
consideravelmente com a quantidade da informao.
5.2.3. AnIise Semntica
5.2.3.1. Funo
Como ltimo passo a anlise semntica deve determinar se o contexto est
correto ou no. necessrio entrar no mrito de tipos de palavras e se elas
combinam.
Processamento de Linguagem Natural (PLN)


Pgina 11
5.2.3.2. Projetos
Em compiladores relativamente fcil resolver esta tarefa. Porm, para uma frase
em uma lngua distinta existem muitos dados a serem computados. O mquina
tem de entender um pouco do contexto. Isso freqentemente feito de uma
maneira simplista, tambm utilizando autmatos de estados.

5.3. UtiIizao de Rede Neurais
Foram realizados estudos para determinar, se redes neurais podem ou no ser
utilizadas para a tarefa de determinar se uma frase gramaticalmente correta ou
no. Se partiu do princpio que mesmo em situaes aparentemente
complicadas do ponto de vista computacional o falante nativo tem uma viso
ntida dos acontecimentos.
A utilizao de redes neurais principalmente interessante, pois estruturas
hierrquicas gramaticais no pode ser modeladas com estados finitos.
[Lawrence1, 1998] [Lawrence2, 1995]
5.3.1. UtiIizao de Redes Feedforward
Rede Feedforward foram includas nos estudos, porm, desde o incio se estava
convencido, que os recursos da Rede Feedforward eram insuficientes para a
resoluo do problema. Especialmente por causa da falta de memria e assim o
problema de no poder internamente montar uma gramtica. [Lawrence1, 1998]
[Lawrence2, 1995]
5.3.2. UtiIizao de Rede Recorrentes
Redes recorrentes oferecendo mais recursos foram a escolha certa para iniciar
o teste. Soube-se que Redes Recorrentes so capazes de at se comportar bem
no teste de Turing, amplamente aceito para determinar a inteligncia de um
sistema. Se deve destacar que se trata e resultados experimentais e at agora
redes neurais no so amplamente usadas para anlises de texto.
Processamento de Linguagem Natural (PLN)


Pgina 12
A maneira de organizar uma rede neural para a anlise gramatical pode ser
dividida em Sistemas Baseados em Casos, Sistemas Baseados em Regras e
Sistemas Baseados em Princpios.
Assim se define a filosofia da Rede. No caso do experimento se partiu de um
sistema Baseado em Princpios. [Rosa2, 1997] [Lawrence1, 1998] [Lawrence2,
1995]
5.3.2.1. Sistemas Baseados em Casos
Sistemas Baseados em Casos so aqueles que fazer suas concluses apenas a
partir de casos concretos. Se deve destacar que neste caso o esforo necessrio
para um treinamento satisfatrio bem mais alto. Porm, um princpio
originalmente utilizado para Redes Neurais na confiana que a rede se auto-ajuste
em qualquer situao, pois contm uma estrutura parecida com o crebro
humano.
Os Sistemas Baseados em Casos tm sua raiz na cincia cognitiva.
O trabalho mais crtico neste caso escolha de casos significativos a serem
aprendidos. [Rosa2, 1997] [Rosa3, 1996]
5.3.2.2. Sistemas Baseados em Regras
Uma regra determina claramente como certas seqncias na linguagem ocorrem.
Estas sistemas rgidas, que tendem a descrever tudo em regras, so dependentes
de uma certa linguagem e de uma construo. Mais ainda, se trata de Sistemas
unidirecionais, ou seja, uma regra no pode ser usadas para interpretao e
gerao de linguagem ao mesmo tempo. [Rosa2, 1997]
5.3.2.3. Sistemas Baseados em Princpios
Em Sistemas Baseados em Princpios se tenta chegar a regras que valem para
vrios casos, que so flexveis, e podem assim ser aplicados para vrias lnguas
ou seja, se parte do princpio que no fundo todas as lnguas tm construes em
comum.
Processamento de Linguagem Natural (PLN)


Pgina 13
O Sistemas Baseado em Princpios pode ser visto como um meio-termo entre
Sistemas Baseados em Regras e Sistemas Baseados em casos. [Rosa2, 1997]
5.3.3. Experincia com Redes Recorrentes
No experimento se utilizou um Sistema Baseado em Princpios. A partir de um
conjunto de frases foi feita uma anlise lxica anteriormente determinando tipos de
palavras e modificadores (substantivo sigular=s1, substantivo plural=s2) etc.
Com essas entradas vrias redes foram alimentadas. [Lawrence1, 1998]
[Lawrence2, 1995]
5.3.3.1. Frasconi-Gori-Soda (FGS)
O FGS uma rede feedforward com recorrncia local nos neurnios escondidos.
Ela foi submetida ao teste apenas para comparao com as outras redes. J se
suspeitava que o resultado no seria satisfatrio. [Lawrence1, 1998] [Lawrence2,
1995]
5.3.3.2. Narendra and Parthasarathy
Se trata de uma rede recorrente com conexes de feeback de cada neurnio de
sada para cada neurnio escondido.
5.3.3.3. Elman
A Rede Elman uma rede com feedback de cada neurnio escondido para todos
os neurnios escondidos.
5.3.3.4. Williams e Zisper
Na Rede Williams e Zisper todos os neurnios so conectados a todos os outros.
5.3.3.5. Procedimento
Foram passados valores reais para as redes, da maneira: no substantivo = 0.0,
substantivo classe 1 = 0.5, substantivo classe 2 = 0.7 e assim por diante.
Processamento de Linguagem Natural (PLN)


Pgina 14
Primeiramente se descobriu que a capacidade da rede dependia fortemente do
nmero de entradas. Porm, com poucas entradas a rede forada a armazenar
informao. Por isso, se escolheu poucas entradas.
Para todas as redes recorrentes se utilizou o algoritmo backpropagation through
time.
Se obteve os seguintes resultados:
A rede Elman teve o melhor aproveitamento com 99,6% no treinamento e
74,2% no teste
A rede FGS como esperado consegui apenas alcanar 67,1% na
classificao e 59% no teste
AS redes N&P e W&Z ficaram com valores intermedirios
Sendo assim se pode concluir que principalmente uma rede Elman altamente
indicada para tratar assuntos gramaticais. [Lawrence1, 1998] [Lawrence2, 1995]
5.3.4. Microfeature Representation
Uma outra abordagem interessante o uso de redes neurais para analisadores
semnticos. Isto feito atravs o uso de microfeatures, que so alimentados para
a rede. Cada palavra tem um array de bits que descrevem as caractersticas como
humano ou no, macies, sexo, volume, forma etc. Sendo assim a rede capaz de
distinguir se certas palavras cabem ou no juntos. Mais ainda, ela pode resolver
ambigidades que os mtodos atuais no so capazes de tratar to
satisfatoriamente. [Rosa1, 1997] [Rosa5, 1998] [Rosa6, 1997]
5.4. ApIicaes
5.4.1. Correo e resumos de textos
Mesmo o programa Word oferece este tipo de opo, mas os resultados vrias
vezes no so exatos. necessria a presena de um operador humano para
avaliar e se for o caso modificar o resultado.
Processamento de Linguagem Natural (PLN)


Pgina 15
5.4.2. Tradutores automticos
Tradutores automticos independentemente dos nomes sugestivos que eles tm
no tendem a fornecer ainda um texto apresentvel. Isto apenas ocorre em
estruturas quase banais e em textos tcnicos fornecida apenas uma leve idia
do que est escrito.
5.4.3. CompiIadores
Como o vocabulrio e as estruturas de um compilador so bem limitados, o
funcionamento dos analisadores quase perfeito. Compiladores existem j faz
bastante tempo como forma primitiva da anlise de linguagem natural.
6. PROJETO DE PROGRAMAO
6.1. Informaes Gerais
O programa existe em uma segunda verso otimizada. A seguinte rede est sendo
utilizada para o processamento sinttico das frases.

figura5: A rede utilizada no projeto
Foi utilizado o sistema Turbo Pascal 7.0 para a programao.
6.2. Limitaes e Caractersticas
Processamento de Linguagem Natural (PLN)


Pgina 16
Pela rede o programa est limitado em frases de 6 palavras no mximo. Antes do
fornecimento dos dados para a rede uma anlise lxica simples est sendo feita.
Em caso de dvidas de reconhecimento o lxico pergunta para o usurio. As
palavras reconhecidas so no mximo 150. Elas esto sendo lidas de disco e
armazenados em um array esttico.
Para o treinamento da rede encontram-se 20 frases em disco. Isto tambm o
nmero mximo que a rede pode aprender, pois o array, onde so armazenados
os elementos tem esse nmero de posies. 10 dessas frases so corretas e 10
erradas.
A rede geralmente consegue aprender as 20 frases em 3000 a 5000 iteraes.
Se trata de um perceptron multicamada que usa o algoritmo backpropagation
como forma de aprendizagem.
6.3. Screenshots e UtiIizao do Sistema


Aps a leitura do programa de disc encontra-se o menu principal.
Esto disponveis as seguintes funes:
Processamento de Linguagem Natural (PLN)


Pgina 17
Inicializar Rede = inicializar os neurnios com 0s e as sinapses com valores
randmicos entre 0.1 e 0.1.
Mostrar Palavras Disponveis = mostrar as palavras conhecidas pelo programa
Teste Randmico da Rede = Se fornece valores aleatrios para a rede com a
finalidade de fazer um teste de funcionamento genrico com a rede. Aplicando
um certo nmero de iteraes e uma entrada esperada se pode monitorar o
progresso de aprendizagem nesse caso especfico. Com o modo debug se
pode acompanhar todos os passo tambm a utilizao do algoritmo
backpropagation.
Treinar Rede = So fornecidas 20 frases repetidamente rede com a
finalidade de que ela aprenda a estrutura sinttica. O nmero de iteraes
pode ser escolhido livremente.
Analisar Frase = Uma nica frase analisada com os valores atuais da rede.
Dump Rede = Mostra os valores da Rede na Tela
Sair = Sai imediatamente.


Processamento de Linguagem Natural (PLN)


Pgina 18
Tendo escolhido Inicializar Rede o dilogo abaixo ser mostrado como
confirmao por 2 segundos.

Um exemplo de entradas para o Lxico.

Processamento de Linguagem Natural (PLN)


Pgina 19
Aps escolher Teste Randmico se entra na tela acima. A sada desejada
(tambm valores quebrados possveis) se deve determinar. O nmero de iteraes
determina quantas vezes a rede ser alimentada com os dados. Definindo debug
com s o funcionamento ser monitorado a cada passo.

Um dump tpico da rede est sendo exibido na tela acima.
Processamento de Linguagem Natural (PLN)


Pgina 20

Aps a escolha do treinamento da rede as frase so lidas do disco. Perguntas do
analisador lxico so provveis e as informaes devem ser determinadas pelo
usurio como visto acima.

Processamento de Linguagem Natural (PLN)


Pgina 21
Tendo lido os dados de disco um output para controle est sendo exibido. Estes
valores sero efetivamente copiados na entrada da rede.

Depois de ter escolhido o nmero de iteraes o progresso ser mostrado a cada
passo.
Processamento de Linguagem Natural (PLN)


Pgina 22

Para fins de anlise de uma frase se deve entrar com uma estrutura de no mximo
6 palavras tudo escrito em letras minsculas.
7. CONCLUSO
Mesmo que a aplicao de redes neurais no Processamento de Linguagem
Natural est apenas comeando, se trata de uma rea bastante promissora para
um futuro que precisa de inteligncia humana simulada para executar tarefas que
apenas o ser humano at agora pode resolver satisfatoriamente.
8. BIBLIOGRAFIA
[Barton] Siegmund Barton et alii: Spracherkennung. http://www.fh-
friedberg.de/users/secunet/sprache/sprache.htm, 1997

[Cole] Ronald A. Cole et alii: Survey of the State of the Art in Human Language
Technology. http://cslu.cse.ogi.edu/HLTsurvey/, 1996

Processamento de Linguagem Natural (PLN)


Pgina 23
[Helbig1] Hermann Helbig, Andreas Scherer: Neuronale Netze. Fernuniversitt
Hagen, 2000

[Helbig2] Hermann Helbig et alii: Grundlagen der Knstlichen Intelligenz.
Fernuniversitt Hagen, 1995

[Jung] Doris Jung: Spracherzeugung und -wahrnehmung, trabalho no Seminrio
Reconhecimento de Lingua e Sintese. Faculdade de Informtica, FU-Berlin,
Alemanha, 1999

[Lawrence1] Steve Lawrence et alii: Natural Language Grammatical Inference with
Recurrent Neural Networks. Princeton, 1998

[Lawrence2] Steve Lawrence et alii: On the Applicability of Neural Network and
Machine Learning Technologies to Natural Language Processing. Princeton, 1995

[Linguatec] linguatec Sprachtechnologien GmbH: Grundlagen der
Spracherkennung. http://www.spracherkennung.de/service/sebuch.htm, 2001

[Michel] Michel Gagnon: Processamento da Linguagem Natural.
http://www.inf.ufpr.br/~michel/Disciplinas/Bac/IA/PLN/pln.html, 2000

[Richter] Nicolai Richter: Spracherkennung - Informationen, Teste und Produkte.
http://www.diktatstarten.de/, 2001

[Rosa1] Joo Lus Garcia Rosa: A Thematic Connectionist Approach to
Portuguese Language Processing. Proceedings of the IASTED International
Conference ARTIFICIAL INTELLIGENCE AND SOFT COMPUTING, Banff,
Canada, 1997

Processamento de Linguagem Natural (PLN)


Pgina 24
[Rosa2] Joo Lus Garcia Rosa: Abordagens ao Processamento Simblico da
Linguagem Natural. Revista do Instituto de Informtica da PUC-Campinas,
Campinas, 1997

[Rosa3] Joo Lus Garcia Rosa: Computao, Linguagem e Cincia da Cognio.
Revista do Instituto de Informtica da PUC-Campinas, Campinas, 1996

[Rosa4] Joo Lus Garcia Rosa: O Processamento da Linguagem Natural.
Caderno de Informtica do jornal Dirio de Povo de Campinas, 1995

[Rosa5] Joo Lus Garcia Rosa: O Significado da Palavra para o Processamento
de Linguagem Natural. Anais dos Seminrios do GEL, So Jos do Rio Preto,
1998

[Rosa6] Joo Lus Garcia Rosa: Parser: Um Analisador Sinttico e Semntico para
Sentenas do Portugus. Anais de Seminrios do GEL, Campinas, 1997

[Warth] Dora Warth: Knstliche Intelligenz: Spracherkennung und
Sprachverstehen. http://www.fask.uni-mainz.de/user/warth/Ki.html, 1997

[Wood] Leslie Wood: Intro to Voice Recognition Software.
http://www.weeno.com/art/1099/183.html, 2000
9. OBRAS CONSULTADAS
Center for Spoken Language Understanding: Voice conversion.
http://cslu.cse.ogi.edu/demos/ttsdemos.htm, 2001

Christopher Moore: Dynamic Recognizers, Real-time Language Recognition by
Analog Computers. Santa Fe Institute, 1997

Processamento de Linguagem Natural (PLN)


Pgina 25
Joo Lus Garcia Rosa: Um Sistema Hbrido Simblico-Conexionista Para o
Processamento de Papis Temticos. Instituto de Estudos da Linguagem,
Unicamp, Campinas, 1999

Joo Lus Garcia Rosa: Learning thematic relations from semantically sound
sentences. Proceedings of the 2001 IEEE International Conference on Systems,
Man and Cybernetics, Tucson-Arizona, Estados Unidos, 2001

Joo Lus Garcia Rosa, Mrcio Luiz de Andrade Netto: Lgica e Conexionismo em
Processamento de Linguagem Natural. Anais da 2
a
. Jornada USP SUCESU-SP
de Informtica e Telecomunicaes, So Paulo, 1994

Matthias Wolf: Spracherkennung. http://www-wv.informatik.uni-erlangen.de/fg-
wv/Jahresberichte/1998/node3.html, 1999

Ravi Ganesan: Statistical Techniques for Language Recognition: An Introduction
and Guide for Cryptanalysts. http://citeseer.nj.nec.com/ravi93statistical.html, 1993

Vous aimerez peut-être aussi