Novos Recursos Do Aelius para o Processamento Computacional Raso Do Português

Organizadores
J.
Novos recursos do Aelius para o processamento computacional raso do portugus (Leonel Figueiredo de Alencar)
2.
Ambiente web para elaborao de produtos terminolgicos: e-termos . (Gladis M. de B. Almeida, Leandro H. M. de Oliveira) 21 Proposta para um esquema de anotao da modalidade em um minicorpus oral do Portugus Brasileiro: desafios preliminares (Luciana Beatriz vila, Beliana Mello) A questo da equivalncia na anotao de corpus jurdico comframes semntico (Anderson Bertoldi) Anotao e descrio de corpus par~ a investigao de estratgias de sumarizao humana multidocumento (Renata Tironi de Camargo, Ariani Di Felippo) Ferramenta para PLN: Catlogo de verbos do PB (Mrcia Canado, Luisa Godoy, Luana Amaral) Modelagem lingustico-computacional (Bento Carlos Dias da Silva) de lxicos 89
3.
31
4.
.45
5.
57
Dados Internacionais L315d
de Catalogao-na-publicao
(CIP)
6.
73
Laporte, ric Dialogar preciso: lingustica para o processamento de lnguas Organizadores ric Laporte; Aucione Smarsaro; Oto Arajo Vale. Vitria- ES: PPGEL/UFES,2013. 268 p.: il.; 15x21cm Inclui bibliografia ISBN: 978-85-8087-104-3 I. Lingustica. L Laporte, ric. 11. Smarsaro, Auclone. Oto Arajo. IV. Ttulo.
7.
8.
Proposta de anotao semntica de verbos do portugus (Raquel Meister Ko. Freitag) Dictionaries for language processing. Readability and organization ofinformation (ric Laporte)
105
m. Vale,
9.
119
CDD 410 CDU 801
10.
Traduo automtica chins-portugus: uma anlise dos adverbiais temporais (Siyou Lu, Mrcia Schmaltz, Ana Lusa Leal) 133
lI.
Descrio sinttico-semntica de estruturas sintticas com os verbosjazer, ter e perder para processamento automtico de linguagem natural (Marlia dos Santos Mareto, Liliane Alves Santana, Keila Mara Schneider, Aucione Smarsaro) Contribuies da semntica para a definio do significado dos verbos jurdicos (Carolina Mller, Rove Chishman) Descrio do verbo cortar para processamento automtico de linguagem natural (Wagner Lcio Pacheco, ric Laporte) Reduo-beta em Prolog (Luiz Arthur Pagani) Correlaes sinttico-semnticas entre as construes com os verbos-suporte 'Dar', 'Ter' e 'Fazer' (Amanda Pontes Rassi, Claudia Dias de Barros, Maria Cristina A. dos Santos Turati) Construo verbal livre ou fixa: proposta de descrio sinttico-semntica (Aucione Smarsaro) : Recuperao de documentos, extrao de informao a partir do texto e leitura estratgica: o que esperar para breve? (Vera Lcia Strube de Lima) Possibilidades de pesquisa com a lingustica de corpus (Stella E. O. Tagnin) Utilisation des entres adverbiales du DELA issues des tables du lexique-grammaire du franais (Eisa Tolone, Stavroula Voyatzi, Claude Martineau) As opinies nas expresses e a expresso da opinio (Oto Arajo Vale)
OS RECURSOS DO AELIUS PARA O PROCESSAMENTO COMPUTACIONAL RASO DO PORTUGUS! 145

LEONEL FIGUEIREDO DE ALENCAR
(UFC) 12. 155 Resumo: A fim de tornar acessvel a estudantes e pesquisadores de Letras e Lingustica a anlise automtica de textos por meio de diversas bibliotecas livremente disponveis e como forma de iniciao na lingustica computacional, tambm por parte de alunos de engenharia e computao, iniciamos o desenvolvimento do Aelius. Esse software, implementado em Python com base no NLTK, constitui-se de ferramentas especficas para o processamento sinttico raso do portugus, complementando, desse modo, essa biblioteca, carente de recursos para essa lngua, ao mesmo tempo em que oferece uma interface ainda mais amigvel, viabilizando, desse modo, a sua utilizao por no programadores. Neste artigo, focamos os novos recursos do Aelius para a toquenizao e etiquetagem morfossinttica do portugus, comparando-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de ferramentas para o PALN que mais se aproxima do NLTK. Nessa comparao, o Aelius revelou-se uma alternativa superior no que concerne toquenizao e etiquetagem morfossinttica do portugus, no s por apresentar melhor acurcia, mas tambm por permitir anotar textos morfossintaticamente segundo estratgias diferentes de toquenizao e conforme conjuntos de etiquetas distintos, inclusive por meio de ferramentas externas, a partir de uma nica interface. Palavras-chave: Anlise sinttica rasa. Toquenizao. Etiquetagem morfossinttica automtica. Anotao de corpora lingusticos. NLTK. Python. Introduo Diferentemente do que vem ocorrendo, h vrias dcadas, em pases como a Alemanha (para citar apenas o exemplo com o qual temos mais fami259
1 Agradecemos, aos organizadores do l LiPrAL, o convite para ministrar mi'1icurso sobre a anlise sinttica automtica do portugus, a cujos participantes somos gratos pelos interessantes questionamentos e comentrios. O presente artigo aprofunda parte do contedo apresentado nesse minicurso .
13.
165 177
14.
J S.
193
16.
207
17.
I
219
18.
229
19.
I
243
lO.
.1
DIALOGAR PRECISO
NGUISTICA
PARA PROCESSAMENTO DE LINGUAS
liaridade), onde muitos departamentos ou institutos de Iingustica, implcita ou explicitamente, incluem a Iingustica computacionaF, no Brasil as reas de Computao e Lingustica, com raras excees, so relativamente estanques. Isso significa que estudantes e pesquisadores da primeira, quando trabalham com o processamento automtico da linguagem natural (doravante PALN), raramente se referem produo mais recente da ltima disciplin, relacionada, por exemplo, descrio do portugus (UPRAL, 2012). Em vez disso, mais frequentemente se limitam consulta de gramticas de cunho tradicional, cujas limitaes tm sido frequentemente expostas pelos linguistas. Alm disso, no nos parece constituir prtica comum os nossos futuros informatas e cientistas da computao frequentarem disciplinas lingusticas dos cursos de graduao em Letras, pelo menos como parte optativa do currculo. Por outro lado, aparentemente inexiste curso de graduao brasileiro em Letras ou Lingustica cuja grade curricular integre disciplinas de natureza mais informtica como Introduo Programao ou Lingustica Computacional, rea que, alis, ainda conta, entre ns, com pouqussimos representantes fora dos cursos de informtica, engenharia e correlatos. Essa situao bastante prejudicial no apenas indstria de softwares (LIPRAL, 2012), que cada vez mais precisa integrar em seus produtos tecnologias da linguagem natural, mas tambm para a prpria lingustica, que, em grande medida, deixa de contar com uma srie de ferramentas que desempenham um importante (para muitos linguistas computacionais, indispensvel) papel na formulao de descries lingusticas de maior rigor formal, mais consistentes, de mais slida fundamentao emprica ou psicolinguisticamente mais plausveis. O descompasso entre as duas reas j se reflete na baixa qualidade de um produto relativamente simples como um corretor ortogrfico. Por exemplo, o corretor ortogrfico do pacote jree/open source software (doravante FOSS) Apache OpenOffice no modela adequadamente os processos produtivos de formao de palavras do portugus, objeto da morfologia computacional que tem nos autmatos e transdutores de estados finitos a sua implementao mais difundida e mais eficiente (ALENCAR, 2012). Dessa
forma; uma derivao trivial como mensaleirinho no reconhecida como bem formada na verso atual do Apache OpenOffice3, que erroneamente a sublinha de vermelho, embora mensaleiro, a criao lexical de que deriva regularmente por meio da afixao do produtivo sufixo -inho, esteja listada no respectivo dicionrio do portugus do Brasil. Apesar desse cenrio um tanto desolador piua a lingustica computacional no Brasil, o contexto nunca antes foi to favorvel disseminao da disciplina nos nossos cursos de graduao e ps-graduao, especialmente na rea de Letras e Lingustica. Os seguintes desdobramentos viabilizam uma reverso desse quadro e a instaurao de um novo paradigma de maior insero tecnolgica dos cursos de Letras e Lingustica e de mais familiaridade com a estrutura e o funcionamento da linguagem humana por parte de informatas que pretendam atuar na rea de PALN: Maior acessibilidade a mquinas com sistema operacional do tipo UNIX, seja pela amigabilidade de distribuies do LINUX como o Ubuntu, seja pela reduo de preo de computadores com o sistema operacional Mac OS X, da Apple. Disponibilizao, cada vez maior, de ferramentas para o PALN que constituem FOSS ou so, pelo menos, gratuitas e multiplataforma e que congregam uma ampla e solidria comunidade de usurios. Difuso da linguagem Python na comunidade de lingustica de corpus, lingustica computacional e PALN, propiciando um ambiente comum e amigvel, sob a forma de dezenas de pacotes FOSS, para a execuo das mais diferentes tarefas. Os dois ltimos desenvolvimentos caracterizam-se atualmente, sobretudo, pelo Natural Language Toolkit (NLTK) (BIRD; KLEIN; LOPER, 2009), a biblioteca para a lingustica de corpus, a lingustica computacional e o PALN, implementada em Python e voltada especialmente ao ensino e aprendizagem dessas disciplinas, que , ao mesmo tempo, a mais abrangente e mais amigvel das cerca de uma dezena atualmente disponveis4. O NLTK
2 Na Universidade de Tbingen, por exemplo, o Instituto de Lingustica (Seminal'fiil' Spl'achwissenschajt) constitui-se do Departamento de Lingustica Geral e Lingustica Computacional e do Departamento de Lingustica Computacional Terica, alm de dois outros departamentos. Ver <http://www.sfs.uni-tuebingen.del>.
'1.
3 Trata-se, em dezembro de 2012, da verso 3.4.1., que utiliza o verificador ortogrfico Vero 2.1.1. URL: <http://www.broffice.org/?q=verortografico>. , 4 Consultar a URL: <http://en.wikipedia.org/wiki/List_of_ naturaUanguage yrocessing~toolkits>.
LINGUISTICA , DIALOGAR
PARA
PROCESSAMENTO
DE LINGUAS
PRECISO
dispe de ferramentas e recursos para quase todas as etapas da anlise textu-
al automtica, abarcando da toquenizao ao parsing sinttico e semntico, passando pela etiquetagem morfossinttica, o chunking, o reconhecimento de entidades nomeadas (NER, do ingls Named Entity Recognition) e a classificao de textos. Apesar das vantagens do NLTK, dois fatores ainda impedem a sua ampla utilizao no Brasil, sobretudo nos cursos de Letras e Lingustica. Em primeiro lugar, o NLTK carece de mais recursos para o processamento do portugus, que s conta no momento com dois corpora anotados que podem ser manipulados amigavelmente por meio da interface nltk.corpus: a Floresta Sint(c)tica e o MAC-Morpho. Por outro lado, inexistem nessa biblioteca modeos (language models) para a etiquetagem morfossinttica e gramticas do portugus, entre outras lacunas, como, por exemplo, a disponibilizao de toquenizadores mais precisos ou que realizem a segmentao de contraes e nclises. O outro fator que dificulta a difuso do NLTK entre estudantes e pesquisadores com pouca ou nenhuma experincia em programao que, apesar da amigabi1idade de Python, tarefas como construir um toquenizador vocabular capaz de lidar com as vrias especificidades do portugus ou treinar um etiquetador que alcance nvel de acurcia prximo ao estado da arte e aplic-lo na anotao de um corpus no so triviais, exigindo conhecimentos de programao de nvel intermedirio a avanado (ALENCAR, 2010,2011). Visando a aproximar a comunidade brasileira de Letras e Lingustica das inmeras facilidades oferecidas por Python e pelo NLTK para a anlise automtica de textos, iniciamos a implementao de dois pacotes em Python baseados, sobretudo, nessa biblioteca: o Aelius e o Donatus5. Esses nomes homenageiam o gramtico latino Ae1ius Donatus, a quem a tradio gramatical do ocidente deve a classificao das palavras em nomes, verbos, adjetivos, preposies etc. Do termo latino partes orationis derivou a unidade polilexical do ingls parts o/ speech 'partes do discurso' (abreviada como POS) e o verbo to parse 'analisar', dois dos conceitos fundamentais da lingustica computacional. O Aelius direciona-se para o processamento raso do portugus, en5 Disponveis em <http://aelius.sourceforge.net/> <http://donatus.sourceforge. net/>. e
quanto o Donatus foca o processamento sinttico profundo. Ambos objetivam no s fornecer recursos para o processamento do portugus por meio do NLTK, mas tambm simplificar a utilizao dessa biblioteca na execuo das principais tarefas da lingustica de corpus e da lingustica computacional, oferecendo, alm disso, facilidades adicionais, pelo que esperamos que venha a ser til tambm para programadores. Neste artigo apresentamos aspectos mais recentes do Aelius no cobertos em trabalhos anteriores (ALENCAR, 2010, 2011), focando duas etapas prvias fundamentais da anlise automtica de textos e anotao de corpora lingusticos: a toquenizao e a etiquetagem morfossinttica, que, ao lado do chunking, integram o que se convencionou chamar de processamento raso da linguagem natural. Caixas de ferramentas para as tarefas bsicas do PALN A faculdade da linguagem tem uma natureza modular. Dessa forma, o conhecimento de um falante a respeito de sua lngua subdividido em diferentes nveis de anlise, dependendo do tipo de unidade envolvida, constituindo as diferentes subdisciplinas da lingustica, como fonologia, morfologia, sintaxe e semntica. Uma compartimentalizao' anloga ocorre no PALN. Aplicaes complexas como tradutores automticos e sistemas de extrao de informaes a partir de textos escritos compreendem, tipicamente, mdulos para anlise em nvel lexical, sinttico e semntico, integrando uma "linha de produo" (pipeline numa traduo livre) ou fluxograma com uma das configuraes de (1) e (2), entre outras possibilidades, dependendo da aplicao e do tipJ de arquitetura adotado (BIRD; KLEIN; LOPER, 2009; JURAFSKY; MARTIN, 2009; DALE, 2010). Para a lingustica, o fluxograma (2) de especial interesse, sobretudo porque representa as diferentes etapas em q~e comumente se decompe a tarefa de compilao de um corpus semantIcamente anotado, como, por exemplo, um chamado banco de proposies (PropBank) (HAJICOV et aI., 2010). (1) pr-processamento> toquenizao > etiquetagem morfossinttica > chunking> reconhecimento de entidades nomeadas> extrao de relaes (2) pr-processamento> toquenizao > etiquetagem morfossinttica
11
10
,
DIALOGAR
PRECISO
LINGUISTICA PARA' PROCESSAMENTO DE LINGUAS
(POS tagging) > parsing sinttico profundo (ou completo) > anlise semntica Para a execuo de tarefas de anlise automtica de textos relacionadas aos diferentes componentes de (I) e (2), principalmente os mdulos iniciais, existem, como se referiu acima, em torno de uma dezena de caixas de ferramentas (toolkits) que se classificam como FOSS, alm de ferramentas especializadas para mdulos individuais. A vantagem de utilizar uma dessas caixas de ferramentas em comparao com um conjunto de programas isolados que oferecem uma interface comum para as diferentes tarefas e . viabilizam uma fcil integrao entre os diferentes tipos de anlise, permitindo que o output de um mdulo constitua input para outro sem necessidade de adaptaes. Um levantamento exaustivo das vantagens e desvantagens dessas diferentes caixas de ferramentas extrapolaria o mbito do presente artigo. Nesse cenrio, o NLTK sobressai pela atualidade, abrangncia, facilidade de uso e popularidade, em termos de nmero de usurios como de cont~ibuidores. Como alternativas ao NLTK destacamos o FreeLing (PADRO; STANILOVSKY, 2012) e o Apache OpenNLp6, por integrarem modelos do portugus. Dado que a primeira biblioteca, embora possua uma amigvel interface on-line til para etiquetagem e parsing sinttico raso de pequenos trechos, visa aos desenvolvedores e no aos usurios finais, limitamo-nos aqui a uma comparao entre o Aelius e o Apache OpenNLP. Essa ltima biblioteca possui uma interface de linha de comando acessvel para aplicao, a textos em portugus, de modelos de toquenizao sentencial, toquenizao vocabular e etiquetagem morfossinttica com base no conjunto de etiquetas do corpus Bosque (FLORESTA, 2009). A questo que se coloca sobre a qualidade desses modelos, especialmente na segmentao e anlise de textos de gneros distintos dos que constituram o corpus de treino. Esse o tema da prxima seo, em que comparamos o desempenho do Apache OpenNLP com o do Aelius nesse quesito.
I
I
Aelius versus Apache OpenNLP portugus
na toquenizao
e etiquetagem
do
I
r
I
r
I'
Em sua primeira fase, o Aelius dispunha apenas de modelos para etiquetagem morfossinttica, classificados como nativos no Quadro I abaixo, , treinados por algum dos algoritmos de aprendizagem de mquina do NLTK em uma verso modificada do Corpus Histrico do Portugus Tycho Brahe (GALVES; FARIA, 2010) (doravante CHPTB-M), conforme descrito em Alencar (2010). Em seguida, com a disponibilizao de interfaces do NLTK para o HunPos(HALCSY; KORNAI; ORAVECZ, 2007) e o StanfordTagger (TOUTANOVA et al., 2003), no s comeamos a treinar modelos para esses etiquetadores, como tambm desenvolvemos interface para o MXPOST (RATNAPARKHI, 1996), ao mesmo tempo em que procuramos diversificar os conjuntos de etiquetas utilizados pelo Aelius e os tipos de texto que capaz de etiquetar com preciso ao menos prxima do estado da arte de 96%-97% (mRAFSKY; MARTIN, 2009, p. 189). Desse modo, visando etiquetagem de textos em portugus do Brasil atual, treinamos, no HunPos, modelo baseado no MAC-Morph07 que alcanou bons resultados. O Quadro 1 mostra o estado atual da etiquetagem morfossinttica pelo Aelius8 Salvo indicao contrria, utilizou-se, como conjunto de teste para avaliar os modelos, os oitos primeiros captulos do romance Luzia-Homem, de Domingos Olmpio, publicado pela primeira vez em 1903, no Rio de Janeiro (OLMPIO, 2007). A escolha desse conjunto de teste se deve ao grande nmero de textos de literatura brasileira que constituem domnio pblico e esto disponveis na WWW, mas que ainda no integram um corpus anotado e, portanto, no podem ser adequadamente explorados no mbito de disciplinas diversas como sociolingustica, anlise literria e tradutologia. Todos os modelos, exceto o LX-Tagger (BRANCO; SILVA, 2004), disponibilizado gratuitamente, mas sob licena que impede a redistribuibde produtos derivados9, integram a distribuio do Aelius e, por isso, so classificados no Quadro 1 como internos.
7 O MAC-Morpho um corpus de textos da Folha de So Paulo do ano 1994, perfazendo, na sua verso destinada ao treino de etiquetadores, 1.221.468 palavras (LCIO -WEB, [s.d.]). ,80s textos etiquetados pelos diferentes etiquetadores bem como verses corrigidas atualizadas sero disponibilizadas no site do Aelius. 9 URL: <http://lxcenter.di.fc.ul.pt/tools/en/conteudo/LXTagger.html> .
URL: <http://opennlp.apache.orgl>.
12 13
DIJ.\LOGJ1.R PRECISO
UNGUISTICA
PARA PROCESSAMENTO DE LINGUAS
Mouelo AeliusRlIBT.pkl AelillsBRUBT.pkl AeliusHunPos AelillsMaxEnt AeliusStanfordMM* AeliusHunPosMM* LX-Tagger*
Acurcia 95,29% 95,30% 96,35% 95,81% 92,60% 97,17% 97,71%
Interno
sim
Corpus de Treino CHPTB-M CHPTB-M CHPTB-M CHPTB-M MAC-Morpho MAC-Morpho CINTIL
Arquitetura de aprendizagem mquina I linguagem nltk.TrigrammTagger / Python
de
Nativo sim sim

no no no no no
sim sim sim sim sim no
nltk.FastBrillTaggerTrainer HunPos / OCam! MXPOST / Java StanfordTagger I Java HunPos / OCaml MXPOST / Java
/ Py!hon
Quadro I: Modelos para etiquetagem morfossinttica por meio do Aelius. Os modelos assinalados com * foram avaliados com base na etiquetagem do texto Upral (2012).
IOLE 2.6.5 > import l)S > os.chdir(" ../analises") > t "lipraLedt.txt" > from Aelius import Extras, Toqueniza, AnotaCorpu$ > mm-Extras.carrega("AelusHunPosMacMorpho li) > AnotaCorpus.anota.-texto(t,mm, "hunpos" ,Toqueniza.TOK-PORT _MM,separacao_contracoes- True) Arquivo anotado: Iipral.edt.hunpos,txt . > Ix-El<tras.carrega{"lxtagger") :> AnotaCorpus.anota_tel<to( t,lx, li mxpost", Toqueniza.TOK-PORT _LX,separacao_contracoes.. True) Arquivo anotado: . Iipral.edt,mxpost.txt > s-Extras.carrega(" AeliusStanfordMM.tagger") :> notaCorpus.anota_tel<to( t,s, "stanford", Toqueniza. TOK-PORT_MM,separacao_contracoes- True) Arquivo anotado: Iipral.edt.. stanford. tl<t
>"
Para no programadores ou iniciantes em programao, a primeira vantagem do Aelius permitir etiquetar um texto conforme modelos treinados por diferentes programas, de arquiteturas distintas, implementados em diversas linguagens de programao, utilizando uma nica interface, como vemos na Figura 1 abaixo. Uma importante dificuldade, principalmente para o alunos de Letras e Lingustica, que o Aelius contorna que os principais corpora do portugus utilizam estratgias diferentes de toquenizao. Por conta disso, um etiquetador morfossinttico treinado no Corpus Histrico do Portugus Tycho Brahe, por exemplo, exige que as contraes no sejam separadas, contrariamente a um modelo treinado no MAC-Morpho. No Aelius, o usurio no precisa se preocupar em toquenizar previamente o texto, bastando, para tanto, especificar o toquenizador adequado para cada modelo. O mtodo clssico de avaliao de uma estratgia de aprendizagem de mquina no mbito da etiquetagem morfossinttica a tcnica da mltipla validao cruzada (JURAFSKY; MARTIN, 2009). O problema do treino de um etiquetador em um corpus uniforme e relativamente pequeno (de menos de 200.000 itens lexicais) como o Bosque, constitudo de text9s de apenas dois jornais (o brasileiro Folha de So Paulo e o portugus Pblico), que um alto ndice de acurcia obtido por meio dessa metodologia no garante, necessariamente, um desempenho igualmente alto em textos de natureza muito diferente daqueles que constituem o corpus de treino. Aparentemente no h informaes disponveis a respeito da acurcia dos dois modelos do Apache OpenNLP para a etiquetagem morfossinttica do portugus. No entanto, um teste desses modelos com a etiquetagem dos dois primeiros pargrafos de Luzia-Homem (amostra CONJ1) parece corroborar a expectativa de que um modelo treinado em textos jornalsticos da dcada de
Figura I: Etiquetagem
do texto Upral (2012) no Aelius por meio de trs etiquetadores diferentes.
Amostras
Modelos AeliusHunPosMM AeJiusStanfordMM AeliusBRUBT.pkl AeliusHunPos AeliusMaxEnt LX-Tagger pt-pos-maxent.bin
CONJ1 (128 palavras): dois par~grafos iniciais de Luzia-Homem(1903) (OLMPIO, 2007) 94,71% 87,06% 96,84% 97,47% 96,20% 95,27% NoTok 80,13% Tok 90,59%
CONJ2 (619 palavras): texto de portugus do Brasil atual (LIPRAL, 2012) 97,17% 92,60% 94,36% 91,76% 93,93% 97,71% NoTok 87,50% Tok 95,82% NoTok 87,06% Tok 95,69%
pt-pos-perceptron. bin
NoTok 83,33% Tok 90,59%
Tabela 2: Acurcia de modelos do Aelius e dos dois modelos do Apache OpenNLP na etiquetagem morfossinttica de duas amostras. NoTok=contraes e nclises no separadas pelo toquenizador do OpenNLP, Tok = contraes e nclises separadas manualmente.
1990 apresenta queda de acurcia quando aplicado a um texto literrio de poca bastante anterior. Uma comparao entre os ndices de acurcia dos dois modelos treinados no MAC-Morpho vai, igualmente, ao encontro dessa hiptese. Por outro lado, os dados relativos aos modelos treinados no CHPTB-M, especialmente no caso do AeliusHunPos, sugerem que o inverso tambm verdadeiro.
14
.." .. __ -..e:
15
OlALOGAR PRECISO
LINGUISTICA PARA PROCESSAMENTO DE LINGUAS
Na amostra CONJl, que perfaz 156 tokens (sem toquenizao das contraes e nclises); os modelos pt-pos-maxent.bin e pt~pos-perc~ptron. bin, aplicados sobre o output dos toquenizadores sentencial e vocabularles.: sa biblioteca, alcanaram, respectivamente, ndices de acurcia de 80.13% e 83.33%. Em (3), reprOduzimos: a prirneira sentena etiquetada .conforme o modelo pt-pos-maxent.bin, assinalando, com @, os erros cometidos, seguidos da etiqueta correta. Dos 6 erros cometidos nesSe trecho, 3 se devem no toquenizao de contraes. Compare-se essa anotao com a doAeliusHunPosMM em (4), pela qual se pode constatar que a toquenizlilo do Aelius menos trivial do que a do OpenNLP, uma vez que, n()primeiro caso, realizada a separao de contraes. Tambm os pronomes enclticos so separados das formas verbais pelo AeIius, em conformidade com o padro do MAC-Morpho. . .
(3) O_art morro_n do_v-ger@prp+art Curral--'prop do_v-pep@prp+art Aougue_ prop emergia _ n@v-fin em--'prp suave _ n@adj declive -,v~fin@n da _ v-pep@prp+art eampina_nondulada _ v-pep .--'pune (4) OIART morrolN de/PREPI+ o/ART CurrallN@NPROP de/PREPI+ o/ART AouguelN@NPROP emergiaIV em/PREP suave/ADJ deelivelN deIPREPI+ alART eampinaIN onduladalPCP I
Na mesma amostra, o AeliusHunPosMM alcanou acuracla de 94.71 %, no muito longe do estado da arte de 96%-97%, e no foram cometidos erros de toquenizao. Isso sugere que um modelo treinado num tipo de texto pode alcanar bons resultados em textos de tipo e poca diferentes, se o algoritmo de aprendizagem de mquina eficiente (o que o caso do HunPos) e/ou o corpus de treino suficientemente extenso (o que se aplica ao MAC-Morpho). Nesse contexto, surpreende a dramtica reduo da acurcia do AeliusHunPos quando aplicado no CONJ2, em comparao com os valores obtidos no romance Luzia-Homem (ver Quadro 1 e Tabela 1). O toquenizador do Aelius tambm lida corretamente com casos de ponto em abreviaturas no interior de sentenas, como no exemplo (5), etiquetado pelo AeliusHunPosMM, ao passo que a ferramenta anloga do OpenNLP, como se pode verificar em (6), indevidamente separa o ponto da abreviatura no nome Leonel F de Alencar:
(5) LeonellNPROP F.INPROP delNPROP AlenearlNPROP (6) Leonel--'prop F--'prop .--'pune de_prp Alenear--'prop
Na terceira coluna da Tabela 1, pode-se constatar que, na etiquetagem de um texto de 743 tokens (619 palavras) em portugus do Brasil contemporneo, a vantagem do Aelius sobre o Apache OpenNLP aumenta significativamente, com o AeliusHunPosMM atingindo o estado da arte com um ndice de acurcia de 97.17%, quase dois pontos percentuais acima do que o modelo pt-pos-maxent.bin alcanou na etiquetagem de verso do texto toquenizada manualmente. Usando as ferramentas de toquenizao do prprio Apache OpenNLP, a acurcia da etiquetagem cai para menos de 88%. O LX -Tagger, usado a partir do Aelius, apresenta, com 97.71 %, a maior preciso no CONJ2 e tem um desempenho muito bom tambm no CONJl. No extremo oposto est o AeliusStanfordMM, que, entre os modelos do Aelius, teve o desempenho mais baixo na etiquetagem do CONJl e o segundo mais baixo no CONJ2. Esse resultado surpreende, quando se leva em conta que o StanfordTagger alcanou 97.24% de acurcia no Penn Treebank WSJ (TOUTANOVA et aI., 2003). Em concluso, as ferramentas de toquenizao do Aelius para o portugus so muito superiores aos recursos anlogos do Apache OpenNLP. No que tange etiquetagem morfossinttica, o AeliusHunPosMM saiu-se melhor num conjunto de teste pequeno, constitudo de dois nicos textos. Embora uma amostra maior seja necessria para uma avaliao mais conclusiva, no se pode negar que o Aelius, para o usurio final, constitui uma alternativa ao Apache OpenNLP, at pela possibilidade de utilizar ferramentas de diferentes procedncias numa mesma interface. Nesse contexto, destacase o LX- Tagger, que, utilizado por meio do Aelius, atinge ndice de acurcia de 97,71% no CONJ2, acima dos 97,17% obtidos pelo AeliusHunPosMM. A vantagem deste modelo sobre aquele, porm, que constitui FOSS. Consideraes finais
Partimos da constatao de que h, no Brasil, um descompasso entre a lingustica e a informtica, prejudicial a ambas as reas. Para superar o fosso que separa estudantes e pesquisadores da rea de Letras das facilidades para o processamento automtico de textos proporcionadas por diversas bibliotecas livremente disponveis e como forma de iniciao na lingustica computacional, iniciamos o desenvolvimento do Aelius e do Donatus, pacotes em Python baseados no NLTK com diversas ferramentas para toquenizao
16.
17
f DIALOGAR PRECISO
i ,
LINGUISTICA PARA PROCESSAMENTO DE LINGUAS
I
e anotao de textos em diversos nveis. Esses pacotes visam a tornar ainda mais fcil o uso da biblioteca NLTK por no programadores, ao mesmo tempo'em que a complementam com uma srie de recursos voltados especificamente para a lngua portuguesa. Neste artigo, focamos os novos recursos, do Aelius para a toquenizao e etiquetagem morfossinttica do portugus, comparando-os com os oferecidos pela biblioteca Apache OpenNLP, aparentemente a caixa de ferramentas para o PALN que mais se aproxima do NLTK. Nessa comparao, o Aelius revelou-se uma alternativa superior ao Apache OpenNLP, no que concerne toquenizao e etiquetagem morfossinttica do portugus, no s por apresentar melhor acurcia, mas tambm por permitir anotar textos morfossintaticamente segundo estratgias diferentes de toquenizao e conforme conjuntos de etiquetas distintos. t
Referncias ALENCAR, L. F. de. Aelius: uma ferramenta para anotao automtica de corp6ra usando o NLTK.ln: ENCONTRO DE LINGUSTICA DE CORPUS, 9., 2010, Porto Alegre. Apresentaes. [S.l.: s.n.], 2010. Disponvel em: <http://corpuslg.org/gelc/elc2010.php>Acesso em: 22 set.2011. ALENCAR, L. F. de. Utilizao de informaes lexicais extradas automaticamente de corpora na anlise sinttica computacional do portugus. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85,2011. ALENCAR, L. F. de. Lnguas formais, gramticas e autmatos no processamento automtico das palavras. In: ALENCAR, L. F. de; OTHERO, G. A. (Org.). Abordagens computacionais da teoria da gramtica. Campinas, SP: Mercado de Letras, 2012, p. 13-75. BIRD, S.; KLEIN, E.; LOPER, E. Naturallanguage processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O' ReiIly, 2009. BRANCO, A.; SILVA, J. Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 4., 2004, Lisboa. Proceedings ... Paris: ELRA, 2004, p. 507-510. DALE, R. Classical approaches to Natural Language Processing. In: INDURKHYA, N.; DAMERAU, F. J. (Ed.). Handbook o/Natural Language Processing. 2. ed. Boca Raton: CRC, 2010, p. 3-7. FLORESTA Sint(c)tica. [S.I.]: Linguateca, 2009. Disponvel em: <http://www.Iinguateca.pt/ftoresta/corpus.html> Acesso em: 12 dez. 2012. GALVES, c.; FARIA, P. Tycho Brahe Parsed Corpus o/ Historical Portuguese. [S.I.: s.n.], 2010. Disponvel em: <http://www.tycho.iel.unicamp.br/~tycho/corpus/en/index.html> Acesso em: 13 dez. 2012. HAJICOV , E. et aI. Treebank ilOnotation. In: INDURKHYA, N.; DAMERAU, F. J. (Ed.). Handbook o/Natural Language Processing. 2. ed. Boca Raton: CRC, 2010, p. 167-188. HALCSY, P.; KORNAI, A.; ORAVECZ, C. HunPos: an open source trigram tagger. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 45., 2007, Praga. Proceedings ... Stroudsburg: Association for Computational Linguistics, 2007, p. 209-212.
19
I
.11.
f t I
t
I.
18
.~, ,
JURAFSKY, D.; MARTIN, J.H. Speech and language processing: an introduction to natural language processing, computationallinguistics, and speech recognition. 2. ed. Londres: Pearson International, 2009. LCIO-WEB: MAC-Morpho. So Paulo: NILC, [s.d.]. Disponvel em: <http://www.nilc.icmc.usp.br/lacioweb/macmorpho.php> Acesso em: 12 dez. 2012'. LIPRAL 2012: Viso geral. Vitria: UFES, 2012. Disponvel em: <http://eventos .tifes. br/index. php/I ipral/LiPr AL20 12/schedConf/ overview> Acesso em: 7. dez. 2012. OLMPIO, D. Luzia-Homem. [S. I. : s. n.], 2007. Disponvel em: <http://pt.wikisource.org/wikilLuzia-Homem> Acesso em: 11 fev; 2011. PADR, L.; STANILOVSKY, E. FreeLing 3.0: Towards Wider Multilinguality. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 8.,2012, Istanbul. Proceedings ... [S.I.]: ELRA, 2012. Disponvel em: <http://www.lrec-conf.org/proceedings/lrec2012>. Acesso em: 14 dez. 2012. RATNAPARKHI, A. A Maximum Entropy Model for Part-Of-Speech Tagging. In: EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 1996, Philadelphia. Proceedings ... Pennsylvannia: University ofPennsylvannia, 1996, p. 133-142. Disponvel em: <http://acl.ldc. upenn.edu/W/W96/W96-0213.pdf> Acesso em: 2. Jun. 2011. TOUTANOVA, K. et aI. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In: HLT-NAACL, 2003, Edmonton. Proceedings ... [S. I. : s. n.], 2003, p. 252-259. Disponvel em: <http://nlp.stanford. edu/~manning/papers/tagging.pdf> Acesso em: 14 dez. 2012.
ENTE WEB PARA ELABORAO DE PRODUTOS TERMINOLGICOS: E-TERMOS

GLADISMARIA DE BARCELLOS ALMEIDA (UFSCAR) LEANDROHENRIQUE MENDONA DE OIVElRA (EMBRAPA) Resumo: O e-Termos' um ambiente computacional colaborativo Web de acesso livre e gratuito, dedicado gesto terminolgica. Resultado de um projeto de pesquisa envolvendo trs instituies pblicas brasileiras seu principal objetivo viabilizar a criao de produtos terminolgicos, s~jam eles para fins de pesquisa acadmica, de divulgao ou de ensino, por meio da (semi)automatizao das etapas do trabalho terminolgico. Apoiado nos pressupostos tericos de uma terminologia descritiva de base lingustica, o e-Termos implementa seis etapas de trabalho, as quais representam as fases de criao de produtos terminolgicos. Cada etapa de trabalho abriga tarefas especficas e inerentes confeco desses produtos, sendo atreladas a elas diferentes ferramentas computacionais. Neste texto, pretende-se apresentar detalhadamente o referido ambiente, bem como as melhorias a serem implementadas. Palavras-chave: Terminologia. Produto terminolgico. Ambiente de gesto terminolgica. 1. Introduo Existe em geral uma carncia de recursos computacionais que sistematizem o trabalho terminolgico. Os profissionais que desenvolvem produtos terminolgicos operam, na maioria das vezes, com ferramentas adaptadas, no elaboradas especificamente para a finalidade de suas pesquisas e/ ou atividades .
],
.
j
,
~ .
.;
Conferir em <www.etermos.cnptia.embrapa.br>.

Novos Recursos Do Aelius para o Processamento Computacional Raso Do Português

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Novos Recursos Do Aelius para o Processamento Computacional Raso Do Português

Transféré par

Droits d'auteur :

Formats disponibles

Organizadores

Dados Internacionais L315d

CDD 410 CDU 801

OS RECURSOS DO AELIUS PARA O PROCESSAMENTO COMPUTACIONAL RASO DO PORTUGUS! 145

PARA PROCESSAMENTO DE LINGUAS

dispe de ferramentas e recursos para quase todas as etapas da anlise textu-

Aelius versus Apache OpenNLP portugus

PARA PROCESSAMENTO DE LINGUAS

Mouelo AeliusRlIBT.pkl AelillsBRUBT.pkl AeliusHunPos AelillsMaxEnt AeliusStanfordMM* AeliusHunPosMM* LX-Tagger*

Acurcia 95,29% 95,30% 96,35% 95,81% 92,60% 97,17% 97,71%

Corpus de Treino CHPTB-M CHPTB-M CHPTB-M CHPTB-M MAC-Morpho MAC-Morpho CINTIL

Arquitetura de aprendizagem mquina I linguagem nltk.TrigrammTagger / Python

Nativo sim sim

sim sim sim sim sim no

do texto Upral (2012) no Aelius por meio de trs etiquetadores diferentes.

Modelos AeliusHunPosMM AeJiusStanfordMM AeliusBRUBT.pkl AeliusHunPos AeliusMaxEnt LX-Tagger pt-pos-maxent.bin

NoTok 83,33% Tok 90,59%

LINGUISTICA PARA PROCESSAMENTO DE LINGUAS

LINGUISTICA PARA PROCESSAMENTO DE LINGUAS

ENTE WEB PARA ELABORAO DE PRODUTOS TERMINOLGICOS: E-TERMOS

Vous aimerez peut-être aussi