Reconhecimento de Entidades Mencionadas em Português Utilizando Aprendizado de Máquina

Reconhecimento de
entidades mencionadas em portugus

utilizando aprendizado de mquina
Wesley Seidel Carvalho
Dissertao apresentada
ao
Instituto de Matemtica e Estatstica
da
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Cincia da Computao
Programa: Cincia da Computao

Orientador: Prof. Dr. Marcelo Finger
So Paulo, fevereiro de 2012
Reconhecimento de
entidades mencionadas em portugus
Esta dissertao contm as correes e alteraes

sugeridas pela Comisso Julgadora durante a defesa
realizada por Wesley Seidel Carvalho em 24/02/2012.
O original encontra-se disponvel no Instituto de
Matemtica e Estatstica da Universidade de So Paulo.
Comisso Julgadora:
Prof. Dr. Marcelo Finger (orientador) - IME-USP
Prof. Dr. Alair Pereira Lago - IME-USP
Prof. Dr. Fbio Natanael Kepler - UNIPAMPA
Agradecimentos
So tantos os que tenho que agradecer por darem sua contribuio, de uma forma ou de outra,
para que este trabalho pudesse ser realizado. Agradeo muito a Deus pelas oportunidades colocadas
em meu caminho e por me dar perseverana nos momentos de dificuldade. minha me Laurimar
e meu pai Lair (em memria) por terem me guiado no caminho correto, sempre tentando fazer o
bem para os seus filhos. Agradeo ainda ao meu irmo Wanderson e minha irm Welk pelo apoio e
incentivo em todas as minhas empreitadas. Tambm tenho que fazer o meu agradecimento minha
namorada Ludinia Costa por ter me aturado durante todo o perodo de estudo e ter aguentado as
minhas noites em claro para que este trabalho pudesse ser concludo.
Sou muito grato por ter tido a oportunidade de ter o prof. Marcelo Finger como meu orientador
do Mestrado e por todas as suas valiosas horas investidas em mim e neste trabalho. Deixo tambm
uma palavra de agradecimento aos professores do IME-USP que fizeram parte do meu amadurecimento cientfico. Alguns deles que gostaria de citar so, alm do meu orientador, os professores
Alair Pereira Lago e Alfredo Goldman, por suas aulas e discusses.
So tambm dignos de uma nota de apreo os colegas que conheci durante o perodo do Mestrado
nesta instituio, sendo alguns de outros grupos de pesquisas, porm ocupando o mesmo espao
fisico. Aos meus primeiros amigos do IME, Tales Pinheiro, Sirley Vitorio, Marcelo Reis e Vilc Rufino,
pela companhia e estudos iniciais. Agradeo tambm aos meus colegas William Colen e Michel
Oleynik pelos momentos de desenvolvimento do sistema CoGrOO Comunidade e pelas discusses
sobre PLN. No posso deixar de citar o grupo LIAMF e o grupo de XP, com os quais me diverti
muito enquanto aprendia.
Finalmente, agradeo s varias pessoas que em algum momento tambm estiveram envolvidas
no desenvolvimento deste Mestrado.
ii
Resumo
Reconhecimento de entidades mencionadas em portugus
Autor: Wesley Seidel Carvalho
O Reconhecimento de Entidades Mencionadas (REM) uma subtarefa da extrao de informaes e tem como objetivo localizar e classificar elementos do texto em categorias pr-definidas tais
como nome de pessoas, organizaes, lugares, datas e outras classes de interesse. Esse conhecimento
obtido possibilita a execuo de outras tarefas mais avanadas. O REM pode ser considerado um dos
primeiros passos para a anlise semntica de textos, alm de ser uma subtarefa crucial para sistemas
de gerenciamento de documentos, minerao de textos, extrao da informao, entre outros.
Neste trabalho, estudamos alguns mtodos de Aprendizado de Mquina aplicados na tarefa
de REM que esto relacionados ao atual estado da arte, dentre eles, dois mtodos aplicados na
tarefa de REM para a lngua portuguesa. Apresentamos trs diferentes formas de avaliao destes
tipos de sistemas presentes na literatura da rea. Alm disso, desenvolvemos um sistema de REM
para lngua portuguesa utilizando Aprendizado de Mquina, mais especificamente, o arcabouo de
mxima entropia. Os resultados obtidos com o nosso sistema alcanaram resultados equiparveis
aos melhores sistemas de REM para a lngua portuguesa desenvolvidos utilizando outras abordagens
de aprendizado de mquina.
Palavras-chave: Reconhecimento de Entidades Mencionadas, Reconhecimento de Entidades Nomeadas, Processamento de Linguagem Natural, Aprendizado de Mquina, Mxima Entropia.
iii
iv
Abstract
Portuguese named entity recognition
using machine learning
Autor: Wesley Seidel Carvalho
Named Entity Recognition (NER), a task related to information extraction, aims to classify
textual elements according to predefined categories such as names, places, dates etc. This enables
the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is
also a crucial task for systems of information extraction and other types of systems.
In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two
methods applied to Portuguese language. I present three ways of evaluating these types of systems
found in the literature. I also develop an NER system for the Portuguese language utilizing Machine
Learning that entails working with a maximum entropy framework. The results are comparable
to the best NER systems for the Portuguese language developed with other Machine Learning
alternatives.
Keywords: Named Entity Recognition, Machine Learning, Maximum Entropy Framework, Information Extraction, Natural Language Processing.
vi
Sumrio
Lista de Abreviaturas
ix
Lista de Figuras
xi
Lista de Tabelas
xiii
1 Introduo
1.1
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Organizao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Processamento Estatstico da Linguagem Natural

2.1
2.2
2.3
Crpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
Texto Marcado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tcnicas de PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1
Tokenizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2
Separao de Sentenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3
Anlise Morfossinttica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Avaliao de Sistemas de Reconhecimento de Entidades Mencionadas
3.1
Medidas de Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Conferncias de Avaliao de REM . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1
MUC
3.2.2
CoNLL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2.3
HAREM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Aprendizado de Mquina
4.1
4.2
19
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1.1
Diviso do Aprendizado de Mquina . . . . . . . . . . . . . . . . . . . . . . . 19
4.1.2
Definies Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.3
Paradigmas de Aprendizado de Mquina e Modelos de Linguagem . . . . . . 22
4.1.4
Validao Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Aprendizado de Mquina aplicado ao PLN . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.1
Maximizao de Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.2
Aprendizado Baseado em Transformao Guiada por Erro . . . . . . . . . . . 25

vii
viii
SUMRIO
4.2.3
Aprendizado de Transformao Guiado por Entropia . . . . . . . . . . . . . . 27
5 Trabalhos Relacionados
5.1
5.2
29
Abordagens na resoluo do problema de REM . . . . . . . . . . . . . . . . . . . . . 29

5.1.1
TBL aplicado ao REM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.2
ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1.3
Mxima Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6 Arquitetura do Sistema
6.1
35
Mdulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1.1
Pr-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1.2
Filtro de Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.3
Extrao de Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.1.4
Estimador de Mxima Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.1.5
Etiquetador de EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.1.6
Avaliador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7 Resultados
7.1
Metodologia e Crpus Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

7.1.1
7.2
7.3
7.4
45
Preparao dos Crpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2.1
Estrutura Interna da Palavra . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2.2
Lxicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2.3
Etiquetas Morfolgicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.2.4
Modelo Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.2.5
Outras Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Modelos Melhorados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.3.1
Novo estudo de corte para crpus do HAREM . . . . . . . . . . . . . . . . . . 59
7.3.2
Estudo de Crpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Avaliao no Segundo HAREM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7.4.1
Cenrios de Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4.2
Testes Alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8 Concluses
8.1
65
Trabalho Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A Exemplos de Textos do HAREM
67
A.1 Exemplos por categoria/tipo do Segundo HAREM . . . . . . . . . . . . . . . . . . . 67

B Resultados dos Experimentos Alternativos
73
Referncias Bibliogrficas
77
ndice Remissivo
80
Lista de Abreviaturas
AM
Aprendizado de Mquina
REM
Reconhecimento de Entidades Mencionadas
NER
Named Entity Recognition
EM
Entidade Mencionada
HAREM
Avaliao de Sistemas de Reconhecimento de Entidades Mencionadas
CoNLL
Conference on Computational Natural Language Learning
MUC
Message Understanding Conferences
TBL
Aprendizado Baseado em Transformao Guiada por Erro

(Transformation-Based Error-Driven Learning)
ETL
Aprendizado de Transformao Guiado por Entropia

(Entropy Guided Transformation Learning)
MENE
Sistema de REN construdo sobre o arcabouo de Mxima Entropia

(Maximum Entropy Named Entity)
CD
Coleo Dourada
ix
LISTA DE ABREVIATURAS
Lista de Figuras
3.1
rvore de categorias no Segundo HAREM: as categorias, tipos e subtipos representados nas caixas com contorno slido preto s existem no Segundo HAREM; as
categorias, tipos e subtipos representados nas caixas com contorno pontilhado s
existem no Primeiro HAREM. Figura extrada de [MS08]. . . . . . . . . . . . . . . . 12
4.1
Conjunto de treinamento para a identificao de uma ma. Cada ponto corresponde

a uma fruta e as coordenadas indicam a massa e o volume da fruta. Os pontos com
um sinal positivo indicam quando a fruta uma ma, e sinal negativo outra fruta
qualquer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2
Exemplo de uma hiptese. A classe C de mas o retngulo no espao massa-volume. 22
4.3
Esquematizao do processo de aprendizado do TBL. . . . . . . . . . . . . . . . . . . 26
4.4
Esquematizao do processo do ETL. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5
Excerto de uma rvore de Deciso na tarefa de segmentao de texto. Figura extrada

de [dSM09]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.1
Arquitetura do Sistema para a fase de Treinamento. . . . . . . . . . . . . . . . . . . 36
6.2
Arquitetura do Sistema para a fase de Avaliao. . . . . . . . . . . . . . . . . . . . . 36
6.3
Mdulo de Pr-processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.4
Mdulo de pr-processamento para extrao de caractersticas. . . . . . . . . . . . . 40
7.1
Uma avaliao mais extensa dos valores de cortes de predicados contextuais para o
Modelo M T odas sobre o crpus HAREM. . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2
Resultados de diferentes modelos avaliadas no Segundo HAREM- Cenrio Total.
7.3
Resultados de diferentes modelos avaliadas no Segundo HAREM- Cenrio Seletivo. . 64
xi
. . 63
xii
LISTA DE FIGURAS
Lista de Tabelas
1.1
Exemplos de classificao de entidades e seus possveis tipos. . . . . . . . . . . . . . .
2.1
Excerto de texto de Manuel Bernades extrado do crpus Tycho Brahe. . . . . . . . .
3.1
Comparao de um texto anotado por um especialista em (A) com um texto de sada

anotado por um sistema hipottico em (B). . . . . . . . . . . . . . . . . . . . . . . .
3.2
Um acerto e possveis erros cometidos pelos sistemas de REM. . . . . . . . . . . . . .
3.3
Possveis anotaes de um sistema hipottico. . . . . . . . . . . . . . . . . . . . . . . 14
3.4
Resultado da tarefa de identificao dos dados da Tabela 3.2 avaliado nos moldes do
Segundo HAREM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.5
Melhores resultados da Medida-F de classificao de cada sistema participante do

Segundo HAREM no cenrio total com ALT estrita. . . . . . . . . . . . . . . . . . . 16
3.6
Melhores resultados da Medida-F de classificao de cada sistema participante do

Segundo HAREM no cenrio total com ALT relaxada. . . . . . . . . . . . . . . . . . 16
4.1
Distribuies de probabilidade para a classificao gramatical da palavra jabulane.
4.2
Moldes de regras utilizados por Brill. Cada linha uma condio que ativa a ao;
25
w e x so variveis que representam as palavras presentes no texto de treinamento;

z e t representam as etiquetas possveis do conjunto de treinamento. . . . . . . . . . 26
4.3
Conjunto de moldes de regras para a tarefa de segmentao de texto. . . . . . . . . . 28
5.1
Moldes de regras para TBL aplicado tarefa de REM. . . . . . . . . . . . . . . . . . 30
6.1
Representao das etiquetas de EM aps o Filtro de Avaliao. . . . . . . . . . . . . 37
6.2
Conjunto de Classes de Palavras utilizadas pelo CoGrOO. . . . . . . . . . . . . . . . 38
6.3
Exemplos de moldes de predicados contextuais. . . . . . . . . . . . . . . . . . . . . . 41
6.4
Predicados contextuais dos moldes da Tabela 6.3 aplicados sobre o contexto b4 da

Tabela 6.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.5
Exemplos de sequncias de etiquetamentos inconsistentes. . . . . . . . . . . . . . . . 42
6.6
Condies para permisso do etiquetamento do token ti , de uma sentena de tamanho

n. Onde i a posio na sentena do token a ser analisado, emtagi a etiqueta a ser
testada, emtagi1 a etiqueta atribuda ao token anterior. . . . . . . . . . . . . . . . 43
6.7
Resultado da comparao entre os textos Tabela 3.1 obtido pelo mdulo Avaliador. . 43
7.1
Crpus utilizados nos experimentos e suas distribuies de EM por categorias. . . . . 46
7.2
Conjunto de caractersticas utilizadas para a explorao da estrutura interna da palavra. 47
xiii
xiv
LISTA DE TABELAS
7.3
Estudo de Sobreposio de caractersticas utilizando o corte igual a 10. Os melhores

resultados por crpus esto em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.4
Anlise do nmero para corte de predicados contextuais utilizando as caractersticas

da estrutura interna da palavra com sobreposio. . . . . . . . . . . . . . . . . . . . . 48
7.5
Comparao das diferentes implementaes do uso das caractersticas lxicas e configuraes de cortes aplicados sobre o crpus estudados. Os melhores resultados por
crpus esto em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.6
Avaliao das Caractersticas de Estrutura Interna da palavra combinadas com as

Caractersticas L3 e L4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.7
Avaliao de modelos treinados utilizando apenas as etiquetas morfolgicas obtidas

pelo CoGrOO. Foram consultados as etiquetas dos tokens t2 a t2 . . . . . . . . . . . 52
7.8
Modelo-base criado utilizando em conjunto as caractersticas de estrutura interna da

palavra (EI), caractersticas lxicas(L4 ) e etiquetas morfolgicas (P oS). . . . . . . . 53
7.9
Dicionrios baseados no REPENTINO. . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.10 Resumo das caractersticas utilizadas. . . . . . . . . . . . . . . . . . . . . . . . . . . 56

7.11 Resultados de cada caracterstica adicionada ao modelo base. Os melhores resultados
esto em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.12 Comparao dos modelos M T odas e M Sinergia aplicados em cada crpus. . . . . . 58
7.13 Avaliao de cortes para os modelos melhorados utilizando os crpus Mini HAREM
e Primeiro HAREM juntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.14 Medida-F do modelo M T odascorte=5 aplicado na avaliao de domnio do crpus. . . 60
7.15 Melhores resultados da Medida-F de classificao de cada sistema participante do
Segundo HAREM no cenrio total com ALT estrita. Os resultados do nosso sistema
esto na linha destacada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.16 Comparativo do modelo M T odascorte=5 com os resultados dos sistemas participantes
do Segundo HAREM no Cenrio Seletivo (Apenas Categorias). . . . . . . . . . . . . 62
B.1 Resultados da avaliao mais extensa de valores de cortes para o modelo M T odas. . 73
B.2 Resultados completos dos vrios modelos avaliados no Cenrio Total do Segundo
HAREM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
B.3 Resultados completos dos vrios modelos avaliados no Cenrio Seletivo do Segundo
HAREM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Captulo 1
Introduo
O Processamento da Linguagem Natural (PLN) um ramo da cincia da computao que utiliza
tcnicas computacionais para estudar os problemas relacionados linguagem natural, seja falada ou
escrita. O PLN tem como objetivo aproximar o computador da realidade do homem, desenvolvendo
ferramentas que possibilitem uma comunicao mais natural entre homem e mquina.
De acordo com Russell & Norvig [RN95], extrao da informao a tarefa de identificar
ocorrncias de uma classe particular de objetos e outras informaes tais como eventos, alm de
identificar as relaes entre esses objetos e eventos. O Reconhecimento de Entidades Mencionadas
(REM) uma sub-tarefa da extrao de informaes e tem como objetivo localizar e classificar
elementos do texto em categorias pr-definidas como nome de pessoas, organizaes, lugares, datas,
e outras classes. Entidade Mencionada (EM) a traduo livre utilizada por pesquisadores da lngua
portuguesa para o termo original em ingls named entity e que literalmente poderia ser traduzido
para entidades com nome prprio ou entidade nomeada. A traduo para entidade mencionada
se deve por entender que a ocorrncia especfica de uma entidade em um dado texto classificada
de acordo com o significado daquela entidade no texto em questo [SC08].
Tomemos como exemplo a frase O presidente Lula dever comparecer ao 10o Frum Internacional Software Livre na prxima sexta-feira, 26 de junho 1 . Sabemos que uma pessoa foi citada,
presidente Lula, e que 10o Frum Internacional Software Livre pode ser classificado como um
evento assim como 26 de junho indica um tempo. Podemos ver na Tabela 1.1 alguns exemplos
tpicos de classificaes de entidades mencionadas.
Sistemas mais especializados podem se concentrar em vrios outros tipos de entidades, tais como
produtos comerciais, armas, especialidades profissionais, artes, protenas, vrus, genes e outras entidades de interesse. Dessa forma, percebemos que o foco comum de concentrao desses possveis
sistemas a identificao de nomes prprios, as formas caractersticas que tais nomes so identificados em uma dada linguagem ou gnero e o conjunto de categorias das entidades dado um domnio
de interesse.
Esse conhecimento obtido possibilita a execuo de tarefas mais avanadas e pode ser considerado um dos primeiros passos para a anlise semntica de textos, alm de ser uma sub-tarefa crucial
para os sistemas de gerenciamento de documentos, extrao da informao, minerao de textos,
entre outros, o que torna o REM uma importante tarefa.
Essa obteno de conhecimento, que ocorre de forma natural para humanos, mostra-se um
1
Texto extrado de: http://fisl.softwarelivre.org/10/www/06/23/presidente-lula-vem-ao-fisl10
1.2
INTRODUO
Tipo
Pessoa
Organizao
Localidade
Outros
Etiqueta
PER
ORG
LOC
O
Exemplos
Indivduos, personagens fictcios, pequenos grupos.
Empresas, agncias, partidos polticos, grupos religiosos.
Bairro, cidade, pas.
Nomes de carros, ttulos de livros, modelos de computadores.
Tabela 1.1: Exemplos de classificao de entidades e seus possveis tipos.
grande desafio para os sistemas especialistas, sendo portanto necessrio uma ateno especial ao
processo de REM.
1.1
Objetivos
O objetivo do nosso trabalho a construo de um sistema de REM para a lngua portuguesa

utilizando tcnicas de Aprendizado de Mquina; mais especificamente, o arcabouo de Mxima
Entropia. Para que possamos medir o desempenho do nosso sistema na execuo de sua tarefa,
verificaremos algumas das diferentes formas de avaliao de sistemas de REM existentes na literatura. Desta forma seremos capazes de comparar os resultados obtidos pelo nosso sistema com os
resultados dos sistemas e tcnicas aplicadas sobre o mesmo problema.
Um objetivo secundrio deste trabalho o estudo do impacto das diferentes caractersticas textuais que sero exploradas para a identificao e a classificao das EM. Esse tipo de conhecimento
pode ser utilizado posteriormente por pesquisadores para a construo de novos sistemas de REM
para a lngua portuguesa.
1.2
Organizao do Trabalho
Este trabalho est dividido da seguinte forma: no Captulo 2 mostramos alguns requisitos necessrios ao processamento estatstico de linguagem natural e algumas tcnicas de PLN geralmente
empregadas no processamento de texto. No Captulo 3 apresentamos algumas medidas geralmente
empregadas na avaliao de sistemas de REM, bem como algumas conferncias que foram importantes para a avaliao conjunta de sistemas de REM e suas diferentes abordagens no processo
de pontuao destes sistemas. No Captulo 4 explicamos alguns conceitos preliminares de aprendizado de mquina (AM) e apresentamos algumas tcnicas de AM que so importantes para o
nosso trabalho. No Captulo 5 mostramos como algumas das tcnicas apresentadas no Captulo 4
foram utilizadas para a resoluo do problema de REM. No Captulo 6 descrevemos a arquitetura
utilizada para a construo do sistema, seus mdulos, algumas dificuldades e dvidas que surgiram
durante a sua implementao. No Captulo 7 discutimos as caractersticas textuais exploradas e
seus impactos na performance de vrios modelos construdos e em seguida testamos um modelo
e o avaliamos seguindo os moldes de um evento da rea e comparamos nossos resultados com os
resultados dos participantes do mesmo evento. Finalmente, no Captulo 8, expomos as concluses
deste trabalho.
Captulo 2
Processamento Estatstico da Linguagem

Natural
O processamento estatstico da linguagem natural consiste no uso de abordagens quantitativas
e probabilsticas para o processamento automtico de textos e da linguagem falada. Atravs de
grandes bases de textos, coletados conforme certos critrios, podemos obter informaes teis para
o clculo de diversos tipos de grandezas como, por exemplo, a ocorrncia de palavras, sequncia
de palavras, ocorrncia de palavras com caractersticas determinadas etc. Neste captulo veremos
alguns requisitos necessrios ao processamento estatstico de linguagem natural e algumas tcnicas
de PLN geralmente empregadas no processamento de texto.
2.1
Crpus
O crpus uma coleo especial de textos coletados conforme critrios especficos e segundo
Manning & Schtze [MS99], um dos principais requisitos para o processamento estatstico da
linguagem natural. Tal recurso utilizado para treinamento e teste de modelos estatsticos de linguagem natural escrita e falada, bem como para avaliao de componentes de sistemas de linguagem
natural.
Na escolha ou preparao de um crpus devem ser levados em considerao os tipos de informaes que se quer obter para a resoluo de um determinado problema. Por exemplo, se um crpus
foi desenvolvido como uma amostra representativa de etiquetagem morfolgica de textos histricos,
as estimativas obtidas deste podem no ser adequadas para textos contemporneos. Alm disso,
devemos ser cuidadosos com a validade dos resultados da anlise estatstica obtida, observando os
critrios de anotao adotados na coleo.
Segundo Krenn (1990, apud [Gd01], p. 9), as principais caractersticas observveis de um crpus
so:
Ocorrncia de fenmenos lingusticos no contexto;
Combinao de aspectos de competncia e performance: os dados do crpus refletem o uso da
linguagem todos os dados, mesmo os que so falsos em termos de competncia gramatical,
devem ser considerados como teis;
Informaes de frequncia de uma variedade de fenmenos em vez de fenmenos selecionados;
3
PROCESSAMENTO ESTATSTICO DA LINGUAGEM NATURAL
2.2
Considerao de todos os dados existentes pelo esquema de anotao, sem distino entre
termos competentes ou no.
2.1.1
Texto Marcado
Dos crpus de textos puros (textos sem marcaes) pode ser extrado bastante conhecimento
e por isso tais crpus so muito teis. Vrias tcnicas fazem uso de um tipo especial de crpus,
conhecido como texto marcado ou crpus anotado. Este criado atravs de um processo conhecido
como anotao, onde informaes estruturais so inseridas no texto.
Com textos marcados possvel obter informaes sobre o domnio desejado. So utilizados em
tcnicas computacionais que requerem processamento de propriedades no-observveis em textos
puros. Em alguns deles, apenas as estruturas bsicas so marcadas, tais como as fronteiras de
sentenas e pargrafos. J outros possuem uma carga de informao maior tal como toda a estrutura
sinttica. A marcao mais comum a codificao das categorias das palavras.
Para marcar a estrutura de um texto, existem vrios esquemas. Um esquema bastante empregado
na anotao gramatical de um texto a utilizao de um caractere especfico entre cada palavra e
o cdigo referente sua categoria. O caractere especfico geralmente empregado uma barra / ou
um sublinhado _.
Na Tabela 2.1 apresentado um pequeno extrato de texto livre e em seguida o mesmo texto
marcado com etiquetas morfolgicas, extrado do texto de Manuel Bernardes(1644) do crpus Tycho
Brahe 1 .
Texto Puro
Texto Marcado
Eu disponho para vs o Reino, como meu Pai o disps para mim;

Eu/PRO disponho/VB-P para/P vs/PRO o/D Reino/NPR ,/,
como/CONJS meu/PRO Pai/NPR o/CL disps/VB-D
para/P mim/PRO ;/.
Tabela 2.1: Excerto de texto de Manuel Bernades extrado do crpus Tycho Brahe.
Outro esquema atualmente bastante empregado o SGML. O SGML (do ingls, Standard
Generalized Markup Language) uma linguagem que permite definir uma gramtica para os textos,
em particular para o tipo de marcao que eles contm. O XML um conjunto simplificado de
SGML e atualmente tambm vem sendo empregado para anotaes de textos.
2.2
Tcnicas de PLN
Nesta seo veremos algumas tcnicas geralmente empregadas no processamento de textos e que
so teis para o entendimento do nosso trabalho.
2.2.1
Tokenizao
Normalmente, uma das primeiras etapas do processamento de texto dividir o texto de entrada
em unidades chamadas tokens. Cada token representa uma palavra ou algo como um nmero ou um
sinal de pontuao. Esse processo conhecido como tokenizao. Segundo Gasperin & Lima [Gd01],
1
Tycho Brahe: Corpus histrico do portugus. Pode ser consultado em: http://www.tycho.iel.unicamp.br/~tycho/
corpus/index.html
2.2
TCNICAS DE PLN
a especificao do que deve ser considerado como uma palavra complexa; a principal informao
utilizada a ocorrncia de um espao em branco, tabulao ou incio de uma nova linha. Porm
nem mesmo estes sinais so necessariamente confiveis.
O resultado desse processo na lngua portuguesa uma sequncia de palavras intercaladas
por espaos ou por smbolos delimitadores. Por exemplo, aps o processo de tokenizao, a frase
Disseram-me que hoje poderia chover, mas no est parecendo. poderia ser representada como
a seguinte sequncia de tokens: [Disseram] [-me] [que] [hoje] [poderia] [chover]
[,] [mas] [no] [est] [parecendo] [.].
Alguns problemas inerentes ao processo de tokenizao so:
Marcas de pontuao: Geralmente as marcas de pontuao vm junto com as palavras, a
exemplo da vrgula, do ponto e vrgula e do ponto final. A remoo dos pontos finais que se
encontram com as palavras um dos problemas, pois um ponto pode indicar, por exemplo,
uma abreviao;
Hfen: O hfen, dentre outras utilidades, pode ser utilizado como separador de slabas de
uma palavra; entre as palavras de um substantivo composto; ou ainda, principalmente na
lngua inglesa, para auxiliar a qualificao de uma palavra. Nos dois primeiros casos tendese a considerar uma palavra apenas; porm no ltimo caso descrito, pode-se reconhecer as
palavras separadamente.
Alm destes, existem outros problemas existentes no processo de tokenizao tais como a separao de palavras contendo apstrofos e casos em que o espaos em branco no indicam quebra de
palavras. Uma discusso mais detalhada sobre este assunto por ser consultada em [MS99].
2.2.2
Separao de Sentenas
Uma intuio simples para definio de sentenas considerar como sendo uma sequncia de
palavras ou caracteres que est entre os delimitadores ?, . ou !. No entanto, uma marca de
pontuao pode no indicar o fim de uma sentena, mas sim uma abreviao, ou ambas as funes
simultaneamente, que neste ltimo caso um fenmeno chamado haplologia. Alm do problema de
ambiguidade destes delimitadores, existem frases que contm outras frases dentro delas, a exemplo
das ocorrncias de frases com e ().
Mesmo com esses problemas, segundo Riley (1989, apud [MS99], p. 134), 90% dos pontos so
indicadores do fim de uma sentena. Manning & Schtze [MS99], afirmam que na prtica, a maioria
das solues para a separao de sentenas envolvem mtodos heursticos. No entanto, estas solues
requerem marcao manual e conhecimento do domnio por parte do desenvolvedor do sistema
de tokenizao. Existem ainda vrias outras abordagens para a automatizao do processo de
separao de sentenas. Dentre elas h propostas de tcnicas que utilizam rvores de classificao
estatsticas, redes neurais baseadas na distribuio das categorias das palavras, ou ainda abordagem
baseada em maximizao de entropia.
2.2.3
Anlise Morfossinttica
A Anlise Morfossinttica a tarefa de PLN que identifica corretamente a classe de cada

uma das palavras que compem uma sentena. Estas classes de palavras so conhecidas como
PROCESSAMENTO ESTATSTICO DA LINGUAGEM NATURAL
2.3
classes gramaticais ou categorias morfossintticas. Geralmente tais classes so representadas por

um conjunto de cdigos, e estes so utilizados na etiquetagem das palavras.
Uma das dificuldades desta tarefa a existncia de muitas palavras com diferentes classificaes
possveis. Tais palavras, se estiverem fora de contexto, ocasionam a ambiguidade sobre sua interpretao para a correta classificao gramatical. Por exemplo, na frase Vamos assistir ao jogo, a
palavra jogo um substantivo que pode significar, dentre outras, uma partida de futebol. Porm,
a mesma palavra empregada na frase Eu jogo videogame, trata-se de uma flexo na primeira
pessoa do singular do presente do indicativo do verbo jogar. A palavra jogo um exemplo de
ambiguidade existente na lngua portuguesa.
Segundo Manning & Schtze [MS99], o conjunto de cdigos mais difundido tem sido o conjunto
utilizado pelo crpus American Brown (Brown tag set) e as sries de conjuntos desenvolvidos na
Universidade Lancaster. O Penn Treebank tag set uma verso mais simplificada do Brown tag set
e tem sido um conjunto de cdigos largamente utilizado computacionalmente.
Alves [dAF03] afirma que a partir do momento que temos no texto a informao das classes
gramaticais das palavras, fica muito mais fcil resolver problemas mais complexos como a anlise
sinttica, traduo ou at mesmo a extrao da informao de textos. As marcaes presentes no
texto de exemplo da Tabela 2.1 so exemplos de etiquetas morfolgicas2 .
2.3
Comentrios
Alm das etapas de PLN citadas neste captulo, existem vrias outras, tais como: anlise de
formatao de baixo nvel, etapa em que contedos no relevantes podem ser retirados, por exemplo,
cabealhos de documento, tabelas, diagramas e etc; lemmatizao, etapa em que as diversas formas
de representao so substitudas pela forma primitiva; stemming, etapa em que consiste a remoo
de prefixos e sufixos de acordo com algumas regras previamente determinadas; dentre outras.
No discutiremos tais etapas por no fazerem parte do objetivo do nosso trabalho. O leitor
interessado em maiores detalhes sobre estes assuntos pode consultar Manning & Schtze [MS99] e
Gasperin & Lima [Gd01]
O conjunto de etiquetas morfolgicas utilizadas pelo Tycho Brahe pode ser consultado em: http://www.tycho.
iel.unicamp.br/~tycho/corpus/manual/tags.html
Captulo 3
Avaliao de Sistemas de
Reconhecimento de Entidades
Mencionadas
No intuito de fomentar e avaliar pesquisas em reas especificas do conhecimento, surgem conferncias com este propsito. Para a avaliao de sistemas de REM, algumas tcnicas foram propostas
em diferentes conferncias. Estas conferncias consideraram a capacidade do sistema em anotar os
textos tal qual faria um especialista linguista, comparando as sadas dos sistemas com textos anotados por humanos. Neste captulo, veremos algumas medidas geralmente empregadas para avaliao
de sistemas de REM e em seguida discutiremos algumas conferncias que foram importantes para
a avaliao conjunta de sistemas de REM bem como suas diferentes abordagens no processo de
pontuao dos sistemas participantes. Esse conhecimento importante para nossa proposta, pois
permite perceber a dificuldade em avaliar e comparar sistemas de REM que foram desenvolvidos
para diferentes lnguas e em diferentes classes de EM, bem como os mtodos de pontuao.
3.1
Medidas de Avaliao
As avaliaes de sistemas de REM so geralmente baseadas na comparao das sadas dos

sistemas com textos anotados por especialistas. Para entender melhor essa tarefa, podemos analisar
um exemplo extrado do trabalho de Nadeau & Sekine [NS07].
Ao comparar o texto anotado por um especialista, conforme pode ser visto na Tabela 3.1(A),
com o texto de sada de um sistema hipottico, como no exemplo da Tabela 3.1(B), nos deparamos
com cinco diferentes tipos de erros como podemos verificar na Tabela 3.2, e apenas uma marcao
completamente correta: <ORGANIZATION>Acme</ORGANIZATION>.
As medidas de avaliao de sistemas de REM levam em conta as noes de preciso, cobertura e
medida-F, que so mtricas empregadas nas avaliaes de sistemas de Recuperao da Informao.
No contexto de REM, um item relevante uma EM corretamente identificada e classificada por um
sistema, porm h casos em que o sistema pode ser avaliado em apenas uma destas tarefas.
De forma geral, a preciso (P), calculada pela Equao 3.1, mede a taxa do nmero de itens
relevantes recuperados por um sistema dado o nmero de itens recuperados. A cobertura (C),
calculada pela Equao 3.2, mede a taxa do nmero de itens relevantes recuperados por um sistema
3.1
AVALIAO DE SISTEMAS DE RECONHECIMENTO DE ENTIDADES MENCIONADAS
(A) Texto anotado por um especialista

Unlike <PERSON>Robert</PERSON>, <PERSON>John Briggs
Jr</PERSON> contacted <ORGANIZATION>Wonderfull
Stockbrockers Inc</ORGANIZATION> in <LOCATION>New
York</LOCATION> and instructed them to sell all his
shares in <ORGANIZATION>Acme</ORGANIZATION> .
(B) Sada de um sistema hipottico
<LOCATION>Unlike</LOCATION> Robert, <ORGANIZATION>John
Briggs Jr</ORGANIZATION> contacted Wonderfull
<ORGANIZATION>Stockbrockers</ORGANIZATION> Inc
<PERSON>in New York</PERSON> and instructed them to sell all his
shares in <ORGANIZATION>Acme</ORGANIZATION> .
Tabela 3.1: Comparao de um texto anotado por um especialista em (A) com um texto de sada anotado
por um sistema hipottico em (B).
Soluo correta
Unlike
<PERSON>
Robert
</PERSON>
<PERSON>
John Briggs Jr
</PERSON>
<ORGANIZATION>
Wonderfull
Stockbrockers Inc
</ORGANIZATION>
<LOCATION>
New York
</LOCATION>
<ORGANIZATION>
Acme
</ORGANIZATION>
Sada do sistema
<LOCATION>
Unlike
</LOCATION>
Robert
<ORGANIZATION>
John Briggs Jr
</ORGANIZATION>
<ORGANIZATION>
Stockbrockers
</ORGANIZATION>
<PERSON>
in New York
</PERSON>
<ORGANIZATION>
Acme
</ORGANIZATION>
Comentrio
O sistema indicou uma
entidade onde no existe
Uma entidade foi
completamente perdida
pelo sistema.
Uma entidade foi identificada,
porm classificada
incorretamente pelo sistema.
O sistema indicou corretamente
a classificao da entidade
porm seus limites esto
incorretos.
O sistema indicou uma
entidade porm tanto
seus limites quanto sua
classificao esto incorretos.
O sistema indicou corretamente
tanto os limites da entidade
quanto sua classificao.
Avaliao
Erro
Erro
Erro
Erro
Erro
Acerto
Tabela 3.2: Um acerto e possveis erros cometidos pelos sistemas de REM.
dado o nmero de itens relevantes na amostra analisada.

P=
nmero de itens relevantes recuperados pelo sistema

nmero de itens recuperados
(3.1)
C=
nmero de itens relevantes recuperados pelo sistema

nmero de itens relevantes
(3.2)
A medida-F nos fornece uma maneira de combinar a preciso e a cobertura em uma nica
3.2
CONFERNCIAS DE AVALIAO DE REM
medida e calculada pela Equao 3.3.

F =
( 2 + 1)P C
.
2P + C
(3.3)
O parmetro da Equao 3.3 diferencia a importncia da preciso e cobertura, e pode ser

manipulado de acordo com a necessidade do sistema. A preciso e a cobertura ficam igualmente
balanceadas quando atribumos o valor 1 ao parmetro . Essa medida geralmente chamada de
F=1 ou apenas F1 (veja a Equao 3.4).
F1 =
2P C
P +C
(3.4)
No entanto, para o contexto de avaliao de sistemas de REM, o clculo da preciso e da

cobertura varia de acordo com as especificaes de cada conferncia de avaliao. Nas prximas
sees discutiremos sobre algumas conferncias e suas abordagens para a pontuao dos sistemas
participantes.
3.2
3.2.1
Conferncias de Avaliao de REM

MUC
O MUC (Message Understanding Conferences), foi uma srie de eventos que ocorreram entre
1987 e 1998, e tinha como propsito avaliar e promover o progresso nas pesquisas sobre extrao
de informaes e padronizar a avaliao das tarefas dessa rea. O MUC-6 foi o sexto desta srie,
realizado em novembro de 1995. O REM para a lngua inglesa foi uma das tarefas que estavam
envolvidas nessa conferncia. No MUC-7, realizado em 1998, tambm foi dado nfase na avaliao
de sistemas de REM.
Para o MUC a tarefa de REM tinha como objetivo reconhecer nome de pessoas, organizaes, nome de lugares, expresses temporais e certos tipos de expresses numricas. Essa tarefa
estava dividida em trs subtarefas: entidades de nomes prprios (ENAMEX), expresses temporais
(TIMEX) e expresses numricas (NUMEX). Cada subtarefa era ainda subcategorizada da seguinte
forma: ENAMEX subcategorizada como organizao (ORGANIZATION), pessoa (PERSON) e lugar
(LOCATION); TIMEX podendo ser data (DATE) ou medidas de tempo (TIME); e finalmente (NUMEX)
podendo ser valores monetrios (MONEY) ou percentuais (PERCENT).
Para o processo de avaliao era necessrio seguir algumas regras de anotao do texto. A seguir
temos um exemplo de como um texto deveria ser anotado para o MUC:
... <ENAMEX TYPE=ORGANIZATION>Giants</ENAMEX> ...
Do exemplo temos que a palavra Giants uma entidade mencionada do tipo ENAMEX subcategorizado como uma organizao (ORGANIZATION). No MUC, um sistema de REM avaliado
considerando a sua capacidade de identificar o texto exato (TEXT) e de classificar o tipo correto
(TYPE) da EM. Um TYPE dado como correto se uma EM for classificada corretamente, independentemente dos limites da marcao, desde que haja pelo menos a sobreposio de um dos termos da
entidade. Um TEXT dado como correto se os limites da entidade esto corretos, independentemente
da classificao da entidade.
10
3.2
Assim, para cada EM corretamente identificada, tarefa TEXT, e classificada, tarefa TYPE, so
contabilizados dois pontos. Tambm admitido crdito parcial para erros que ocorrerem em apenas
uma das duas formas.
A preciso o percentual do nmero de respostas corretas (COR) dado o nmero de respostas
obtidos pelo sistema (ACT) e a cobertura o percentual dos nmero de respostas corretas dado o
nmero de possveis entidades na soluo (POS). A pontuao final a medida-F.
Para o exemplo da Tabela 3.1, temos a preciso, a cobertura e a medida-F igual a 40%, pois:
COR = 4 (2 TEXT + 2 TYPE), ACT = 10 (5 TEXT + 5 TYPE) e POS = 10 (5 TEXT + 5 TYPE).
Segundo Nadeau & Sekine [NS07], esta abordagem possui a vantagem de considerar todos os
tipos de erros apresentados na Tabela 3.2, alm de permitir crditos parciais para erros cometidos
em apenas uma das formas: TYPE ou TEXT.
A maior medida-F alcanada no MUC-6 foi de 96,42% [Chi95]. No MUC-7 o melhor sistema
obteve a medida-F de 93.39% [mucb]. De acordo com Palmer [PD97], os sistemas participantes
do MUC-6 tiveram bons desempenhos, no entanto, muitos deles utilizaram recursos especficos da
lngua inglesa para executar a tarefa de REM e no se sabe como seriam os desempenhos desses
sistemas em algum outro idioma.
Mais detalhes sobre a organizao e resultados do MUC podem ser encontrados em [muca].
3.2.2
CoNLL
A CoNLL (Conference on Computational Natural Language Learning) uma srie de conferncias que tem como objetivo promover a pesquisa e avaliao em diversas reas de PLN. Sua primeira
edio data de 1997.
A conferncia de 2002, CoNLL-2002, tinha como tarefa compartilhada a avaliao de sistemas
de REM independente de linguagem. Neste evento foram considerados quatro tipos de EM: pessoas,
lugares, organizaes e nomes de entidades diversas que no se encaixam em nenhuma das categorias anteriores. Os participantes recebiam dados de treino e teste para duas lnguas, holandesa
e espanhola, e poderiam tambm utilizar recursos extras para treinamento, alm dos dados fornecidos. Na conferncia de 2003, CoNLL-2003, novamente o REM independente de linguagem foi o
foco da tarefa compartilhada, porm as lnguas alvos desse evento foram as lnguas inglesa e alem.
Uma das principais tarefas dos participantes deste segundo evento era descobrir como melhorar o
desempenho dos seus sistemas de REM utilizando alguns recursos adicionais fornecidos pelo evento,
tais como listas de EM e textos no-anotados.
A avaliao dos sistemas baseada na comparao da medida-F. Uma EM considerada correta
apenas se o texto exato identificado e a sua classificao for correta. A preciso o percentual de
EM corretas que so encontradas pelo sistema. A cobertura o percentual de entidades presentes
no texto soluo que so encontradas pelo sistema.
Para o exemplo da Tabela 3.1, temos cinco entidades no texto soluo e cinco entidades encontradas pelo sistema sendo que apenas uma das entidades encontradas pelo sistema est completamente
correta. Portanto, temos a preciso, cobertura e medida-F com o mesmo valor: 20%.
O sistema participante que teve o melhor resultado no evento de 2002, mostrado em [CMP02],
conseguiu obter a medida-F de 81,39% para espanhol e 77,05% para holands. As maiores medidasF alcanadas na CoNLL-2003 foram 88,76% para a lngua inglesa e 72,42% para o alemo, obtido
pelo sistema descrito em [FIJZ03].
3.2
11
Podemos ver mais informaes sobre a srie CoNLL em [CoN10]; resultados e maiores detalhes
sobre a CoNLL-2002 em [Tjo02] e em [the02], e sobre a CoNLL-2003 em [the03] e em [TD03].
3.2.3
HAREM
A Linguateca um centro de recursos (distribudos) para o processamento computacional da

lngua portuguesa. Tem como objetivo facilitar o acesso aos recursos j existentes tais como crpus,
enciclopdias, textos em portugus; desenvolver em colaborao com os interessados, os recursos
mais prementes alm de organizar avaliaes conjuntas que envolvam a comunidade cientfica de
interesse em torno do PLN [Lin10].
O HAREM (Avaliao de Sistemas de Reconhecimento de Entidades Mencionadas) uma avaliao conjunta de sistemas de Reconhecimento de Entidades Mencionadas organizada pelo Linguateca, iniciado em 2005. Segundo Cardoso [Car06], o HAREM a primeira avaliao (conjunta) de
sistemas de REM em portugus. Teve como motivao o fato de sentirem que os eventos de avaliao de REM anteriores no tinham abordado a tarefa com profundidade suficiente, e o objetivo
de reunir a comunidade cientfica em torno de outro evento de avaliao dentro do processamento
da lngua portuguesa. Nesse intuito, os participantes tiveram um papel ativo na organizao do
HAREM, tendo colaborado na criao das diretivas e na anotao das colees.
A avaliao do HAREM segue um conjunto de diretivas estabelecidas junto com os participantes do prprio HAREM, a qual denominaram Diretivas de Avaliao do HAREM. Essas diretivas
representam o conjunto de pontuaes, regras e medidas usadas para comparar as sadas dos sistemas em relao Coleo Dourada, que o texto de comparao utilizado pelo evento, criado em
conjunto com a comunidade.
At a realizao deste trabalho o HAREM j organizou trs eventos de avaliao conjunta:
Primeiro HAREM: Evento organizado a partir de Setembro de 2004 com a realizao da
avaliao conjunta em Fevereiro de 2005;
Mini HAREM: Realizado em Abril de 2006, utilizou a mesma metodologia e a mesma
plataforma de avaliao da primeira avaliao;
Segundo HAREM: Organizado a partir de Novembro de 2007, teve a avaliao conjunta
realizada em Abril de 2008.
Nosso trabalho se concentra nas diretivas do Segundo HAREM. No Segundo HAREM os sistemas
so avaliados de acordo com a capacidade na tarefa de identificao de entidades e na tarefa de
classificao semntica. A avaliao da tarefa de identificao tem como objetivo medir a eficincia
do sistema na delimitao correta de entidades mencionadas. A avaliao da classificao semntica
tem como objetivo medir a eficcia do sistema na classificao de entidades mencionadas de acordo
com uma hierarquia de categorias, tipos e subtipos definidos para o evento. Podemos ver na Figura
3.1 a rvore de categorias utilizadas no Segundo HAREM. No Apndice A podem ser vistos exemplos
de textos organizados por categorias de entidades mencionadas.
Na avaliao do Segundo HAREM possvel escolher as categorias, tipos, subtipos ou outros
atributos que os sistemas pretendam etiquetar e serem avaliados, em funo do interesse que essas
etiquetas possam ter no contexto de outras aplicaes desenvolvidas ou a desenvolver por parte dos
participantes do evento, e que dependam direta ou indiretamente dessas informaes.
12
3.2
Figura 3.1: rvore de categorias no Segundo HAREM: as categorias, tipos e subtipos representados nas caixas com contorno slido preto s existem no Segundo HAREM; as categorias, tipos e subtipos representados
nas caixas com contorno pontilhado s existem no Primeiro HAREM. Figura extrada de [MS08].
A cada conjunto diferente de categorias dado o nome de cenrio seletivo de participao. A

avaliao em cenrios seletivos permite comparar o desempenho dos diferentes sistemas com base
em cada uma das categorias que se propuseram reconhecer, assim como em outros conjuntos de
categorias que possam fazer sentido.
Alm disso, no Segundo HAREM tambm dada a possibilidade dos sistemas anotarem as diferentes interpretaes de um segmento de texto, utilizando para isso uma etiqueta representativa de
alternativas: ALT. A avaliao considerando a etiqueta ALT pode ser estrita ou relaxada. Na avaliao estrita de ALT, todas as alternativas possveis para um segmento de texto so contabilizadas, e
cada alternativa tem um peso igual ao inverso do nmero de alternativas dentro deste segmento, por
exemplo, a todos os valores atribudos a EMs dentro de um ALT com trs elementos ser associado
um peso de 1/3. Desta forma o sistema s atingir o valor mximo possvel se tiver classificado as
trs alternativas em seu resultado. Na avaliao relaxada de ALT, selecionado apenas o elemento
ALT que maximiza a classificao do sistema.
Diretivas de Avaliao
A diretivas de avaliao representam o conjunto de pontuaes, regras e medidas usadas para
comparar as sadas dos sistemas em relao Coleo Dourada.
A pontuao a avaliao qualitativa da relao entre a resposta do sistema e o que est
na Coleo Dourada. Cada EM pode receber uma de trs pontuaes no que diz respeito sua
identificao:
3.2
13
Correta: quando a resposta do sistema coincide com a informao na Coleo Dourada;

Em Falta: quando o sistema no atribui uma dada entidade presente na Coleo Dourada;
Espria: quando o sistema encontra uma EM que no existe na Coleo Dourada.
Estas pontuaes tambm so utilizadas para pontuar a classificao atravs do clculo de
medidas.
As medidas permitem a transformao qualitativa da pontuao em um valor numrico. No
Segundo HAREM utilizado uma medida que combina a pontuao obtida na tarefa de identificao
e classificao das categorias, tipos e subtipos, possibilitando a atribuio de diferentes pesos a cada
um desses nveis e ainda a penalizao por classificaes incorretas. Tal medida referenciada como
Classificao Semntica Combinada (CSC). O clculo da CSC utilizada para avaliar uma dada
EM no Segundo HAREM dada pela Frmula 3.5.
1+
N
X
i=0
M
X
((1
((
i=0
1
ncats
).catcertai . + (1
1
ntipos
).tipocertoi . + (1
1
nsub
).subcertoi .)
1
1
1
).catespi . + catcertai .
.tipoespi . + tipocertoi .
.subespi .)
ncats
ntipos
nsub
onde:
(
Kcertoi =
(
Kespi =
se o atributo Ki estiver correto,
se Ki estiver incorreto ou omisso
1 Kcertoi
se o atributo Ki estiver preenchido,
se Ki estiver omisso
K {cat, tipo, sub}

ncats = nmero de categorias relativas ao cenrio em que o sistema est sendo avaliado.
ntipos = nmero de tipos para a categoria em questo.
nsub = nmero de subtipos para a hierarquia categoria-tipo em questo.
N = nmero de diferentes classificaes vagas na CD, de acordo com o cenrio seletivo.
M = nmero de classificaes esprias na participao, de acordo com o cenrio seletivo.
, , = parmetros correspondentes aos pesos das categorias, tipos e subtipos.
Exemplo de clculo da CSC
Supondo que a seguinte EM faa parte da Coleo Dourada:
Cames
(3.5)
14
3.2
E que os parmetros do cenrio de avaliao tenham os valores: = = = 1, ncats =

10, ntipolocal = 4, nsublocalvirtual = 4, ntipoobra = 4, ntipopessoa = 8, nsubobraarte = 1 e
nsublocalvirtual = 1.
Sada
1
2
Descrio
Com as mesmas classificaes
que esto na CD.
Exemplo



Apenas algumas das

classificaes da CD.
Apenas uma classificao com
categoria correta, porm tipo
e subtipo errados.
Tabela 3.3: Possveis anotaes de um sistema hipottico.
Algumas possveis sadas de um sistema hipottico esto representadas na Tabela 3.3 e so

pontuadas da seguinte forma:
Avaliao da sada 1 da Tabela 3.3: Nesta sada temos a mesma sada da CD, portanto
M = 0 e N = 3, desta forma podemos escrever a CSC para esta entidade como:
1 + (1
) + (1
) + (1
)
ncats
ntipolocal
nsublocalvirtual
1
1
1
+ (1
) + (1
) + (1
)
ncats
ntipoobra
nsubobraarte
1
1
1
+ (1
),
) + (1
) + (1
ncats
ntipopessoa
nsubpessoagrupoind
(3.6)
resultando em uma CSC igual a 6,825.

Avaliao da sada 2 da Tabela 3.3: Nesta existem duas categorias corretas (OBRA e
PESSOA) e uma categoria em falta, portanto N = 2. Para este exemplo a CSC :
1
1
) + (1
)
ncats
ntipoobra
1
1
+ (1
) + (1
),
ncats
ntipopessoa
1 + (1
(3.7)

Avaliao da sada 3 da Tabela 3.3: Na sada 3 temos um exemplo em que o sistema
classifica corretamente apenas uma categoria, N = 1, porm o tipo e subtipo esto incorretos.
Neste caso o esprio consideradoM = 1, e temos a CSC:
1 + (1
)
ncats
1
(1
),
ntipolocal
(3.8)
3.2
15

Mtricas
As Mtricas do Segundo HAREM seguem os critrios de preciso, cobertura, medida-F, sobregerao e sub-gerao. Estes dois ltimos medem, respectivamente, o excesso de resultados esprios
que um sistema produz e o quanto faltou o sistema analisar, dada a soluo conhecida. Neste evento
a preciso, cobertura e medida-F so calculadas usando, respectivamente, as equaes 3.9, 3.10 e
3.4.
P
(Pontuao obtida por cada EM)
Preciso =
Pontuao Mxima se as EM recuperadas pelo sistema estivessem corretas
P
(Pontuao obtida por cada EM)
Cobertura =
Pontuao Mxima da CD
(3.9)
(3.10)
Avaliao da Tabela 3.2 nos moldes do Segundo HAREM

Considerando a Coleo Dourada e a sada do sistema da Tabela 3.2, e configurando os parmetros de cenrio de participao de forma a permitir a comparao dos resultados deste exemplo
com os resultados obtidos com a avaliao conforme as especificaes dos outros eventos (MUC e
CoNLL), temos que configurar o sistema para identificar e classificar as EMs para as categorias
PERSON, ORGANIZATION, LOCATION, (ncats = 3), sem a proposta de identificao e classificao de tipos e sub-tipos, portanto: = 1, = = 0.
Com estas configuraes, cada EM poderia ter no mximo a pontuao de CSC igual a 1.6666.
Desta forma o valor mximo da CD seria 8,333 e a pontuao da CSC da classificao do sistema
seria 2,6666, resultando portanto, para a tarefa de classificao, o mesmo valor (32%) para a preciso,
cobertura e medida-F. O resultado para a tarefa de identificao pode ser visto na Tabela 3.4.
Descrio
Total de EMs na CD
Total de EMs identificadas pelo sistema
Total corretamente identificadas
Esprios
Em Falta
Preciso
Cobertura
Medida-F
Sobre-gerao
Sub-gerao
Valor
5
5
2
3
3
40%
40%
40%
60%
60%
Tabela 3.4: Resultado da tarefa de identificao dos dados da Tabela 3.2 avaliado nos moldes do Segundo
HAREM .
16
3.2
Resultados do Segundo HAREM

No Segundo HAREM, cada sistema participante recebeu um arquivo texto (igual para todos)
e tinha um prazo para a devoluo do texto anotado seguindo os critrios do Segundo HAREM.
Cada participante poderia enviar mais de uma verso anotada do mesmo texto.
Selecionamos os melhores resultados de cada sistema participante do Segundo HAREM, considerando a medida-F da tarefa de classificao de EMs avaliados no cenrio total. Podemos ver
na Tabela 3.5 os resultados da avaliao dos sistemas com ALT estrita. E na Tabela 3.6 esto
apresentados os resultados da avaliao dos sistemas com ALT relaxada.
Sistema
Priberam_1
REMBRANDT_2
XIP-L2FXerox_3
REMMA_1_corr
R3M_1
SeRELep_1
Cage2_4_corr
SEIGeo_4
PorTexTO_4_corr
DobrEM_1_corr
Preciso
Ident(%) Class(%)
69,94
64,17
75,77
64,97
72,14
65,66
70,83
60,50
76,44
76,44
81,78
81,78
50,59
44,99
89,63
74,85
70,03
67,90
45,30
45,30
Cobertura
Ident(%) Class(%)
72,29
51,46
62,14
50,36
53,15
46,52
45,16
36,15
61,70
25,20
59,15
24,15
37,87
27,57
13,58
11,66
8,98
8,82
1,79
0,73
F1
Ident(%)
71,10
68,28
61,21
55,15
68,28
68,65
43,32
23,59
15,92
3,44
Class(%)
57,12
56,74
54,46
45,26
37,90
37,29
34,19
20,18
15,61
1,44
Tabela 3.5: Melhores resultados da Medida-F de classificao de cada sistema participante do Segundo
HAREM no cenrio total com ALT estrita.
Sistema
Priberam_1
REMBRANDT_2
XIP-L2F/Xerox_3
REMMA_1_corr
R3M_1
SeRELep_1
Cage2_4_corr
SEIGeo_4
PorTexTO_4_corr
DobrEM_1_corr
Preciso
Ident(%) Class(%)
71,88
65,92
77,26
66,22
73,65
66,64
72,64
62,26
78,20
78,20
83,43
83,43
53,22
47,51
90,16
75,58
71,15
68,99
45,96
45,96
Cobertura
Ident(%) Class(%)
74,85
53,52
63,84
51,73
55,27
48,40
46,60
37,50
64,36
26,33
61,53
25,12
39,16
28,65
14,10
12,14
9,24
9,09
1,84
0,75
F1
Ident(%)
73,33
69,91
63,15
56,78
70,61
70,83
45,12
24,39
16,36
3,54
Class(%)
59,08
58,08
56,07
46,81
39,40
38,61
35,74
20,92
16,06
1,48
HAREM no cenrio total com ALT relaxada.
De acordo com Freitas [FMS+ 10], dos dez sistemas de REM avaliados no segundo HAREM,
realizado em Abril de 2008, apenas o sistema R3M adotou a abordagem de aprendizado de mquina,
enquanto os outros fizeram uso de codificaes manuais de regras em combinao com dicionrios e
ontologias. Isso mostra que a grande parte da comunidade que se dedica ao REM em portugus no
tem adotado as tcnicas de Aprendizado de Mquina, o que uma situao contrria ao observado
nos sistemas de REM para a lngua inglesa. Esse fato tambm foi observado no Primeiro HAREM,
onde de nove sistemas, apenas dois foram treinados utilizando textos marcados.
3.3
COMENTRIOS
17
Ferramenta de Avaliao do Segundo HAREM

Para avaliao de sistemas aos moldes do Segundo HAREM e comparao de resultados com
os sistemas participantes, os organizadores disponibilizaram um servio de avaliao que segue as
diretivas do Segundo HAREM.
Segundo Cardoso [MS08], o SAHARA1 (Servio de Avaliao HAREM Automtico) um servio na rede que permite a avaliao imediata de sadas de sistemas de REM de acordo com o
ambiente de avaliao usado no Segundo HAREM.
Uma avalio utilizando o SAHARA realizada em trs passos:
1. Validao da participao: Onde verificado se o arquivo est seguindo as anotaes do
Segundo HAREM.
2. Configurao: Passo em que possvel manipular os pesos relacionados s categorias, tipos
e subtipos, bem como escolher os cenrios de participao e avaliao do sistema.
3. Apresentao dos resultados: Exibio de tabelas e grficos comparativos dos resultados
do sistema.
3.3
Comentrios
Com as conferncias aqui citadas, podemos observar as diferenas das abordagens no processo
de avaliao dos sistemas participantes de cada evento, bem como os desafios e recursos propostos
por cada um. Essas diferenas dificultam a definio do estado-da-arte sobre o problema, porm nos
fornecem boas pistas sobre as preocupaes que devemos ter ao desenvolver um sistema de REM.
Para o desenvolvimento e teste do nosso sistema optamos por utilizar os moldes de avaliao do
CoNLL devido simplicidade de implementao e por ser o mtodo mais restrito de avaliao de
classificao de uma EM se comparado aos outros eventos discutidos.
No entanto, para avaliao final do nosso sistema, utilizamos as diretivas do Segundo HAREM
e suas concluses. Para efetuar a comparao dos resultados dos textos de sada do nosso sistema
com os resultados dos sistemas participantes do Segundo HAREM, utilizamos o SAHARA.
http://www.linguateca.pt/SAHARA/
18
3.3
Captulo 4
Aprendizado de Mquina
4.1
Introduo
O Aprendizado de Mquina (AM) uma rea da Inteligncia Artificial que tem como objetivo
o desenvolvimento de tcnicas computacionais que permitem a construo de sistemas capazes de
adquirir conhecimento de forma automtica a partir de exemplos. Estas tcnicas so possveis porque
os dados no-aleatrios geralmente possuem algum padro, e tais padres permitem que a mquina
extraia generalizaes. Com esses dados, ento possvel obter importantes aspectos sobre a massa
de dados na qual o modelo foi treinado [Seg07]. Veremos a seguir alguns conceitos preliminares de
aprendizado de mquina e apresentaremos algumas tcnicas desta rea que so importantes para o
nosso trabalho.
4.1.1
Diviso do Aprendizado de Mquina
Segundo Russell & Norvig [RN95], geralmente um dos fatores mais importante na determinao
da natureza do problema de aprendizado o tipo de retorno disponvel para aprendizado no qual
o algoritmo se depara. O AM usualmente dividido em trs tipos: aprendizado supervisionado,
no-supervisionado e de reforo.
No aprendizado supervisionado, primeiramente necessrio uma amostra de treinamento em
que o algoritmo possa aprender uma funo a partir dela, e que essa amostra possua exemplos
de dados de entrada e sadas desejadas. Esse processo conhecido como treinamento do modelo ou
simplesmente treinamento. Com o modelo treinado, possvel inferir dados ainda no vistos. No
contexto de PLN, o texto marcado utilizado como amostra dos dados.
No aprendizado no-supervisionado tambm necessrio uma amostra de treinamento, porm
essa amostra no possui os exemplos de sadas desejados, apenas exemplos de entrada. O objetivo
encontrar regularidades com essa amostra, isto , uma estrutura dos dados de entrada, tais como
certos padres que ocorrem mais do que outros e ver o que geralmente ocorre e o que no ocorre
[Alp04]. O agrupamento uma tcnica de aprendizado no-supervisionado.
No aprendizado por reforo o algoritmo aprende uma poltica de como agir dada uma observao
do mundo. Cada ao tem algum efeito no ambiente, e o ambiente fornece o gabarito que guia o
algoritmo no processo de aprendizagem. Nesses sistemas, a sada uma sequncia de aes a serem
executadas. Em tais casos, uma simples ao isolada no importante, o que importante a
poltica de sequncia de aes corretas para alcanar o objetivo. O programa de aprendizado de
19
20
4.1
APRENDIZADO DE MQUINA
mquina por reforo precisa ser capaz de avaliar quo boas so as polticas e aprender a partir de
uma boa sequncia de aes vista anteriormente para ser capaz de gerar uma boa poltica [Alp04].
4.1.2
Definies Preliminares
Veremos algumas definies de termos da rea de AM que sero teis para o desenvolvimento
do nosso trabalho. Para isso tomaremos como ponto de partida o seguinte problema: Suponhamos
que desejamos ensinar um programa a classificar frutas, e queremos que ele identifique a classe C,
que indica o que uma ma. Considere que o computador esteja preparado com vrios sensores e
indicadores para extrair caractersticas fsicas de objetos; por exemplo, peso, volume, cor, formato
e etc. Tambm necessrio um conjunto de frutas, contendo mas e outras frutas, para o processo
de aprendizado do computador. Para que o processo de ensino acontea, devemos pegar as frutas
de uma a uma e fornec-las aos sensores para que possa registrar os dados, e junto com esses dados
uma entrada humana, informando a fruta apresentada nos sensores. Para nosso exemplo, a nica
entrada humana a indicao de que a fruta apresentada uma ma ou no.
Depois de algumas amostras, suponhamos que tenhamos chegado concluso de que dentre
vrias caractersticas que as frutas possuem, existem duas que definem dentre todas as frutas, o
que uma ma. Vamos considerar para ilustrao que apenas a massa e o volume so necessrios
para indicar o que uma ma. Claro que existem vrias outras caractersticas relevantes para essa
deciso, porm, escolhemos apenas duas para facilitar o entendimento.
Extraindo as definies de termos de AM do exemplo citado, temos:
Atributo: Descreve uma caracterstica, ou um aspecto de um exemplo. Do exemplo apresentado temos os atributos massa e volume. Vamos denotar a massa como nosso primeiro
atributo de entrada x1 e volume como o segundo atributo x2 .
Exemplo ou dado: uma tupla de valores de atributos ou um vetor de valores de atributos.
Descreve o objeto de interesse. Ento nossa representao de cada fruta
"
x=
x1
x2
#
.
(4.1)
Conceito, rtulo ou classe: um atributo especial que descreve o fenmeno de interesse.

o que desejamos aprender para fazer futuras previses. O rtulo representado por uma
funo do tipo
(
f (x) =
1 se x um exemplo positivo
0 se x um exemplo negativo.
(4.2)
Do nosso exemplo temos a classe C, que classifica a fruta como sendo uma ma, ento
podemos ter a etiqueta
(
r=
1 se exemplo uma ma
0 se exemplo no uma ma.
(4.3)
Conjunto de exemplos: composto por exemplos do domnio de estudo contendo valores

de atributos e a classe associada para cada exemplo. Para nosso conjunto X de exemplos com
4.1
INTRODUO
21
N elementos podemos representar cada fruta por um par (x,r)

X = {xt , rt }, 1 t N,
(4.4)
onde o ndice t indica diferentes exemplos no conjunto.

O conjunto de exemplos usualmente divido em dois subconjuntos disjuntos: O conjunto de
treinamento usado para aprendizado do conceito e o conjunto de teste usado para medir a
eficcia do classificador. Para o problema de reconhecimento de ma, o conjunto de frutas
dispostas nos sensores e a informao de seus rtulos o conjunto de treinamento, e as que
sero fornecidas para reconhecimento automtico fazem parte do conjunto de teste. Essa diviso muito til, pois suponha que no nosso conjunto de treinamento no houvessem laranjas
e no conjunto de testes houvessem algumas. Na etapa dos testes seria possvel que o sistema
indicasse que uma laranja uma ma, e com isso teramos indcios de que precisaramos fazer
uma outra seleo de caractersticas ou que nosso conjunto de treinamento no est bom o
bastante, e talvez seja necessrio aument-lo, quem sabe fornecendo tambm algumas laranjas
para que o sistema possa inferir diferenas.
Figura 4.1: Conjunto de treinamento para a identificao de uma ma. Cada ponto corresponde a uma
fruta e as coordenadas indicam a massa e o volume da fruta. Os pontos com um sinal positivo indicam
quando a fruta uma ma, e sinal negativo outra fruta qualquer.
Podemos representar nosso conjunto de treinamento em um grfico bi-dimensional (x1 , x2 ), de

acordo com a Figura 4.1, onde cada instncia t um ponto na coordenada e seu tipo indicado
pelo sinal positivo quando for uma ma e negativo em caso contrrio.
Com a anlise da Figura 4.1 temos razes para acreditar que de um conjunto de frutas saberemos
se uma dada fruta uma ma se ela respeitar a equao
m1 massa m2 e v1 volume v2
(4.5)
para possveis valores de m1 ,m2 ,v1 e v2 . A equao 4.5 nos fornece um espao de hipteses H, em
que cada qudrupla (m1 ,m2 ,v1 ,v2 ) define uma hiptese h H e que a classe C seja um retngulo
no espao massa-volume, como representado na Figura 4.2. O algoritmo de aprendizagem, tambm
22
4.1
conhecido como indutor, tem o objetivo de encontrar uma hiptese h que se aproxime de C tanto
quanto possvel.
Figura 4.2: Exemplo de uma hiptese. A classe C de mas o retngulo no espao massa-volume.
Podemos ento descrever a tarefa de AM como sendo a tarefa de encontrar uma descrio
satisfatria de um conceito a partir de exemplos e de conhecimento prvio do domnio de interesse.
Para um estudo mais aprofundado sobre os conceitos aqui citados e mais detalhes de AM, ver
Alpaydin[Alp04].
4.1.3
Paradigmas de Aprendizado de Mquina e Modelos de Linguagem
Existem diversos algoritmos para resolver o problema de obteno de hipteses, e dependendo

da forma de representao e da tcnica utilizada para a obteno das hipteses como uma funo de
classificao, esses algoritmos podem ser divididos em diferentes reas de concentrao, tais como
mtodos simblicos, estatsticos, redes neurais ou conexionistas e mtodos hbridos.
Os mtodos estatsticos so baseados em resultados de probabilidade, estatstica e teoria da
informao, e usam o modelo obtido para encontrar uma boa aproximao do conceito induzido.
Para a obteno de informaes sobre o domnio do objeto de estudo, necessrio um conjunto de
exemplos sobre esse domnio contendo informaes que possam ser usadas para inferir o modelo. No
contexto de PLN geralmente so utilizados textos marcados no aprendizado supervisionado para
inferncia do modelo (vide Seo 2.1.1).
4.1.4
Validao Cruzada
Como exemplificado na Seo 4.1.2, para avaliar uma hiptese necessrio separar uma parte
dos dados para o conjunto de teste e outra para o conjunto de treinamento. Se o conjunto de
dados disponvel grande o bastante, podemos aleatoriamente dividi-lo em K partes. Cada parte
dividida aleatoriamente em duas outras, uma para treino e outra para teste. Porm, infelizmente,
nem sempre o conjunto de dados disponvel grande o bastante para que este tipo de diviso
possa ser feito. Se o conjunto de testes for muito pequeno, a nossa hiptese poder no ter uma
boa performance em termos de predio. No entanto, se separarmos um conjunto maior para a
realizao de testes, estaremos diminuindo o conjunto de treinamento. Desta forma, se tivermos
4.2
APRENDIZADO DE MQUINA APLICADO AO PLN
23
uma quantidade pequena para treino poderemos ter um impacto negativo significante na eficcia
do classificador.
Uma soluo para este problema a Validao Cruzada de K instncias (do ingls, KFold Cross-Validation). Na validao cruzada de K instncias, o conjunto de dados disponvel
dividido aleatoriamente em K instncias de tamanhos 1/K. Para gerar cada par de conjunto treinoteste, uma das K instncias mantida como conjunto de teste e as outras K 1 so utilizadas
para treinamento. Esse processo repetido K vezes usando cada uma das outras K 1 instncias
como conjunto de teste e o restante para treino. A taxa de acerto final ser dada pela mdia
aritmtica simples dos K valores de taxa de acerto encontrados para cada uma das instncias.
Desta forma, mesmo que as instncias individualmente sejam pequenas demais para fornecer uma
avaliao precisa, a combinao dos valores obtidos com cada uma baseada em uma grande
quantidade de dados e por isso mais confivel. Outra vantagem desta abordagem que ela permite
examinar o desempenho em diferentes conjuntos de treinamento.
Mais sobre esse assunto pode ser consultado em Alpaydin[Alp04], Russell & Norvig [RN95] e
Manning & Schtze [MS99].
4.2
Aprendizado de Mquina aplicado ao PLN
Nas sees seguintes veremos algumas tcnicas de aprendizado de mquina aplicado em tarefas
de PLN que so interessantes para o nosso trabalho.
4.2.1
Maximizao de Entropia
O modelo de Mxima Entropia (ME), tambm muito referenciado como arcabouo de mxima
entropia, uma tcnica estatstica bastante empregada na resoluo de vrias tarefas de PLN.
Uma grande vantagem do seu uso o fato de permitir ao modelador de uma determinada tarefa concentrar-se na seleo de caractersticas teis ao propsito de sua tarefa deixando para o
arcabouo de ME o trabalho de atribuio de pesos para essas caractersticas. Outra vantagem
a possibilidade do uso de uma grande variedade de fontes de informaes para o processo de
classificao.
Na teoria da informao, a entropia pode ser definida como uma medida nica e sem ambiguidade para a incerteza representada por uma distribuio de probabilidade. Em outras palavras, a
entropia mede a quantidade de informao em uma varivel aleatria. A entropia maior quando
a distribuio de probabilidades se aproxima da distribuio uniforme e seu mximo ocorre quando
uma dada distribuio p uma distribuio uniforme.
O objetivo do arcabouo de ME construir um modelo de distribuio de probabilidade p que
se aproxime de p, tal que p seja uma distribuio de probabilidade emprica obtida atravs de um
conjunto de treinamento. No modelo de ME, cada caracterstica corresponde a uma restrio do
modelo e representada por uma funo binria, chamada de funo caracterstica. As funes
caractersticas relacionam as classes com os contextos. Se A = {a1 aq } representa o conjunto
de possveis classes que estamos interessados em prever, e B representa o conjunto de possveis
contextos ou material textual que podemos observar, ento uma funo caracterstica uma funo
24
4.2
da forma:
(
f (a, b) =
1 , se a = a
e b = b
0 , caso contrrio
(4.6)
onde a
uma classe especfica e b um contexto especfico.
Para um dado conjunto de funes caractersticas, necessrio primeiramente calcular a esperana de cada funo baseado nos dados de treinamento. Cada funo caracterstica define que
a restrio da esperana da funo no modelo final seja a mesma da esperana emprica. De todas as distribuies de probabilidades que obedecem essas restries, utilizada a distribuio que
maximiza a entropia.
O procedimento de estimao de ME combina as evidncias obtidas do treinamento utilizando
um modelo log-linear e produz um modelo em que a toda funo caracterstica fj est relacionado
um parmetro j . O parmetro j pode ser interpretado como um peso para a sua funo fj
correspondente
fj (a,b)
j=1 j
Qk
p(a|b) =
Z(b) =
Z(b)
k
XY
f (a,b)
j j
(4.7)
(4.8)
aA j=1
onde k o nmero de funes caractersticas e Z(b) um fator de normalizao que garante que
P
aA p(a|b) = 1. A probabilidade p(a|b) o produto normalizado das funes caractersticas que
so ativadas pelos pares (a, b).
Os pesos 1 k da distribuio de probabilidade p que melhor representam os dados de
treinamento podem ser obtidos utilizando os algoritmos e tcnicas de estimao Escalonamento
Iterativo Melhorado (IIS)1 [BPP96], Escalonamento Iterativo Generalizado (GIS)2 [DR72].
Para esclarecimento do uso do mtodo de mxima entropia, vejamos um simples exemplo.
Exemplo de aplicao de Mxima Entropia
Suponha que desejamos identificar a classificao morfolgica da palavra jabulane, considerando que o conjunto de etiquetas de classificao C seja: SUBS para substantivo singular, ADJ
para adjetivo, SUBP para substantivo plural, VB para verbo e NPS para nome prprio singular.
A distribuio de probabilidade que faz o menor nmero de suposies sem imposio de restries, seria a distribuio equiprovvel, como podemos ver na Tabela 4.1, linha a.
Supondo que dado um conjunto de treinamento, foi observado o fato de que a palavra jabulane s ocorre para as etiquetas {SUBS, ADJ, SUBP, VB}. Com esse novo conhecimento pode-se
restringir o modelo de forma a respeitar a equao:
p(SU BS) + p(ADJ) + p(SU BP ) + p(V B) = 1.
(4.9)
Assim, o modelo alterado respeitando a restrio dada pela Equao 4.9 e uma nova distri1
2
Improved Iterative Scaling

Generalized Iterative Scaling
4.2
25
a
b
c
d
SUBS
1/5
1/4
4/10
4/10
ADJ
1/5
1/4
1/10
3/20
SUBP
1/5
1/4
4/10
4/10
VB
1/5
1/4
1/10
1/20
NPS
1/5
0
0
0
Tabela 4.1: Distribuies de probabilidade para a classificao gramatical da palavra jabulane.
buio realizada sem fazer suposies alm das informaes conhecidas, (veja Tabela 4.1, linha
b).
Continuando com o treinamento do modelo, suponha que observado que 80% das vezes a
palavra jabulane etiquetada como SUBS ou SUBP, fornecendo assim mais uma restrio:
p(SU BS) + p(SU BP ) = 8/10.
(4.10)
Alteramos novamente o modelo, dessa vez com duas restries, originando uma nova distribuio,
como podemos ver na Tabela 4.1, linha c.
Agora, suponha que no existam mais informaes sobre a palavra em questo, porm, observado que de cada vinte palavras uma classificada como VB. Podemos ento adicionar a seguinte
restrio ao modelo:
p(V B) = 1/20.
(4.11)
Ento, para o nosso exemplo, a distribuio de probabilidade que respeita todas as restries
obtidas do conjunto de treinamento apresentado na Tabela 4.1, linha d.
Para mais detalhes e maiores discusses sobre os mtodos de estimao e aplicaes do arcabouo
de mxima entropia, consulte Jurafsky [JM08], Ratnaparkhi [Rat98] e Adam Berger [Ber96].
4.2.2
Aprendizado Baseado em Transformao Guiada por Erro
O Aprendizado Baseado em Transformao Guiada por Erro (TBL) (a sigla do ingls TransformationBased Error-Driven Learning), tambm conhecido como mtodo de Brill, uma tcnica de aprendizado supervisionado guiado por erros. Foi introduzido por Eric Brill no contexto de etiquetamento
morfolgico [Bri95] e posteriormente utilizado em diferentes tarefas de PLN.
O TBL baseado em regras de transformaes. Cada regra aprendida automaticamente atravs
da avaliao dos erros cometidos por um classificador inicial. O classificador inicial aplicado
em uma verso no-anotada de um texto anotado, reanotando-o. O TBL ento compara o texto
reanotado com a verso anotada original, gerando uma lista ordenada de regras de transformaes.
Tais regras so geradas a partir de moldes de regras de transformaes fornecidas pelo modelador,
e so compostas basicamente por aes e condies. Podemos verificar na Tabela 4.2 alguns
moldes aplicado por Brill [Bri95] na tarefa de etiquetamento morfolgico. As aes representam as
regras que efetivamente atribuem ou alteram a etiqueta de uma palavra. As condies descrevem o
contexto em que cada ao deve ser ativada.
Em suma, para desenvolver uma aplicao especfica utilizando o TBL necessrio um classificador inicial, um conjunto de regras de transformaes (aes e condies) e uma funo objetivo
26
4.2
Ao: Alterar a etiqueta a para b quando....

1- A palavra anterior (seguinte) for w.
2- A segunda palavra anterior (seguinte) for w.
3- Uma das duas palavras seguintes (anteriores) for w.
4- A palavra corrente for w e a anterior (seguinte) for x.
5- A palavra corrente for w e a etiqueta da anterior (seguinte) for z.
6- A palavra corrente for w.
7- A palavra anterior (seguinte) for w e a etiqueta da anterior (seguinte) for t.
Tabela 4.2: Moldes de regras utilizados por Brill. Cada linha uma condio que ativa a ao; w e x
so variveis que representam as palavras presentes no texto de treinamento; z e t representam as etiquetas
possveis do conjunto de treinamento.
para comparar a anotao do classificador inicial ao texto original e escolher uma transformao.
Figura 4.3: Esquematizao do processo de aprendizado do TBL.
A Figura 4.3 ilustra como o processo de aprendizado do TBL funciona. Tal processo pode ser
descrito como:
1. Aplicar o classificador inicial sobre o crpus no anotado;
2. Verificar as transformaes que podem ser aplicadas ao crpus, utilizando as duas verses
anotadas;
3. Selecionar a transformao T que obtm a maior pontuao no processo de correo;
4. Armazenar T lista ordenada de transformaes;
5. Aplicar T sobre o crpus;
6. Repetir o processo a partir do passo 2 at que no existam melhoras substanciais.
4.2
27
Para um exemplo aplicado na tarefa de etiquetamento morfolgico, uma possvel ao seria:

Altere a etiqueta de verbo para substantivo.
E um exemplo de condio:
A palavra anterior um artigo definido.
Tal regra de transformao com a condio satisfeita pode atuar sobre a frase:
O/artigo poder/verbo de/preposio voar/verbo.
E corrigir erro contido, aplicando a ao devida:
O/artigo poder/substantivo de/preposio voar/verbo.
Uma variante do mtodo de Brill aplicado ao etiquetamento morfolgico para a lngua portuguesa pode ser consultada no trabalho de Chacur e Finger [AF99].
4.2.3
Aprendizado de Transformao Guiado por Entropia
O Aprendizado de Transformao Guiado por Entropia (ETL) (sigla de Entropy Guided Transformation Learning) uma estratgia de aprendizado de mquina que combina as vantagens do uso
das rvores de Decises (AD) em conjunto com o TBL.
Nesta tcnica, as ADs so utilizadas para a produo e seleo de moldes de regras de transformaes a serem fornecidas ao processo de aprendizado do TBL (ver Seo 4.2.2) para a gerao
de regras de transformaes concretas. A Figura 4.4 ilustra a proposta do mtodo.
Figura 4.4: Esquematizao do processo do ETL.
Esta abordagem foi proposta por Santos [dSM09] e aplicada a trs diferentes tarefas da lingustica computacional: extrao de sintagmas nominais do portugus, extrao de sintagmas bsicos
do ingls e anlise sinttica parcial do ingls.
Segundo Santos [dSM09], o processo utilizado para obteno de moldes a partir da AD inclui
uma busca em profundidade transversal sobre a AD. Para cada n visitado criado um novo modelo
de regra a partir da combinao do modelo criado at o n pai, adicionando a caracterstica que foi
utilizada para separar os dados naquele n.
28
4.2
A Figura 4.5 mostra um excerto de uma AD gerada para a tarefa de segmentao de texto
do ingls. A segmentao de texto uma tarefa de PLN que consiste em dividir uma sentena em
palavras sintaticamente correlacionadas, porm sem especificar suas funes na sentena e nem a
estrutura interna dos constituintes.
Na Tabela 4.3 podemos verificar uma lista de moldes de regras que foram extrados da AD
exibida na Figura 4.5 utilizando o mtodo descrito, onde: CK_0 representa a etiqueta de chunk da
palavra corrente (obtido pelo classificador inicial); CK_-1 representa a etiqueta de chunk da palavra
anterior; CK_1 representa a etiqueta de chunk da palavra seguinte; POS_0 representa a etiqueta de
classificao gramatical da palavra corrente e WRD_0 representa a palavra corrente.
Figura 4.5: Excerto de uma rvore de Deciso na tarefa de segmentao de texto. Figura extrada de
[dSM09].
Conjunto de moldes de regras.

CK_0
CK_0 CK_1
CK_0 CK_1 WRD_0
CK_0 CK_1 WRD_0 CK_-1
CK_0 CK_1 POS_0
CK_0 CK_-1
Tabela 4.3: Conjunto de moldes de regras para a tarefa de segmentao de texto.
De acordo com Santos, as caractersticas mais informativas so aquelas que aparecem no incio
do caminho da raiz s folhas, e uma vez que se deseja gerar os moldes de regras mais promissores,
apenas os moldes mais informativos so combinados.
Captulo 5
Trabalhos Relacionados
Diferentes tcnicas so aplicadas para a resoluo do problema de REM, tais como sistemas
baseados em regras e tcnicas de aprendizado de mquina, fazendo uso de almanaques de nomes
prprios, locais e organizaes; e aquisio automtica de entidades extradas de bases de conhecimento especfico para o problema. Alguns desses sistemas fazem uso de regras especficas da
linguagem adicionados ao uso de tcnicas de aprendizado de mquina, fazendo assim o seu sistema mais especializado para uma lngua ou outra. Neste captulo veremos algumas abordagens
que utilizaram o aprendizado de mquina para a resoluo do problema de REM.
5.1
Abordagens na resoluo do problema de REM
Antes de citar as diferentes abordagens de AM na tentativa de resoluo do problema de REM,

interessante citar aqui o sistema PALAVRAS de Bick [Bic06], dado o seu resultado na participao do Primeiro HAREM. O PALAVRAS-NER descrito em [Bic06] um sistema de gramtica
restrita com nveis progressivos e trata o processo de REM como uma tarefa integrada sua marcao gramatical. Na sua verso original o seu conjunto de entidades mencionadas est dividido
em seis categorias e cerca de vinte subcategorias. Em sua participao no Primeiro HAREM, obteve a medida-F de 80,61% na tarefa de identificao, o que o colocou como vencedor na avaliao
desta medida. , portanto, referenciado em alguns outros trabalhos de REM em portugus para
comparao de resultados da medida-F.
5.1.1
TBL aplicado ao REM
Em [MDC07], so apresentadas sete abordagens de modelagem utilizando tcnicas de aprendizado de mquina para construo de REM para o portugus. As entidades podem ser classificadas
nas categorias pessoa (PER), localidade (LOC), organizao (ORG) e outros (O). Ainda neste trabalho foram utilizados almanaques e combinaes das tcnicas Modelos Ocultos de Markov (HMM),
Mquina de Vetores Suporte (SVM) e Aprendizado Baseado em Transformao (TBL) de diferentes
formas (ver Tabela 2 de [MDC07]). Com o SVM combinado com o uso de dicionrios conseguiram
obter a medida-F de 88,11%, o que um bom resultado se comparado com o PALAVRAS-NER,
apesar de esta comparao no poder ser levada completamente em considerao devido diferena
das mtricas adotadas, os crpus utilizados e o nmero de categorias em que ambos trabalharam.
A seguir detalharemos a aplicao do TBL na tarefa de REM para o portugus.
29
30
TRABALHOS RELACIONADOS
5.1
TBL
Segundo Milidi [MDC07], para aplicar TBL tarefa de REM, alguns moldes de regras do TBL
precisam ser especializados para esta tarefa.
Como visto na Seo 4.2.2, para a construo de uma aplicao utilizando o TBL, necessrio
um classificador inicial, um conjunto de regras e uma funo objetivo. Nesta modelagem foram
testados dois diferentes classificadores iniciais: um classificador BLS (Baseline System) e um classificador HMM. Para representao das regras foram testados muitos conjuntos de moldes efetuando
combinaes de palavras, etiquetas morfolgicas e etiquetas de EM. Ainda segundo Milidi, o melhor conjunto de moldes encontrados, consiste de alguns moldes genricos em conjunto com alguns
especficos. O molde genrico usa uma combinao de caractersticas na vizinhana de dois tokens. Os moldes especficos buscam por padres especficos, principalmente por sequncias de EM,
preposies, artigos, advrbios e substantivos.
1
2
3
ner[0] word[-1] pos[-1] word[-2] pos[-2];

ner[0] word[-1,-3]_where{pos=PREP} word[-1,-3]_where{pos=ART} pos[-1];
ner[0] ner[-2,-2]_where{ner=LOC} pos[-1];
Tabela 5.1: Moldes de regras para TBL aplicado tarefa de REM.
Na Tabela 5.1 podemos verificar alguns moldes de regras utilizados neste trabalho. O primeiro
molde cria boas regras sempre que um erro puder ser corrigido atravs do uso das duas palavras
e etiquetas morfolgicas anteriores ao token analisado. O segundo molde gera regras baseadas na
juno da preposio com um artigo. O ltimo tenta obter sequncias de entidades do tipo lugares.
Depois de treinado o modelo, as duas regras com maiores pontuaes so:
1. ner[0]=COM pos[-1]=PREP ner=PER;
2. ner[0]=COM word[-3,-1]_where{pos=ART}=o pos[-1]=N ner=PER;
O crpus utilizado nesse trabalho continha 2100 sentenas j anotadas com etiquetas morfolgicas e 3325 exemplos de EM, e referenciado como LearnNEC06. As categorias de EM utilizadas
foram: Pessoas, Organizaes e Locais. Utilizando o BLS como classificador inicial no processo do
TBL, foi alcanado, na mdia de execues, a medida-F de 87,26%, e utilizando o HMM como
classificador inicial, a medida-F alcanada foi de 75,27%, ambos para a tarefa de classificao.
5.1.2
ETL
Em [MdSD08] apresentado uma abordagem do uso do ETL para a tarefa de REM. Neste trabalho foram utilizados como caractersticas: palavras, etiquetas morfolgicas, etiquetas de sintagmas
nominais e etiquetas de EM. Adicionalmente, foram utilizadas duas outras caractersticas:
1. Informao de capitalizao, fornece uma classificao do token em uma das seguintes
categorias: primeira letra maiscula, todas as letras maisculas, todas as letras minsculas,
nmero, pontuao, nmero com / ou com - em alguma parte, nmero finalizando com
h ou hs ou outros;
5.1
ABORDAGENS NA RESOLUO DO PROBLEMA DE REM
31
2. Membro de dicionrio que pode estar em uma das seguintes categorias: Upper, Lower, Both
or None.
Na etapa da AD, apenas as 100 palavras mais frequentes foram utilizadas. A etiqueta de EM da
palavra corrente a etiqueta aplicada pelo classificador inicial e as etiquetas de EM das palavras
vizinhas so as etiquetas reais.
Em uma tentativa de melhorar o sistema produzido, foi utilizada uma estratgia de duas fases:
Primeiramente foi treinado um classificador ETL para as entidades: pessoas, organizaes e locais.
Nesta primeira etapa, utilizaram o crpus LearnNEC06. Em seguida outro classificador ETL foi
treinado, desta vez utilizando o primeiro classificador ETL como classificador inicial. Este segundo
classificador, foi treinado para as entidades: pessoas, organizaes, localidades, datas e valores.
Alm disso, na etapa de treinamento foram utilizados os crpus Primeiro HAREM, Mini HAREM
e LearnNEC06.
Utilizando esta abordagem nos crpus do Primeiro HAREM, alcanaram a medida-F de 63,27%
na tarefa de classificao de entidades no cenrio completo e a medida-F de 70,02% na tarefa de
classificao em um cenrio seletivo considerando apenas as categorias: Pessoa, Organizao, Locais,
Datas e Valores.
5.1.3
Mxima Entropia
O sistema MENE (do ingls Maximum Entropy Named Entity), de Borthwick [BSAG98],
um sistema de REM construdo sobre o arcabouo de Mxima Entropia e foi um dos sistemas
participantes do MUC-7. Para o MENE, cada etiqueta x que representa uma entidade pode estar
em um dos seguintes estados: x_start, x_continue, x_end e x_unique. Adicionalmente inserido ao
conjunto de possveis etiquetas a etiqueta other indicando que o token em questo no uma EM.
Por exemplo, a frase Jerry Lee Lewis Flew to Paris poderia ser etiquetado como person_start,
person_continue, person_end, other, other, location_unique.
O conjunto de etiquetas em seus possveis estados mais a etiqueta other formam o conjunto F ,
que chamaremos de Classes, utilizado para a formulao do problema de REM sobre o arcabouo
de Mxima Entropia. O conjunto de todas as possveis condies que possibilitam tomar uma
deciso sobre o conjunto F chamado de Contexto. Cada item desse conjunto, chamado de Item de
Contexto, armazena informaes sobre um horizonte limitado do token corrente. O token corrente
denotado como w0 , e o MENE armazena informaes sobre os token w1 w1 para todos os
itens de contextos com exceo das caractersticas lxicas, que nesse caso tem uma janela maior
w2 w2 .
Desta forma o problema de REM pode ser reformulado como a busca da probabilidade da Classe
f F associado ao token de ndice t no crpus de treinamento:
p(f |ht ) = p(f |Informaes relativas ao token t extradas do crpus).
(5.1)
O clculo de p(f |ht ) depende do conjunto de caractersticas (features) que utilizado para prever
a classificao de um token. Como visto na seo 4.2.1, as caractersticas so funes de valores
binrios que consultam a classe e o contexto da palavra para determinar seu valor.
No sistema de Borthwick, as caractersticas so classificadas como: Binrias, Lxicas, Caractersticas de Seo, Caractersticas de Dicionrios e Caractersticas Externas.
32
5.2
Caractersticas Binrias So caractersticas em que a consulta sobre um dado token obtm

uma resposta binria: sim ou no. Por exemplo: O token comea com letra maiscula?.
Caractersticas Lxicas Para criar os itens de contextos lxicos, os tokens w2 w2 so
comparados com um vocabulrio e seus ndices so armazenados. Todos os tokens que ocorrerem pelo menos trs vezes em um crpus de treinamento so armazenados. Exemplo de uma
Caracterstica Lxica:
(
1 se Lexical-History-View(token1 (h)) = Mr e f = person_unique
g(h, f ) =
0 caso contrrio
(5.2)
Caractersticas de Seo So caractersticas que exploram a estrutura do texto e so ativadas de acordo com a seo a qual o token se encontra no texto. Esta caracterstica foi
explorada pelo MENE no MUC-7, pois os artigos-textos disponibilizados para treinamento e
testes eram compostos por seis diferentes sees. Exemplo de uma Caractersticas de Seo:
(
g(h, f ) =
1 se Section-View(token0 (h)) = Preamble e f = person_unique

0 caso contrrio
(5.3)
Caractersticas de Dicionrios Estas caractersticas so obtidas atravs de um pr-processamento

do texto a ser analisado e atribui a cada token uma das seguintes etiquetas: start, continue,
end, unique, e other. Esse processo realizado para cada dicionrio previamente selecionado,
por exemplo os dicionrios de primeiros nomes, nomes de empresas, nomes de empresas
sem sufixos, escolas e universidades entre outros. A funo 5.4 um exemplo de uma Caractersticas de Dicionrio que explora informaes obtidas no dicionrio de primeiros nomes.
1 se First-Name-Dictionary-View(token0 (h)) = unique

g(h, f ) =
e f = person_start
0 caso contrrio
(5.4)
Caractersticas Externas Alm das caractersticas anteriormente comentadas, o MENE fez

uso de textos de sadas de outros sistemas de REM participantes do MUC para enriquecer
seus itens de contextos, utilizando esses textos no crpus de treinamento. Dessa forma pode
agregar caractersticas que verificam a classificao dada por algum outro sistema. No exemplo
abaixo, verificado a classificao de um token avaliado pelo sistema Proteus 1 :
1 se Proteus-System-View(token0 (h)) = person_start

g(h, f ) =
e f = person_start
0 caso contrrio
(5.5)
Seguindo os critrios de avaliao do MUC-7, o MENE alcanou a medida-F de 92,20% utilizando

apenas padres obtidos automaticamente, porm, em combinao com sadas de outros sistemas de
REM que utilizam regras codificadas manualmente, chegou a alcanar a medida-F de 97,12%.
1
Sistema de REM participante do MUC-6.
5.2
COMENTRIOS
5.2
33
Comentrios
Apesar de apenas um dos dez participantes do Segundo HAREM ter utilizado como abordagem
o AM para o REM em portugus, neste captulo vimos duas diferentes abordagens de AM aplicados
ao mesmo problema em portugus. Utilizando o TBL para a resoluo da tarefa de REM sobre um
crpus prprio, foi alcanado a medida-F de 87,26%, enquanto que o uso da estratgia ETL sendo
avaliada utilizando o crpus do Primeiro HAREM alcanou a medida-F de 63,27%. A comparao
entre estas abordagens no to clara, considerando os recursos e os mtodos de avaliao que
cada abordagem utilizou. De qualquer forma, so bons indicativos para efeito de comparao em
futuros sistemas e fornecem boas pistas sobre as caractersticas a serem investigadas para a tarefa
de REM em portugus. Alm disso, o crpus Primeiro HAREM utilizado na abordagem do ETL
est disponvel na rede. Isso faz com que sistemas de REM em portugus a serem desenvolvidos
possam ser comparados abordagem ETL.
Como visto na seo 4.2.1, uma das vantagens do uso do arcabouo de Mxima Entropia
a possibilidade da explorao de uma grande variedade de fontes de informaes. Este fato foi
reforado na seo 5.1.3, onde vimos que o MENE explora diversas caractersticas do contexto de
um termo a ser classificado, alm de fazer uso de alguns dicionrios e regras. Desta forma, utilizando
apenas padres obtidos automaticamente e seguindo os critrios de avaliao do MUC-7, o MENE
alcanou a medida-F de 92,20%
Motivados pelos bons resultados obtidos pelo MENE, desenvolvemos um sistema de REM para
portugus sobre o arcabouo de Mxima Entropia. Com o sistema desenvolvido fomos capazes de
explorar vrias caractersticas do contexto dos termos a serem classificados, bem como diferentes
combinaes destas caractersticas. Tambm utilizamos alguns dicionrios e pequenas regras para
auxiliar tanto na identificao quanto na classificao dos termos de um EM. Alm disso, verificamos
os diferentes valores mnimos de ocorrncias que as caractersticas estudadas precisam ter nos crpus
de treinamento para que possam ser mantidas nos modelos treinados.
Veremos no prximo captulo a arquitetura do sistema construdo, em seguida os resultados
obtidos com as diferentes caractersticas estudadas, bem como a avaliao do sistema seguindo os
critrios do Segundo HAREM.
34
5.2
Captulo 6
Arquitetura do Sistema
Para alcanar nosso objetivo de construir um sistema flexvel utilizando tcnicas de AM e que
permita ser avaliado em diferentes cenrios, experimentar variadas composies de caractersticas,
explorar diversas fontes de informaes e diferentes composies dessas fontes, foi necessrio criar
uma arquitetura modularizada e que aceite facilmente acoplar diferentes mdulos de software. Alm
disso, tambm seja flexvel no tratamento dos componentes representativos das caractersticas a
serem exploradas.
Dada a diferena temporal entre o presente trabalho e algumas de nossas referncias, utilizamos
destas apenas os conceitos tericos na descrio do problema, e nos concentramos em deixar o
mnimo ou nenhum processo manual entre os mdulos.
Descreveremos neste captulo a arquitetura do sistema, seus mdulos e algumas dificuldades e
dvidas que surgiram durante a sua implementao.
6.1
Mdulos
Dividimos a arquitetura do sistema em duas partes, o treinamento e a avaliao. Ambas so

compostas por mdulos que executam tarefas especficas. Na parte de treinamento calculada a
distribuio de probabilidades conjunta de pares classe-contexto obtida atravs do estimador de
mxima entropia aplicado sobre o crpus de treino. A segunda parte da nossa arquitetura diz
respeito fase de avaliao. Nesta segunda fase, a distribuio de probabilidades utilizada para
inferir as etiquetas de EM de um crpus de teste. E finalmente, as etiquetas preditas pelo sistema
so comparadas com as etiquetas obtidas deste crpus. A composio dos mdulos e suas interaes
para a fase de treino e gerao do modelo esto na Figura 6.1 e na Figura 6.2 est a ilustrao da
arquitetura utilizada na fase de avaliao. Todo o sistema foi desenvolvido utilizando a linguagem
de programao Java1 .
6.1.1
Pr-processamento
No pr-processamento so realizadas manipulaes necessrias preparao do texto de entrada,

tais como a incluso de mais informaes na estrutura do texto, a exemplo da separao de sentenas,
separao de tokens, adio de etiquetas morfolgicas e converso do formato da representao das
etiquetas de EM.
1
http://java.com
35
36
6.1
ARQUITETURA DO SISTEMA
Entrada
Crpus
de Treino
Palavras
+
Etiquetas
de EM
Sada
Pr-processamento
Estimador de
Mxima Entropia
Modelo
Treinado
Extrao de
Caractersticas
Indicadores de
moldes de PC a
serem ativados
Figura 6.1: Arquitetura do Sistema para a fase de Treinamento.
Entrada
Crpus
de Teste
Palavras
+
Etiquetas
de EM
Pr-processamento
Filtro de Avaliao
Etiquetas
de EM
Avaliao
Eficincia:
-Preciso
-Cobertura
-Medida-F
Palavras
Modelo
Treinado
Etiquetador de EM
(Mxima Entropia)
Indicadores de
moldes de PC a
serem ativados
Extrao de
Caractersticas
Sada
Texto Etiquetado
Texto Etiquetado
Figura 6.2: Arquitetura do Sistema para a fase de Avaliao.
Neste mdulo foram agrupados os sub-mdulos responsveis pelo tratamento inicial do texto,
tais como a extrao de etiquetas de EM do texto e a atribuio das mesmas no formato adequado
para classificao de cada palavra. Este mdulo possui a mesma funo tanto no momento de
treino quanto no de avaliao. A Figura 6.3 ilustra a composio deste mdulo. Discutiremos a
seguir detalhes sobre o sub-mdulos do pr-processamento.
Conversor de Entrada
O formato dos arquivos de treinamento e teste do nosso sistema baseado no formato do arquivo
de treinamento do mdulo NameFinder da API OpenNLP 2 . Este formato foi escolhido por ser de
simples manipulao, facilmente adaptvel ao formato proposto pelo Segundo HAREM e por
facilitar a estrutura necessria de representao de EM em cada token de acordo com o MENE,
como visto na seo 5.1.3.
No Conversor de Entrada as palavras so separadas simplesmente por espaos, pois o objetivo neste momento apenas a extrao da relao entre cada palavra e a sua etiqueta de EM
representada no texto, deixando o trabalho de tokenizao para um mdulo posterior. A cada pala2
http://incubator.apache.org/opennlp/
6.1
MDULOS
37
Pr-processamento
Conversor de
Entrada
Separador de
Sentenas
Tokenizador
Etiquetador
Morfolgico
Figura 6.3: Mdulo de Pr-processamento.
vra que no faz parte de uma EM associada a etiqueta O. Cada palavra que faz parte de uma EM
associada uma etiqueta considerando a posio da palavra dentro da anotao de EM, respeitando
o seguinte esquema: dado o conjunto de possveis categorias de EM a serem classificadas, cada palavra que faz parte de uma EM pode assumir uma das seguintes etiquetas: x_start, x_continue,
x_end e x_unique, onde x representa uma categoria de EM.
Podemos ver na Tabela 6.1 a ilustrao da transformao aplicada sobre o seguinte trecho de um
crpus: Meu nome <START:PESSOA> Manoel Gregrio Mello <END> , nasci em
<START:LOCAL> Recife <END> no dia <START:TEMPO> 10/03/1963 <END> . .
posio (i)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
palavra (wi )
Meu
nome
Manoel
Gregrio
Mello
,
nasci
em
Recife
no
dia
10/03/1963
.
EMTag (emtagi )
O
O
O
pessoa_start
pessoa_continue
pessoa_end
O
O
O
local_unique
O
O
tempo_unique
O
Tabela 6.1: Representao das etiquetas de EM aps o Filtro de Avaliao.
De acordo com Ratinov & Roth [RR09], o esquema de representao de segmento de texto que
38
6.1
estamos utilizando, tambm conhecido como BILOU, apresenta melhores resultados se comparado
ao outro esquema de representao de segmentos, tambm bastante empregado, chamado BIO. O
esquema BILOU, sugere que o classificador aprenda a identificar os tokens: primeiro, interno e
ltimo (do ingls, Begin, Inside, e Last, respectivamente) de um segmento de texto, bem como os
segmentos de tamanho unitrio (Unit-length) e os tokens fora de segmento (Outside). O esquema
BIO, por outro lado, sugere que o classificador aprenda a identificar os tokens: primeiro, interno
e externos (do ingls, Begin, Inside, e Outside, respectivamente) aos segmentos de textos.
Sub-Mdulos de PLN
Para as tarefas de PLN do mdulo de pr-processamento, utilizamos a API do CoGrOO[CoG]. O
CoGrOO um sistema de correo gramatical desenvolvido para portugus brasileiro e composto
por diversos mdulos de PLN organizados sequencialmente. Com a utilizao de alguns mdulos do
CoGrOO podemos nos concentrar nas transformaes do texto necessrias nossa tarefa e delegar
algumas tarefas convencionais de PLN ao CoGrOO. Os mdulos que nos interessam do CoGrOO
so: Separador de sentenas, Tokenizador e Etiquetador Morfolgico.
A ltima etapa do mdulo de pr-processamento PLN o Etiquetador Morfolgico. O Etiquetador Morfolgico do CoGrOO utiliza um subconjunto das etiquetas morfolgicas utilizadas pelo
sistema PALAVRAS de Bick [Bic06]. Em nosso sistema no utilizamos as inflexes das etiquetas
morfolgicas. Utilizamos apenas as classes de palavras fornecidas pelo CoGrOO. Podemos ver na
Tabela 6.2 o conjunto de classes de palavras utilizadas pelo CoGrOO.
Na Seo 5.1.1 apresentado um trabalho de REM no qual as etiquetas morfolgicas foram utilizadas na tarefa de REM. Acreditamos que tais informaes tambm possam adicionar conhecimento
ao nosso REM, mesmo que o tempo de execuo possa ser afetado de forma negativa.
Etiqueta (P oS)
N
PROP
SPEC
DET
PERS
ADJ
ADV
V
NUM
PRP
KS
KC
IN
Categoria
Substantivos
Nomes prprios
Especificadores, por exemplo, certos
pronomes indefinidos e quantificadores nominais.
Determinantes
Pronomes pessoais (definida como pessoa flexionando pronomes)
Adjetivos
Advrbios
Verbos (verbos completo, auxiliares)
Algarismos
Preposio
Conjunes Subordinadas
Conjunes Coordenadas
Interjeies
Tabela 6.2: Conjunto de Classes de Palavras utilizadas pelo CoGrOO.
6.1.2
Filtro de Avaliao
O Filtro de Avaliao, utilizado apenas na fase de avaliao do sistema, separa o texto da

estrutura de dados que contm as etiquetas de EM, e guarda a informao da relao entre cada
6.1
39
MDULOS
palavra e sua etiqueta de EM. As etiquetas de EM serviro de comparao no processo de avaliao

que realizada aps a etapa de etiquetagem.
6.1.3
Extrao de Caractersticas
Conforme visto na Seo 4.2.1, cada caracterstica do modelo de Mxima Entropia representada
por uma funo binria chamada funo caracterstica, no entanto, segundo Alves [dAF03], esta
representao pouco prtica pois no permite generalizaes, alm de necessitar de um nmero
muito grande de funes caractersticas para obter a distribuio de probabilidade de classe dado o
contexto.
Para contornar tais problemas usaremos o Predicado Contextual, que uma abordagem de
representao de evidncias utilizada por Ratnaparkhi em seu etiquetador morfolgico [Rat98].
O Predicado Contextual uma funo binria definida como:
(
pc(b) =
1 se b satifaz a regra r
0 caso contrrio,
(6.1)
onde b o contexto observado e r uma determinada regra. Dessa forma podemos alterar um pouco
a definio inicial das funes caractersticas (ver Equao 4.6), de maneira a torn-las compatveis
aos predicados contextuais, obtendo:
(
fj (a, b) =
se a = a
e pc(b) = 1
caso contrrio,
(6.2)
onde a uma das possveis etiquetas que estamos interessados em prever, a

uma etiqueta especfica e b o contexto observado. Por exemplo, podemos definir um predicado contextual chamado
pc_primeira_maiscula(bi ) para devolver 1 se a palavra analisada em questo possuir a primeira letra maiscula. Uma funo caracterstica usando este predicado contextual poderia ser:
(
fj (a, bi ) =
se pc_primeira_maiscula(bi ) = 1 e a = pessoa_start
caso contrrio.
(6.3)
Se a funo caracterstica acima estiver contida no conjunto de caractersticas do modelo, seu

parmetro j correspondente contribuir com a probabilidade p(a|bi ) quando a palavra analisada
iniciar com letra maiscula e a classe for pessoa_start.
Para nos auxiliar na implementao destes conceitos, utilizamos a API do OpenNLP, que nos
permite lidar apenas com a criao de Eventos. Para o nosso domnio chamaremos de Evento um
contexto composto por uma etiqueta de EM e um conjunto de predicados contextuais. Uma etiqueta
de EM uma das possveis etiquetas que representam uma EM, (O, x_start, x_continue, x_end e
x_unique) , tais como exemplificado na Tabela 6.1. Um predicado contextual representado por uma
cadeia de caracteres que explora alguma determinada evidncia que possamos achar relevante para
a identificao e/ou classificao das EMs. Desta forma nos preocupamos apenas com a criao
de Moldes de Predicados Contextuais e automatizamos a tarefa de criao de predicados
contextuais criando-os para cada token no momento da leitura do texto, como veremos no submdulo Gerenciador de Extrao de Caractersticas.
O Mdulo de Extrao de Caractersticas est representado na Figura 6.4, e composto
40
6.1
pelos sub-mdulos Conversor de Sentenas para Eventos, Gerenciador de Extrao de

Caractersticas e um conjunto de Moldes de Predicados Contextuais.
Extrao de caractersticas
Palavras
+
EMTags
Conversor de
Sentena para Eventos
Indicadores de
moldes de PC
ativos
EMTag
+
predicados
contextuais
Gerenciador de
Extrao de
Caractersticas
mpc1
mpc2
...
mpcj
Conjunto de moldes de
predicados contextuais.
Figura 6.4: Mdulo de pr-processamento para extrao de caractersticas.
Conversor e Gerenciador de Extrao de Caractersticas

No Conversor de Sentenas para Eventos os tokens so analisados sequencialmente. Para
cada token da sequncia efetuada uma anlise contextual considerando o conjunto de moldes
de predicados contextuais que foram indicados como ativos na entrada do sistema. Em seguida
criado um Evento representando o contexto do token em questo. O Gerenciador de Extrao
de Caractersticas o mdulo responsvel por invocar cada molde de predicado contextual ativo
e fornecer suas sadas ao Conversor. Vale salientar que durante a fase de avaliao do sistema, um
Evento no possui uma classe de EM relacionada a si, diferentemente do que ocorre na fase de
treinamento.
Para esclarecimento dos conceitos aqui descritos, podemos ver na Tabela 6.3 uma lista de Moldes
de Predicados Contextuais. Ao aplicarmos os moldes da Tabela 6.3 sobre o contexto b4 da Tabela
6.1, obteremos os predicados contextuais da Tabela 6.4.
Os predicados contextuais que poderiam ser obtidos pelos moldes 1, 11 e 12 da Tabela 6.3
no esto representados na Tabela 6.4 de forma intencional, pois para alguns moldes, quando
determinada caractersticas no ocorre, em vez de devolver um valor padro, nada devolvido.
Por exemplo, um molde de predicado contextual que testa se o token corrente composto por
nmeros e o hfen internamente, poderia devolver o valor padro se_numero_com_hfen(0)=N
para maioria dos casos.
Segundo Borthwick, a incluso de retorno padro em determinadas caractersticas (no nosso
caso, predicados contextuais) podem no ser prejudiciais performance do modelo em termos de
predio, porm possuem algumas desvantagens, tais como o aumento do tempo de execuo do
algoritmo de extrao de caractersticas, considerando que o valor padro dever ser emitido para
todos os tokens que no atendam consulta da funo caracterstica; e o aumento da dificuldade
6.1
MDULOS
1
2
3
4
5
6
7
8
9
10
11
12
41
Moldes de predicados contextuais

se_primeira_maiscula(1)
se_primeira_maiscula(0)
se_primeira_maiscula(+1)
palavra_em_minscula(0)
palavra_em_minscula(+1)
seq_palavra_minscula(2, 1)
NETag(1)
NETag(2)
se_numero(0)
se_numero_com_hfen(0)
Tabela 6.3: Exemplos de moldes de predicados contextuais.
Predicado contextuais de b4
se_primeira_maiscula(0)=S
se_primeira_maiscula(+1)=S
palavra_em_minscula(0)=manoel
palavra_em_minscula(1)=
palavra_em_minscula(2)=nome
palavra_em_minscula(+1)=gregorio
seq_palavra_minscula(2, 1)=nome_
NETag(1)=O
NETag(2)=O
Tabela 6.4: Predicados contextuais dos moldes da Tabela 6.3 aplicados sobre o contexto b4 da Tabela 6.1.
numrica no procedimento de estimao de mxima entropia, devido ao aumento do nmero de

sobreposies de caractersticas.
6.1.4
Estimador de Mxima Entropia
Com o conjunto de caractersticas definido, podemos realizar o clculo da maximizao de

entropia de acordo com a Seo 4.2.1. Para esta tarefa utilizamos a API de Mxima Entropia
disponvel no OpenNLP, que possui uma implementao do Escalonamento Iterativo Generalizado.
Dessa forma poderemos nos concentrar na aplicao destas ferramentas ao nosso problema.
6.1.5
Etiquetador de EM
O Etiquetador de EM responsvel por obter a etiqueta que mais se adequa a cada token de
uma sentena.
A simples obteno da etiqueta mais provvel para cada token no o bastante para garantir a
correta escolha de uma determinada etiqueta. Alm disso, tambm necessria tanto a verificao
da sequncia das etiquetas quanto a posio do token na sentena, visto que existem casos em que
determinadas etiquetas s fazem sentido se seguida(s) de outra(s) etiqueta(s).
Por exemplo, considerando que o termo sculo 21 seja uma EM do tipo TEMPO para a
42
6.1
frase Clima de sculo 21, a correta sequncia de etiquetas de EMs para esta frase seria O, O,
tempo_start, tempo_end e uma sequncia invlida no contexto de REM seria O, O, tempo_start,
valor_end. Na Tabela 6.5 vemos outros exemplos de sequncias invlidas. Na coluna Incorreta A
da Tabela 6.5 vemos duas inconsistncias: a primeira o fato de que a etiqueta emtag1 possui o sufixo
_continue no inicio de uma sentena, e a segunda a etiqueta emtag8 que est finalizando com o
tipo valor uma sequncia de etiquetamento do tipo tempo. E na coluna Incorreta B da Tabela
6.5 existem tambm duas outras inconsistncias: uma o fato de que a etiqueta emtag5 possui o
sufixo _continue sendo que a etiqueta do token anterior (emtag4 ) est com sufixo _unique e a
outra a etiqueta emtag9 que est com o sufixo _continue e no existem tokens posteriores.
posio
(i)
1
2
3
4
5
6
7
8
9
palavra
(wi )
So
Paulo
,
21
de
Novembro
de
1994
.
EMTag (emtagi )
Correta
Incorreta A
local_start
local_continue
local_end
local_end
O
O
tempo_start
tempo_start
tempo_continue tempo_continue
tempo_end
valor_end
O
O
Incorreta B
local_start
local_end
O
tempo_unique
tempo_continue
tempo_end
O
valor_start
valor_continue
Tabela 6.5: Exemplos de sequncias de etiquetamentos inconsistentes.
Esta verificao de consistncia realizada nesta etapa e segue um conjunto de regras para
evitar sequncias inadequadas. Para a realizao desta tarefa utilizado um algoritmo guloso que
observa os tokens da esquerda para a direita.
Dado uma sentena realizado o seguinte processo:
1. Para cada token ti da esquerda para a direita de uma sentena, faa:
(a) Obter o conjunto de caractersticas C do contexto de ti .
(b) Obter a distribuio de probabilidade D dado C.
(c) Ordenar a distribuio de probabilidade D.
(d) Selecionar e extrair a etiqueta de EM emtag mais provvel de D.
(e) Repetir a partir do passo (d) at que emtag seja consistente de acordo com a Tabela 6.6.
(f) Devolva emtag.
Ratinov & Roth [RR09], compararam a performance de trs algoritmos para inferncia de etiquetas de EM: Viterbi, decodificao gulosa esquerda-direita e o algoritmo BeamSearch. Os resultados
mostraram que o algoritmo guloso obtm resultados comparveis aos algoritmos Viterbi e BeamSearch. Alm disso, em seus experimentos mostraram que algoritmo guloso cerca de 100 vezes
mais rpido que o Viterbi para a tarefa de inferncia de etiquetas para apenas quatro categorias
utilizando o esquema BILOU. Outra desvantagem dos algoritmos BeamSearch e Viterbi a de que
ambos precisam transformar as predies do classificador em probabilidades, o que ocasiona um
custo adicional de tempo.
6.1
43
MDULOS
emtagi
x_start
x_continue
x_end
x_unique
O
Permitido se:
emtagi1 est em:
O, x_end, x_unique
x_start, x_continue
x_start, x_continue
O, x_end, x_unique
O, x_end, x_unique
i=1
sim
no
no
sim
sim
i=n
no
no
sim
sim
sim
Tabela 6.6: Condies para permisso do etiquetamento do token ti , de uma sentena de tamanho n. Onde
i a posio na sentena do token a ser analisado, emtagi a etiqueta a ser testada, emtagi1 a etiqueta
atribuda ao token anterior.
6.1.6
Avaliador
O Avaliador o mdulo responsvel pelos clculos de performance do sistema em termos de

identificao e classificao das entidades mencionadas. Tambm responsvel pelo fornecimento de
relatrios destas performances em termos de preciso, cobertura e F1 . O Avaliador segue os moldes
da avaliao especificada pela CoNLL, como visto na Seo 3.2.2. Os relatrios fornecidos por este
mdulo esto com nvel de detalhamento de avaliao por categorias de EMs.
A Tabela 6.7 mostra as informaes obtidas com o Avaliador ao fornecermos como entrada os
textos da Tabela 3.1.
Categorias
LOCATION
ORGANIZATION
PERSON
TOTAL
Ocorr.
Gab Sis
1
1
2
3
2
1
5
5
Pontuao
Id
Cla
0
0
2
1
0
0
2
1
Preciso
Id(%) Cl(%)
Cobertura
Id(%) Cl(%)
F1
Id(%)
Cl(%)
66,667
33,333
100
50
80
40
40
20
40
20
40
20
Tabela 6.7: Resultado da comparao entre os textos Tabela 3.1 obtido pelo mdulo Avaliador.
O clculo realizado comparando, para cada sentena, as etiquetas fornecidas pelo Filtro de
Avaliao com as etiquetas existentes no texto de sada do mdulo Etiquetador de EMs.
Na tarefa de identificao, uma EM fornecida pelo Etiquetador considerada correta se todos
os termos desta EM coincidirem com os termos da EM correspondente fornecido pelo Filtro de
Avaliao. Na tarefa de classificao, apenas as EM marcadas como corretas na tarefa de identificao sero avaliadas. Cada EM corretamente identificada, tem a sua categoria comparada com a
categoria da EM fornecida pelo Filtro de Avaliao.
Este mdulo importante pois nos guiar no desenvolvimento do sistema. medida que forem
adicionados novos moldes de predicados contextuais, ser possvel avaliar o impacto de cada molde
na performance.
44
6.1
Captulo 7
Resultados
Neste captulo discutiremos as caractersticas exploradas e seus impactos na performance de
vrios modelos construdos. Para cada grupo de caracterstica, testamos sua performance em trs
crpus, avaliamos e discutimos os resultados. Finalmente, com base nestes resultados, construmos
um modelo final e o avaliamos aos moldes do Segundo HAREM e comparamos com os resultados
dos participantes do mesmo evento utilizando o SAHARA.
7.1
Metodologia e Crpus Utilizados
A fim de treinar e testar os vrios diferentes modelos que criamos, utilizamos os recursos dos
primeiros eventos realizados pelo HAREM, disponibilizados no stio do HAREM1 , a saber:
Primeiro HAREM Coleo dourada utilizada no primeiro evento do HAREM;
Mini HAREM Coleo dourada utilizada no Mini HAREM.
Alm desses recursos, utilizamos o crpus Selva Falada, que um subconjunto do crpus Floresta Sinttica. O Floresta Sinttica um crpus analisado sintaticamente, criado pelo Linguateca
em parceira com o projeto VISL2 , que contm textos em portugus (Brasil e Portugal) anotados
automaticamente pelo analisador sinttico PALAVRAS e revistos por linguistas. O crpus Selva
Falada parcialmente revisto por linguistas e contm marcaes semnticas necessrias de EMs
que podem ser mapeadas para as categorias do HAREM. Est disponvel em formato de rvore
Deitada, que um formato de representao de conhecimento de texto adotado pela equipe do
projeto. Esse recurso est disponvel gratuitamente no stio do Linguateca3 , e pode ser utilizado
para o treino e avaliao de diferentes tarefas do PLN, inclusive para tarefas de aspectos semnticos
e discursivos.
7.1.1
Preparao dos Crpus
Manipulamos os trs crpus de maneira a deix-los compatveis com a entrada do nosso sistema
como explicado na Seo 6.1.1. Utilizamos o OpenNLP para efetuar as transformaes necessrias
sobre o crpus Selva Falada e compatibiliz-lo com o formato de entrada do nosso sistema. Vemos
na Tabela 7.1 o nmero de EM por categoria e por crpus aps as manipulaes realizadas.
1
http://www.linguateca.pt/HAREM/
http://beta.visl.sdu.dk
3
http://www.linguateca.pt/floresta/corpus.html
2
45
46
7.2
RESULTADOS
Categorias
Abstrao
Coisa
Local
Obra
Organizao
Pessoa
Tempo
Valor
Acontecimento
Total
Mini HAREM
#EM
(%)
203
5,62
169
4,68
874 24,20
191
5,29
599 16,59
831 23,01
362 10,02
324
8,97
58
1,61
3611
-
Primeiro HAREM
#EM
(%)
406
8,18
137
2,76
1235
24,87
196
3,95
927
18,67
1033
20,80
438
8,82
466
9,38
128
2,58
4966
-
Selva Falada
#EM
(%)
334
2,61
137
1,07
1648 12,89
426
3,33
3319 25,96
4763 37,25
267
2,09
784
6,13
1109
8,67
12787
-
Tabela 7.1: Crpus utilizados nos experimentos e suas distribuies de EM por categorias.
Cada crpus foi dividido em duas partes. Uma refere-se ao treino e corresponde a 90% da diviso
das frases. O restante utilizado para teste. Esta diviso foi realizada dez vezes para cada crpus,
gerando dez pares de arquivos treino-teste por crpus. A aleatoriedade s foi utilizada na criao
dos pares de arquivos, pois nosso objetivo explorar o impacto de cada grupo de caracterstica
sobre o mesmo conjunto de pares de arquivos.
Para cada grupo de caractersticas foi criado e testado um modelo sobre cada par de arquivos
treino-teste. Em seguida, foi calculada a mdia aritmtica dos resultados sobre cada par de arquivos.
Segundo Ratnaparki [Rat98], o comportamento de caractersticas que ocorrem raramente no
conjunto de treinamento de difcil previso, pois no estatisticamente confivel. Para contornar
esse problema, realizado um processo de seleo de caractersticas que retira do modelo qualquer
caracterstica que ocorra menos de um determinado nmero vezes. Na tarefa de etiquetamento
morfolgico realizado por Ratnaparki, qualquer caracterstica que ocorra menos do que dez vezes
eliminada. Borthwick, por sua vez, selecionou todas as caractersticas que predizem uma etiqueta
de EM e que ocorram pelo menos trs vezes bem como todas as que predizem a etiqueta other e
que ocorram pelo menos seis vezes. Com esta estratgia de exigir um nmero maior de ocorrncias
para as caractersticas que predizem other, Borthwick mostrou experimentalmente que o tamanho
do arquivo modelo final reduziu cerca de 20% e que no teve impacto na performance.
Veremos nas prximas sees as caractersticas exploradas e seus impactos na tarefa de identificao e classificao das EM sobre cada crpus. Veremos tambm alguns experimentos para avaliar
o impacto do corte em alguns grupos de caractersticas. No contexto de nosso sistema, os cortes
podem ser interpretados como o nmero mnimo de vezes que o predicado contextual deve ocorrer
no conjunto de treinamento para ser includo no modelo.
7.2
7.2.1
Caractersticas
Estrutura Interna da Palavra
A utilizao de caractersticas que exploram a estrutura interna da palavra uma das abordagens
utilizadas por Borthwick (vide Seo 5.1.3), e por Milidi (vide Seo 5.1.2). Tais caractersticas
so facilmente exploradas utilizando funes binrias que fazem simples verificaes na palavra.
7.2
CARACTERSTICAS
47
Vemos na Tabela 7.2 o conjunto de caractersticas que testamos para a explorao da estrutura
interna da palavra e, de forma resumida, alguns exemplos de textos que cada caracterstica explora;
e, finalmente, uma breve descrio da intuio sobre a caracterstica.
e1
e2
e3
e4
e5
e6
e7
e8
e9
e10
e11
e12
Caracterstica
Todas Maisculas
Todas Minsculas
Primeira Maiscula
Capitalizao
Interna
Apenas Nmeros
Nmeros e Letras
Nmeros com , ou .
Nmeros com /
- ou :
Nmeros finalizando com
h,hs,m,ms e s.
Apenas 1 nmero
Apenas 2 nmeros
Apenas 4 nmeros
Texto de Exemplo
FAPESP
viajar, reunio
Lu, Belm
WebJet, Isto
1, 354, 888
XR200, K19
1.50 3,1415 1.123,10
01/02
25-12 10:35 1
10hs 15m 30s
2 dias ou 4 livros
11 ou 98
1939 ou 2001
Intuio
Nome de organizaes, siglas.
Provavelmente no uma EM
Forte candidato a EM
Empresas com letras
maisculas internamente
Nmeros diversos
Produtos, empresas
Valores monetrios
Data e hora
Tempo: hora, minutos...
Nmeros diversos.
Anos de 2 dgitos
Anos de 4 dgitos.
Tabela 7.2: Conjunto de caractersticas utilizadas para a explorao da estrutura interna da palavra.
Uma vantagem dessas caractersticas a possibilidade da explorao das palavras em outros

idiomas, alm do portugus, tais como Espanhol e Ingls.
Sobreposies
Na implementao do conjunto de caractersticas da Tabela 7.2, ficamos em dvida se representaramos as caractersticas sem nos preocuparmos com a sobreposio.
Se o sistema permitir, por exemplo, sobreposio de caractersticas, a caracterstica e3 (Primeira
Maiscula) ser ativada para as palavras FAPESP, WebJet e Belm. No entanto, se utilizarmos
um esquema hierrquico que no permita sobreposies, a caracterstica e3 poderia ser ativada
apenas para a palavra Belm e WebJet, considerando que a caracterstica e1 (todas maisculas)
antecedesse a caracterstica e3 . Da mesma forma a caracterstica e4 (Capitalizao Interna) poderia
no ser ativada em FAPESP caso a caracterstica e1 fosse testada antes.
Segundo Borthwick [BSAG98], um modelo de Mxima Entropia que permita sobreposio de
caractersticas ter o mesmo resultado que um modelo que no permita sobreposies.
Realizamos um experimento comparativo entre dois modelos treinados para verificar o impacto
do uso das caractersticas de estrutura interna da palavra com sobreposio e sem sobreposio. O
primeiro modelo utiliza as caractersticas de estrutura interna da palavra e permite sobreposio.
O segundo utiliza as mesmas caractersticas, porm no permite a sobreposio de algumas delas.
Utilizamos o valor de corte de predicados contextuais igual a 10. A hierarquia utilizada para o teste
sem sobreposio apresentada no Algoritmo 1. Na Tabela 7.3 esto os resultados obtidos neste
experimento.
Todos os resultados se apresentaram melhores para a implementao com sobreposio por no
termos efetuado um estudo mais aprofundado sobre os possveis particionamentos das caractersti-
48
7.2
RESULTADOS
Algoritmo 1: Hierarquia utilizada no estudo das sobreposies de caractersticas.

Entrada: Palavra
Sada: Conjunto de predicados contextuais
incio
se Palavra for composta por nmeros e letras ento
retorna e6 e3 e4 e7 e8 e9 ;
seno se Palavra for composta apenas por nmeros ento
retorna e5 (e10 ou e11 ou e12 );
seno
retorna (e1 ou e2 ou (e3 e4 ));
fim se
fim
cas. Considerando tal resultado, utilizaremos as caractersticas com sobreposies, pois desta forma
no precisaremos nos preocupar com o estudo do correto particionamento. No entanto, para um
sistema de produo, no qual o tempo um fator importante, este estudo se faz vlido devido
dificuldade numrica do procedimento de estimao de mxima entropia, pois segundo Borthwick
5.1.3, quanto maior o nmero de sobreposies, mais iteraes sero necessrias.
Crpus
Mini
HAREM
Primeiro
HAREM
Selva
Falada
Sobreposio?
sim
no
sim
no
sim
no
Preciso
Ident(%)
Class(%)
45,08831 41,27807
42,24815
39,72079
44,67475 36,94367
36,82774
31,47835
65,29795 56,99109
59,13378
53,56141
Cobertura
Ident(%)
Class(%)
9,03275
8,38005
8,31002
7,87166
10,31821
8,41897
6,63823
5,68007
13,14322 11,47665
9,13938
8,28670
F1
Ident(%)
14,93975
13,76735
16,62794
11,21763
21,86793
15,81311
Class(%)
13,83245
13,02675
13,59382
9,59697
19,09344
14,33616
Tabela 7.3: Estudo de Sobreposio de caractersticas utilizando o corte igual a 10. Os melhores resultados
por crpus esto em negrito.
Alm deste experimento, realizamos um estudo do nmero de corte para este grupo de caractersticas. Vemos na Tabela 7.4 que o nmero de cortes (cinco e dez) s influencia, e de forma pouco
significativa, os resultados dos estudos feitos sobre o crpus Mini HAREM, enquanto nos outros
no h diferenas.
Crpus
Mini
HAREM
Primeiro
HAREM
Selva
Falada
Corte
5
10
5
10
5
10
Preciso
Ident(%)
Class(%)
45,07398
41,08870
45,08831 41,27807
44,67475
36,94367
44,67475
36,94367
65,29795
56,99109
65,29795
56,99109
Cobertura
Ident(%) Class(%)
9,06045
8,38005
9,03275
8,38005
10,31821
8,41897
10,31821
8,41897
13,14322 11,47665
13,14322 11,47665
F1
Ident(%)
14,98056
14,93975
16,62794
16,62794
21,86793
21,86793
Class(%)
13,82546
13,83245
13,59382
13,59382
19,09344
19,09344
Tabela 7.4: Anlise do nmero para corte de predicados contextuais utilizando as caractersticas da estrutura
interna da palavra com sobreposio.
7.2
CARACTERSTICAS
7.2.2
49
Lxicas
Para o estudo do impacto das caractersticas lxicas para as tarefas de REM, realizamos seis
diferentes experimentos. Em cada um deles fizemos a avaliao do nmero do corte de predicados
contextuais. Utilizamos nestes experimentos uma janela de tamanho igual a cinco, onde os tokens do
intervalo t2 a t+2 so consultados. De acordo com Borthwick, o sistema obtm uma performance
razovel com apenas essas caractersticas.
Os experimentos desta seo foram realizados para a comparao da implementao proposta
por Borthwick e algumas intuies nossas. A proposta de Borthwick a construo de um vocabulrio utilizando todas as palavras existentes no conjunto de treinamento e que ocorram pelo menos
trs vezes. No momento da criao de predicados contextuais o token buscado no vocabulrio
e, se for encontrado, ele fornecido ao molde da caracterstica. Caso no seja encontrado, uma
representao de palavra desconhecida ser fornecida ao molde.
Testamos esta abordagem de quatro formas diferentes. Inicialmente construmos dois vocabulrios de cada crpus:
V1 : Vocabulrio contendo todas as palavras que, transformadas em minsculas, ocorreram pelo
menos trs vezes no crpus. Os nmeros e sinais de pontuaes tambm foram removidos;
V2 : Vocabulrio contendo todas as palavras que, transformadas em minsculas, ocorreram
pelo menos trs vezes no crpus, desta vez, apenas os nmeros foram removidos.
Em seguida, testamos o uso das caractersticas lxicas utilizando os vocabulrios construdos em
quatro diferentes implementaes. Em cada implementao, verificada a existncia de uma determinada palavra, w, e emitido um indicador ao molde de predicado contextual. As implementaes
testadas foram:
L1 : Consulta w em minsculo em V1 , se existir, w fornecido ao molde de predicado contextual, caso contrrio, fornecido #rara#;
L2 : Consulta w em minsculo em V1 , se existir, w em minsculo fornecido ao molde de
predicado contextual, caso contrrio, fornecido #rara#;
L3 : Consulta w em minsculo em V2 , se existir, w fornecido ao molde de predicado contextual, caso contrrio, verificado se w composto apenas por nmeros, se sim fornecido
#nmero# ao molde, se no, fornecido #rara#;
L4 : Consulta w em minsculo em V2 , se existir, w em minsculo fornecido ao molde de
predicado contextual, caso contrrio, verificado se w composto apenas por nmeros, se sim
fornecido #nmero# ao molde, se no, fornecido #rara#.
Os modelos L1 e L3 , so parecidos com modelos L2 e L4 , respectivamente, com a diferena de
que estes ltimos fornecem a palavra em minscula ao molde de predicado contextual. Fizemos
essas implementaes para verificar o comportamento do sistema utilizando as palavras independentemente de suas capitalizaes.
Realizamos ainda dois outros experimentos utilizando apenas as caractersticas lxicas. Desta
vez, diferentemente da proposta de Borthwick, no criamos os vocabulrios; em vez disso, todas as
50
RESULTADOS
7.2
palavras foram fornecidas ao molde de predicado contextual e deixamos que o corte no processo de
seleo de caractersticas removesse os predicados contextuais. Estes experimentos foram realizados
de duas formas diferentes:
L5 : A palavra a ser analisada fornecida em seu estado normal ao molde de predicado contextual.
L6 : A palavra a ser analisada transformada para minscula e em seguida fornecida ao
molde de predicado contextual.
Os resultados de todos esses experimentos podem ser vistos na Tabela 7.5.
Verificamos que o modelo L3 , utilizando o corte igual a cinco, obteve os melhores valores em
todas as medidas para os crpus Primeiro HAREM e Selva Falada. No entanto, para o crpus Mini
HAREM, o modelo L4 apresentou os melhores resultados.
Vemos que a nossa abordagem de emitir uma indicao de nmero em vez de indicador de
palavra desconhecida quando a palavra em questo for rara, no for um sinal de pontuao e for
compostas apenas por nmeros (modelos L3 e L4 ), aumentou significativamente o resultado em
relao aos modelos correspondentes L1 e L2 , sendo que os menores aumentos esto nos resultados
do crpus Selva Falada.
Alm disso, as tentativas de no utilizar um dicionrio de palavras (modelos L5 e L6 ) tambm
apresentaram melhores resultados do que os modelos que utilizaram dicionrios sem pontuaes e
emitiam apenas indicadores de palavras raras e no emitiam indicadores de nmeros. Mas essas
tentativas tambm ficaram abaixo dos modelos L3 e L4 em todos os experimentos correspondentes.
Com base nesses resultados, temos indcios de que utilizando apenas as palavras como caractersticas, a melhor abordagem o uso de um dicionrio de palavras e sinais de pontuaes, e a
emisso de um indicador de nmero caso a palavra seja rara.
Porm, at este experimento, ainda no estvamos certos se forneceramos ao molde de predicado
contextual a palavra em minscula ou em seu estado normal. Para esclarecer tais dvidas, realizamos
os estudos da prxima seo.
Caractersticas Lxicas e de Estrutura Interna da Palavra
Ao utilizar as palavras transformadas em minsculas, acreditamos que aumentaramos o nmero
de exemplos de aplicao das palavras no texto e com isso obteramos melhores resultados, porm
esta intuio no se confirmou em todos os crpus verificados.
provvel que os melhores resultados se apresentaram nos maiores crpus por terem mais
exemplos de aplicaes das palavras, tanto em seus formatos em minsculo quanto capitalizado.
Para esclarecer essas dvidas, realizamos outra bateria de experimentos utilizando as caractersticas lxicas, desta vez, combinando-as com as caractersticas de estrutura interna da palavra.
Acreditamos que o que se perde ao transformar as palavras em minsculas para fornec-las ao
predicado contextual lxico ser compensado pelas informaes obtidas com as caractersticas de
estrutura interna da palavra.
Para verificar essas intuies realizamos inicialmente dois experimentos. No primeiro utilizamos
a combinao do modelo L3 com as caractersticas de estrutura interna da palavra, e em outro
combinamos o modelo L4 tambm com as caractersticas de estrutura interna da palavra.
7.2
CARACTERSTICAS
Crpus
Mini
HAREM
Corte
5
10
Primeiro
HAREM
10
Selva
Falada
10
Modelo
L1
L2
L3
L4
L5
L6
L1
L2
L3
L4
L5
L6
L1
L2
L3
L4
L5
L6
L1
L2
L3
L4
L5
L6
L1
L2
L3
L4
L5
L6
L1
L2
L3
L4
L5
L6
Preciso
Ident(%)
Class(%)
57,92671
53,17173
58,11625
54,19012
62,35451
55,34742
63,67273 57,02506
52,76292
46,74701
53,71816
48,08162
53,46166
49,13507
53,44961
49,47473
59,50493
51,93192
59,31322
52,68692
47,00800
40,64527
48,85135
42,52682
62,35852
55,66621
57,84161
52,44530
65,85448 58,28748
62,81071
56,32152
59,19098
51,30969
56,05012
48,66432
58,23026
51,61189
54,06489
48,74127
63,25999
55,39849
59,99905
53,75298
55,40753
46,59734
52,49531
44,65671
89,19264
85,15378
85,84916
82,08851
89,31352 85,31022
86,26166
82,68613
88,59780
84,66803
85,23279
81,65785
88,18752
84,07993
85,01773
81,17754
88,10937
84,09764
85,35761
81,65580
87,87582
83,80440
84,72568
80,94432
Cobertura
Ident(%)
Class(%)
25,01011
22,92121
25,69734
23,91748
36,70953
32,57447
37,51626 33,60098
29,92408
26,49575
30,38455
27,19076
15,80125
14,51265
16,80832
15,54738
28,41611
24,78027
29,70413
26,40916
21,08946
18,22862
22,03543
19,18667
31,85902
28,41493
29,48703
26,72580
40,35882 35,72170
38,05715
34,13307
35,01082
30,32762
33,17455
28,79506
23,30557
20,67738
22,78722
20,54369
33,07521
28,96327
32,17765
28,82285
27,10600
22,79670
26,55843
22,59536
73,00773
69,70019
70,27346
67,19302
75,34811 71,96998
72,54302
69,53404
74,38088
71,07969
71,54968
68,54518
67,68346
64,52485
65,32471
62,37232
70,31937
67,11497
68,08982
65,13575
69,10600
65,90246
66,64495
63,66883
51
F1
Ident(%)
34,84100
35,53331
46,16560
47,16028
38,13296
38,74153
24,28067
25,49690
38,40784
39,52310
29,06334
30,29501
42,13202
39,01206
50,02960
47,38065
43,96566
41,64504
33,22505
32,00791
43,40521
41,86855
36,34989
35,21657
80,28912
77,28138
81,73608
78,80786
80,86648
77,78905
76,58132
73,87452
78,21285
75,74947
77,36398
74,59894
Class(%)
31,94467
33,08879
40,97087
42,23777
33,77154
34,67230
22,30407
23,58819
33,50155
35,12828
25,12315
26,37735
37,58890
35,36370
44,28113
42,49176
38,09489
36,15123
29,46949
28,85626
38,01007
37,50566
30,57064
29,96044
76,65248
73,89477
78,07195
75,54005
77,27845
74,52427
73,01043
70,53651
74,65006
72,46364
73,77848
71,26846
Tabela 7.5: Comparao das diferentes implementaes do uso das caractersticas lxicas e configuraes
de cortes aplicados sobre o crpus estudados. Os melhores resultados por crpus esto em negrito.
Realizamos esses experimentos apenas para o corte igual a cinco, justamente por ter sido o melhor dos valores de cortes que experimentamos no uso de caractersticas lxicas, conforme verificamos
na Tabela 7.5 da seo anterior. Os resultados esto na Tabela 7.6.
Conforme esperamos, o modelo L4 combinado com as caractersticas de estrutura interna da palavra apresentou melhores resultados em todos os crpus experimentados. Dado o sucesso do modelo
L4 em comparao aos demais testados, utilizaremos esta combinao nos futuros experimentos.
52
7.2
RESULTADOS
Crpus
Mini
HAREM
Primeiro
HAREM
Selva
Falada
Modelo
EI
EI
EI
EI
EI
EI
Preciso
Ident(%)
Class(%)
63,76415
50,28730
66,45656 53,11575
67,90104
53,78099
67,90533 55,16599
88,48484
82,50918
88,02284 82,59423
+ L3
+ L4
+ L3
+ L4
+ L3
+ L4
Cobertura
Ident(%)
Class(%)
55,19225
43,53266
56,06198 44,82847
57,46423
45,48857
57,59043 46,76706
78,94956
73,61729
78,62361 73,77371
F1
Ident(%)
59,12099
60,77397
62,21610
62,30714
83,44439
83,05581
Class(%)
46,62906
48,58617
49,26313
50,60683
77,80882
77,93300
Tabela 7.6: Avaliao das Caractersticas de Estrutura Interna da palavra combinadas com as Caractersticas L3 e L4 .
7.2.3
Etiquetas Morfolgicas
Apesar de o MENE no utilizar etiquetas morfolgicas (P oS) para auxiliar na tarefa de REM,
verificamos que em alguns trabalhos propostos para o REM em portugus tais informaes foram
utilizadas, conforme vimos na Seo 5.1.2.
Para que o nosso sistema tambm seja capaz de utilizar essas informaes, adicionamos um
sub-mdulo de etiquetamento morfolgico ao mdulo de pr-processamento, conforme descrito na
Seo 6.1.1.
A utilidade dessas caractersticas foram verificadas atravs da criao de um modelo contendo
apenas as etiquetas morfolgicas como caractersticas. A vizinhana de tokens utilizada neste estudo
de tamanho igual a cinco: t2 a t+2 . Realizamos o estudo do corte de predicados contextuais para
os valores cinco e dez.
Os resultados desses experimentos esto apresentados na Tabela 7.7.
Crpus
Mini
HAREM
Primeiro
HAREM
Selva
Falada
Corte
5
10
5
10
5
10
Preciso
Ident(%)
Class(%)
63,83484 39,99563
63,84789
39,98124
65,74802 36,86258
65,76893
36,84586
70,53174
50,82171
70,53174
50,82171
Cobertura
Ident(%)
Class(%)
43,42677
27,20770
43,45424
27,20770
44,98059 25,19256
44,98059
25,17502
46,97795
33,84557
46,97795
33,84557
F1
Ident(%)
51,62532
51,64919
53,38924
53,39526
56,38717
56,38717
Class(%)
32,34432
32,33968
29,91468
29,89635
40,62662
40,62662
Tabela 7.7: Avaliao de modelos treinados utilizando apenas as etiquetas morfolgicas obtidas pelo CoGrOO. Foram consultados as etiquetas dos tokens t2 a t2 .
Vemos, baseado nesses resultados, que o uso de etiquetas morfolgicas como caractersticas,
aparenta ser um bom indicador na resoluo do nosso problema e alm disso, independente para
os valores de cortes que analisamos.
7.2.4
Modelo Base
Considerando os resultados dos estudos realizados nas sees anteriores, criamos um modelo
combinando os melhores cenrios observados. Para referncias nas comparaes dos prximos experimentos, chamaremos este modelo de modelo-base (mb). O modelo-base foi criado utilizando
a seguinte configurao:
7.2
CARACTERSTICAS
53
Caractersticas de estrutura interna da palavra: Utilizamos estas caractersticas sem

nos preocuparmos com as sobreposies, de acordo com os estudos realizados na Seo 7.2.1;
Caractersticas lxicas: Utilizamos a implementao L4 para explorar as caractersticas
lxicas, visto que seu uso combinado com a estrutura interna das palavras apresentou resultado
superior a 1% na medida-F, se comparada segunda melhor implementao;
Etiquetas morfolgicas: Considerando a performance razovel obtida nos estudos do uso de
etiquetas morfolgicas apresentados na Seo 7.2.3, utilizaremos estas informaes em nosso
modelo-base;
Corte: Utilizamos valor de corte igual a cinco.
Vemos na Tabela 7.8 o resultado do modelo-base aplicado aos crpus estudados.
Crpus
Mini HAREM
Primeiro HAREM
Selva Falada
Preciso
Ident(%) Class(%)
75,00148 57,80630
76,53824 59,16431
89,66884 82,67272
Cobertura
Ident(%) Class(%)
64,35055 49,58075
65,74270 50,80791
78,41523 72,29848
F1
Ident(%)
69,22771
70,71587
83,66378
Class(%)
53,34623
54,65700
77,13696
Tabela 7.8: Modelo-base criado utilizando em conjunto as caractersticas de estrutura interna da palavra
(EI), caractersticas lxicas(L4 ) e etiquetas morfolgicas (P oS).
Ao compararmos esses resultados aos modelos de estrutura interna da palavra combinado com L4
apresentados na Tabela 7.6, verificamos que o uso das etiquetas morfolgicas ofereceu um aumento
significativo da Medida-F na tarefa de classificao, 4,76% e 4,05%, para os crpus Mini HAREM
e Primeiro HAREM, respectivamente. No entanto, houve uma queda de 0,8% desta medida sobre
o crpus Selva Falada.
Outra observao importante desta comparao est na tarefa de identificao, onde vemos
que as Medida-Fs para os crpus do HAREM tiveram aumento de cerca de 8,5%. Mesmo que o
resultado de classificao no tenha melhorado para o crpus Selva Falada, a identificao teve um
aumento de pouco mais de 0,5%.
Esses resultados mostram que a utilizao das informaes obtidas pelas etiquetas morfolgicas so eficazes na resoluo da tarefa de REM para portugus se aplicados em textos com o
mesmo domnio dos crpus do HAREM. No entanto para o crpus Selva Falada tais caractersticas
no se mostraram eficientes. Seguindo nosso objetivo, utilizaremos as etiquetas morfolgicas como
caractersticas, pois nosso sistema ser avaliado com textos do mesmo domnio do HAREM.
7.2.5
Outras Caractersticas
Nesta seo verificaremos o impacto do uso de outras caractersticas combinadas com o modelo
base criado na seo anterior. Todos os estudos da atual seo foram realizados utilizando o corte
de predicado contextual igual a cinco. As caractersticas estudadas foram:
1. Caractersticas compostas.
Cada caracterstica explorada no modelo-base foi, at agora, fornecida de forma isolada a um
molde de predicado contextual. Reutilizaremos algumas dessas caractersticas, fornecendo-as
54
RESULTADOS
7.2
a um nico molde de predicado contextual afim de explorar a combinao das mesmas. A

estas caractersticas combinadas em um nico molde de predicado contextual, chamaremos de
caractersticas compostas. Ratnaparki utiliza esta abordagem em seu etiquetador morfolgico observando as duas etiquetas morfolgicas anteriores ao token em questo, compostas
em um nico molde. Para o nosso sistema, estudamos as seguintes composies:
Tokens em minsculos (A): Utilizamos os dois tokens anteriores ao token em questo
fornecendo-os em minsculos ao molde.
Etiquetas morfolgicas (B): Considerando o ganho obtido com o uso das etiquetas
morfolgicas de forma isolada, como visto na Seo 7.2.3, acreditamos que a composio
destas informaes possa ser til ao nosso propsito. Utilizamos neste caso as etiquetas
de classificao morfolgicas dos dois tokens anteriores ao token em questo.
Etiquetas de EM (C): No treinamento, utilizamos como caractersticas as etiquetas
de EM obtidas do conjunto de treinamento, e no momento do etiquetamento as etiquetas consultadas so aquelas obtidas na classificao dos dois tokens anteriores. Foram
utilizadas as etiquetas de EM dos dois tokens anteriores ao token em questo.
Sequncia de primeira letra em maiscula (D): Considerando a importncia da
primeira letra como um possvel identificador de EM, acreditamos que a composio da
verificao desta caracterstica em uma determinada vizinhana possa contribuir para
a melhoria do nosso classificador. Esta caracterstica faz uma consulta s palavras da
vizinhana verificando se a primeira letra maiscula. Os tokens consultados so o
corrente, o imediatamente anterior e o imediatamente posterior. Os resultados dessas
consultas so fornecidas a um nico molde.
2. Etiquetas de EM dos tokens anteriores (E) Assim como na caracterstica C utilizamos
as etiquetas de EM dos dois tokens anteriores, porm, neste caso, cada etiqueta fornecida a
um molde separado.
3. Molde para Tempo (F ): Este molde verifica se a palavra corrente est contida em um
dicionrio de palavras relacionadas ao tempo, Dictempo , tais como as estaes do ano, nomes
dos meses e dias da semana e finalmente suas respectivas abreviaes. Outra verificao realizada pelo mesmo molde a composio da palavra de seguida ou seguindo alguma palavra
contida no dicionrio Dictempo . Esta ltima verificao baseada no formato de escrita de
datas do tipo: 11 de setembro, tarde de domingo.
4. Molde para Valor (G): Se houver algum dgito na palavra a ser analisada, verificado se a
palavra seguinte est contida em um pequeno dicionrio manualmente preparado com trinta
entradas de unidades monetrias, medidas de distncias, pesos e alguns valores por extenso.
Por exemplo: reais, real, milhes, gramas e km. Este molde foi criado na tentativa de auxiliar
a classificao de termos da categoria valor, como no exemplo da frase: Hoje corri 40 km
de bicicleta..
5. Caractersticas de dicionrios (H1 e H2 ): Essas caractersticas indicam se uma determinada palavra faz parte de alguma entrada de um dicionrio especfico. As indicaes possveis
so X_ST ART e X_CON T IN U E, onde X um identificador de dicionrio. X_ST ART
7.2
CARACTERSTICAS
55
indica que a palavra procurada no dicionrio foi encontrada na primeira posio de alguma
entrada do dicionrio X, enquanto X_CON T IN U E indica que a palavra foi encontrada em
qualquer outra posio diferente da primeira em alguma entrada do dicionrio.
Por exemplo, se a entrada Lair Carvalho existir no dicionrio chamado PESSOA, e se
a palavra Carvalho for consultada neste dicionrio, a caracterstica fornecida ser PESSOA_CONTINUE.
O REPENTINO [SPC06] (acrnimo de REPositrio para o reconhecimento de ENTIdades
com NOme) um repositrio pblico que contm exemplos de EM, divididas por categorias
e sub-categorias conceituais, organizadas numa estrutura hierrquica.
Construmos alguns dicionrios baseados em algumas categorias do REPENTINO. A correspondncia entre as categorias do REPENTINO e as categorias do Segundo HAREM nem
sempre possuem o mesmo propsito. Portanto, para a construo dos nossos dicionrios, foi
necessrio realizarmos uma anlise das correspondncias entre as categorias/subcategorias do
REPENTINO com as categorias/tipos do Segundo HAREM. A correspondncia que utilizamos entre as categorias do REPENTINO e as do Segundo HAREM est na Tabela 7.9.
Dicionrio
Local
Categoria
Arte/Media/
Comunicao
Locais
Locais
Organizao
Organizaes
Pessoa
Abstrao
Seres
Abstrao
Coisa
Substncias
Natureza
Produtos
Acontecimento
Eventos
Obra
REPENTINO
Subcategoria(s)
Filme, Msica e Arte & Design
Patrimnio/Monumento
Terrestre, Pais/Estado, Infraestrutura
Povoao/Regio/Div. Administrativa e
Comercial/Industrial/Financeiro
Empresa, Governamental/Administrativa
Ensino/I&D, Desportiva e Clubes
Humano e Coletivo Humano
Estado/Condio, Disciplina/Arte & Ofcio
e Perodo/Movimento/Tendncia
Grupo, Minrio e Substncia
Animal
Ferramentas/Instrumentos, Formato,
Tarefa Manual/Artesanato e Veculos
Desportivo, Efemrida, Cientfico,
Poltico.
Tabela 7.9: Dicionrios baseados no REPENTINO.
Realizamos dois experimentos com os dicionrios da Tabela 7.9. No primeiro (H1 ), utilizamos
os dicionrios da Tabela 7.9 e todas as palavras contidas em suas entradas. No segundo
experimento (H2 ), removemos dos dicionrios as palavras que estivessem contidas em uma
lista de palavras vazias (do ingls, stoplist).
6. Tamanho da palavra rara (J): Esta caracterstica verifica se o nmero de caracteres da
palavra em questo maior ou igual a um valor pr-determinado. Verificamos os tamanhos
trs e cinco apenas para as palavras raras. Os resultados desta caracterstica somados ao
modelo-base, relatados na Tabela 7.11, correspondem ao modelo que testa se a palavra
56
7.2
RESULTADOS
maior ou igual a cinco, pois dos valores que testamos, foi o que se apresentou melhor para os
crpus Mini HAREM e Selva Falada.
7. Prefixo e sufixo das palavras (K): Segundo Ekbal & Saha [ES10], os prefixos e sufixos
so efetivos na identificao de EMs e trabalham bem para lnguas indianas, alm de serem
teis para a lngua inglesa. Em seu NER so utilizados todos os prefixos e sufixos de todas
as palavras maior do que um tamanho determinado. Ratnaparki utiliza estas caractersticas
em seu etiquetador morfolgico apenas quando a palavra em questo for rara. Testamos em
nosso sistema a utilizao destas caractersticas para as palavras, cujo tamanho em caracteres,
fossem maior que trs, verificando as duas implementaes comentadas:
K1 Exploramos essas caractersticas quando a palavra corrente for rara.
K2 Utilizamos os prefixos e sufixos de todas as palavras.
Os prefixos utilizados so compostos dos seguintes caracteres da palavra: o primeiro, os dois
primeiros e os trs primeiros. E os caracteres utilizados para a composio dos sufixos so: o
ltimo, os dois mais direita e os trs mais direita. Todos os caracteres so utilizados em
minsculos. Por exemplo se a palavra em questo for Linguagem os prefixos utilizados sero
l, li e lin, e os sufixos sero m, em e gem.
Caracterstica
A
B
C
D
E
F
G
H1
H2
J
K1
K2
Descrio
Sequncia de tokens em minsculos.
Sequncia de etiquetas morfolgicas.
Sequncia de etiquetas de EM.
Sequncia de tokens com primeira letra em maiscula.
Etiquetas de EM dos dois tokens anteriores.
Molde para Tempo.
Molde para Valor.
Dicionrios baseados no REPENTINO utilizando
todas as palavras contidas em suas entradas.
Dicionrios baseados no REPENTINO utilizando
suas entradas filtradas por uma stoplist.
Tamanho da palavra rara maior que cinco?
Prefixos e sufixos das palavras raras.
Prefixos e sufixos de todas as palavras.
Tabela 7.10: Resumo das caractersticas utilizadas.
Na Tabela 7.10 pode ser visto um resumo destas caractersticas. Os resultados de cada caracterstica adicionada ao modelo-base podem ser vistos na Tabela 7.11.
Vemos que a caracterstica K2 adicionada ao modelo-base, apresentou os melhores resultados
em todas as medidas de classificao para os crpus Primeiro HAREM e Selva Falada, com valores
de medida-F de classificao 4,64% e 3,55% superiores ao valores do modelo-base, respectivamente.
Alm disso, vemos que para a medida-F de classificao para o crpus Mini HAREM, a caracterstica
K2 s superada pela caracterstica H2 em 0,18%, e aumenta 3,4% em relao ao modelo-base.
Com estes resultados podemos dizer que a afirmao de Ekbal & Saha de que o uso de prefixos e
sufixos so efetivos no auxlio da identificao de EMs tambm vlida para o portugus.
7.2
CARACTERSTICAS
Crpus
Mini
HAREM
Primeiro
HAREM
Selva
Falada
modelo
mb
mb + A
mb + B
mb + C
mb + D
mb + E
mb + F
mb + G
mb + H1
mb + H2
mb + J
mb + K1
mb + K2
mb
mb + A
mb + B
mb + C
mb + D
mb + E
mb + F
mb + G
mb + H1
mb + H2
mb + J
mb + K1
mb + K2
mb
mb + A
mb + B
mb + C
mb + D
mb + E
mb + F
mb + G
mb + H1
mb + H2
mb + J
mb + K1
mb + K2
Preciso
Ident(%)
Class(%)
75,00148
57,80630
74,48325
57,69475
74,29196
57,50106
75,54634
58,57672
76,99680
58,30595
75,73480
58,90370
74,92982
57,93969
75,45797
58,34066
74,55334
60,43629
76,23660 62,13681
75,34425
58,03779
74,68543
60,14156
74,92993
61,87761
76,53824
59,16431
76,87729
58,98324
76,07125
57,91697
76,70065
58,81606
78,14976
59,18418
77,19090
59,27683
76,63596
59,45302
77,11017
59,68411
76,19230
61,33093
76,22047
61,28716
76,13792
58,75711
76,08141
60,50370
76,34081 64,52575
89,66884
82,67272
89,58302
82,73687
89,64482
82,86629
90,01010
82,86729
90,89397
82,95527
90,10592
82,92844
89,76276
82,77348
89,84182
82,82983
89,34030
82,61994
89,22732
82,69307
89,88457
82,76723
89,47400
82,62784
90,26112 84,87040
Cobertura
Ident(%)
Class(%)
64,35055
49,58075
63,29003
49,00506
62,71358
48,56344
63,15089
48,95084
67,62624
51,20350
62,36874
48,49159
64,36937
49,74972
64,93970
50,19488
64,00691
51,85737
64,56288 52,58581
64,44018
49,63469
61,72599
49,70212
63,53039
52,46063
65,74270
50,80791
65,47289
50,22668
65,15926
49,60303
65,43136
50,16509
69,13466
52,33239
65,79688
50,52237
65,73415
50,98513
66,07752
51,13300
65,09813
52,40074
65,54740
52,70593
65,35923
50,43624
63,71556
50,65993
64,90534 54,85411
78,41523
72,29848
76,32411
70,49039
77,93365
72,03933
78,41542
72,19234
80,75550
73,70132
78,02513
71,80954
78,48539
72,37596
78,48774
72,36336
76,95549
71,16764
76,96107
71,32528
78,30441
72,10626
76,62773
70,76352
81,78569 76,89924
57
F1
Ident(%)
69,22771
68,38861
67,97277
68,76254
71,97806
68,36683
69,20970
69,75771
68,84653
69,86330
69,42619
67,54946
68,71901
70,71587
70,70650
70,18138
70,60641
73,34927
71,02667
70,75305
71,15123
70,19446
70,46074
70,32323
69,34350
70,15091
83,66378
82,42342
83,37820
83,81173
85,52364
83,62960
83,74456
83,78043
82,68504
82,63908
83,69364
82,55071
85,81292
Class(%)
53,34623
52,96236
52,62396
53,30778
54,50174
53,16296
53,50210
53,92508
55,79277
56,92075
53,47695
54,39260
56,74658
54,65700
54,24487
53,42922
54,13735
55,53487
54,54040
54,88305
55,06502
56,50301
56,65635
54,26822
55,13959
59,29050
77,13696
76,12393
77,07275
77,16058
78,05345
76,96776
77,22489
77,24236
76,46582
76,58740
77,06780
76,23370
80,68681
Tabela 7.11: Resultados de cada caracterstica adicionada ao modelo base. Os melhores resultados esto
em negrito.
Os dicionrios criados a partir do REPENTINO tambm foram efetivos na resoluo da nossa

tarefa para os crpus do HAREM, porm para o Selva Falada o ganho experimentado no foi to
significante, o que era esperado, pois durante a construo dos dicionrios, estudamos apenas as
categorias do REPENTINO em correspondncia com o exemplrio de categorias do HAREM.
58
7.3
RESULTADOS
O uso das caractersticas compostas, com as configuraes que utilizamos, com exceo da
caracterstica D, se mostraram ineficientes a ponto de afetar negativamente as medidas-F dos crpus
do HAREM. No entanto a caracterstica C apresentou uma pequena melhoria das medidas-F para
o crpus Selva Falada.
Outra observao sobre os resultados o ganho experimentado com o uso da caracterstica D em
todos os crpus estudados. Apesar de j efetuar a consulta sobre a capitalizao da palavra corrente
ao usar a caracterstica de estrutura interna da palavra, vemos que a observao em conjunto das
palavras da vizinhana de grande auxlio para identificao e classificao da palavra corrente.
Os ganhos experimentados das medidas-F de identificao com o uso de tal caracterstica foram de
2,67%, 2,63% e 1,86%, para os crpus Mini HAREM, Primeiro HAREM e Salva Falada e de 1,16%,
0,88% e 0,92% na medida-F de classificao, respectivamente.
7.3
Modelos Melhorados
Para avaliar o impacto da combinao das caractersticas estudadas na Seo 7.2.5, construmos dois modelos. No primeiro modelo, (M T odas), utilizamos todas as melhores implementaes
das caractersticas apresentadas na Seo 7.2.5 combinadas com o modelo-base, especificamente:
M T odas = mb + A + B + C + D + E + F + G + H2 + J + K2 . Para o segundo modelo, combinamos
apenas as caractersticas que apresentaram sinergia com o modelo base para o crpus Mini HAREM,
referenciaremos a este modelo como M Sinergia. A composio do modelo M Sinergia dado por:
M Sinergia = mb + D + F + G + H2 + J + K2 . Para os experimentos desta seo utilizamos o corte
de predicados contextuais igual a cinco.
Os resultados destes modelos aplicados sobre os trs crpus esto apresentados na Tabela 7.12.
Crpus
Mini
HAREM
Primeiro
HAREM
Selva
Falada
modelo
M T odcorte=5
M Sincorte=5
M T odcorte=5
M Sincorte=5
M T odcorte=5
M Sincorte=5
Preciso
Ident(%) Class(%)
79,867
67,528
78,628
65,648
80,536
68,307
78,789
66,939
91,010
84,955
90,992
84,945
Cobertura
Ident(%) Class(%)
64,463
54,509
67,320
56,211
67,836
57,515
68,499
58,177
81,375
75,961
82,983
77,467
F1
Ident(%)
71,298
72,492
73,626
73,273
85,922
86,802
Class(%)
60,285
60,527
62,435
62,242
80,205
81,033
Tabela 7.12: Comparao dos modelos M T odas e M Sinergia aplicados em cada crpus.
Vemos que para os crpus do HAREM, os valores das Medidas-F de classificao no apresentaram grandes diferenas por crpus, alm disso, enquanto o modelo M Sinergiacorte=5 se apresentou
melhor para o crpus Mini HAREM, o modelo M T odascorte=5 se apresentou melhor para o crpus
Primeiro HAREM, o que dificulta a nossa escolha sobre o melhor modelo. Porm, podemos observar que o modelo M T odascorte=5 obteve os melhores resultados para a preciso enquanto que o
modelo M Sinergiacorte=5 apresentou melhores resultados de cobertura para os trs crpus. Isso
uma informao importante se precisarmos ajustar o sistema para uma medida ou outra.
Para o crpus Selva Falada, o modelo M T odascorte=5 teve a medida-F de classificao inferior
ao uso do modelo-base combinado apenas com a caracterstica K2 , como visto na Tabela 7.11. No
entanto, o modelo M Sinergiacorte=5 conseguiu alcanar uma pequena melhora da mesma medida
7.3
MODELOS MELHORADOS
59
em comparao com o melhor valor apresentado na Tabela 7.11.

Com a dificuldade apresentada na definio do melhor modelo na utilizao dos crpus do
HAREM, veremos na prxima seo uma verificao do nmero de corte de predicados contextuais
utilizando os modelos M T odas e M Sinergia afim de definir um modelo para avaliao com o
Segundo HAREM.
7.3.1
Novo estudo de corte para crpus do HAREM
Para auxiliar na definio do melhor modelo a ser aplicado sobre os crpus do HAREM, considerando a dificuldade apresentada pelos resultados da Tabela 7.12, realizamos outro conjunto de
experimentos. Desta vez, juntamos os crpus Primeiro HAREM e Mini HAREM em apenas um
arquivo e realizamos a separao dos conjuntos treino-teste de acordo com a Seo 7.1.1. Neste
ensaio treinamos os modelos M Sinergia e M T odas utilizando os valores trs, cinco e dez para o
corte de predicados contextuais. Os resultados podem ser vistos na Tabela 7.13.
Modelo
M T odas
M Sinergia
corte
3
5
10
3
5
10
Preciso
Ident(%) Class(%)
81,669
69,953
80,918
68,749
80,380
67,212
79,844
67,843
79,536
67,106
78,752
65,526
Cobertura
Ident(%) Class(%)
67,142
57,507
67,916
57,708
69,298
57,942
68,761
58,432
69,615
58,743
70,108
58,335
F1
Ident(%)
73,686
73,840
74,418
73,881
74,237
74,169
Class(%)
63,114
62,739
62,225
62,780
62,640
61,714
Tabela 7.13: Avaliao de cortes para os modelos melhorados utilizando os crpus Mini HAREM e Primeiro
HAREM juntos.
Assim como no experimento anterior, o modelo M T odas apresentou os melhores resultados de

preciso em todos os cortes em comparao com o modelo M Sinergia, enquanto que o modelo
M Sinergia apresentou os melhores resultados para a cobertura. Alm disso, neste experimento
verificamos que mesmo criando um modelo que utiliza apenas as caractersticas que melhoram o
resultado da medida-F de classificao do modelo-base (M Sinergia), o modelo que utiliza todas as
caractersticas (M T odas) apresenta resultados melhores, ainda que pequenos, na mesma medida,
chegando diferena de 0,33%, 0,09% e 0,51%, para os cortes de predicados contextuais trs, cinco
e dez, respectivamente.
Alm disso, podemos comparar estes resultados aos obtidos por Milidi et al [MdSD08], trabalho no qual utilizaram ETL conforme visto na Seo 5.1.2. Utilizando esta estratgia no crpus
HAREM, alcanaram a medida-F de 63,27% na tarefa de classificao de entidades, superando a
nossa abordagem em 0,16% se comparado ao modelo M T odascorte=3 . Porm, vale ressaltar que
alm dos crpus do HAREM tambm utilizaram o crpus LearnNEC06 para treinamento. Nossos
resultados so animadores pois so competitivos com o estado-da-arte para esta tarefa.
Com base nesses resultados adotaremos o modelo M T odas para a avaliao final do nosso
sistema no Segundo HAREM. Antes de efetuarmos a avaliao final, verificaremos na prxima
seo um estudo sobre a compatibilidade dos crpus disponveis.
60
7.4
RESULTADOS
7.3.2
Estudo de Crpus
Verificamos agora a performance do modelo M T odascorte=5 treinando-o com um crpus e avaliando com os dois restantes de forma a verificar a compatibilidade dos crpus na resoluo do nosso
problema e para escolha do uso dos crpus a serem utilizados no sistema final a fim de avaliar no
Segundo HAREM.
Crpus
Treino
Teste
Mini HAREM
Primeiro HAREM
Selva Falada
Primeiro HAREM Mini HAREM
Selva Falada
Selva Falada
Mini HAREM
Primeiro HAREM
F1
Ident(%)
62,82649
44,87429
62,94173
57,86653
53,86533
54,74883
Class(%)
48,85727
33,49249
51,00286
45,82562
37,31846
36,23891
Tabela 7.14: Medida-F do modelo M T odascorte=5 aplicado na avaliao de domnio do crpus.
Com os resultados apresentados na Tabela 7.14 verificamos que o modelo treinado com o crpus
Selva Falada, mesmo tendo uma quantidade de 3,5 vezes superior de exemplos de EMs em relao
ao crpus Mini HAREM, foi 12,62% inferior a este segundo na medida-F de classificao das EMs do
crpus Primeiro HAREM. Da mesma forma, o sistema treinado com o Primeiro HAREM, mesmo
possuindo apenas pouco mais de um tero da quantidade de exemplos de EMs do crpus Selva
Falada, teve a medida-F 13,69% superior a este segundo na tarefa de classificao das EMs do
crpus Mini HAREM.
Em contrapartida, vemos que os resultados dos modelos treinados com o crpus Primeiro HAREM e o crpus Mini HAREM tiveram uma diferena de 12,33% de medida-F na tarefa de classificao das EMs do crpus Selva Falada. Esta diferena indica uma relao com o tamanho do
crpus de treinamento, visto que o crpus Mini HAREM tem apenas 72,71% da quantidade de EMs
que possui o Primeiro HAREM.
7.4
Avaliao no Segundo HAREM
Nesta seo mostramos o comparativo da sada do nosso modelo final com os resultados oficiais
do Segundo HAREM. As avaliaes desta seo foram obtidas com o SAHARA, conforme visto
na Seo 3.2.3. Seguindo a metodologia adotada, verificamos que o modelo M T odas apresentou os
melhores resultados de medida-F utilizando os recursos disponveis, portanto o utilizaremos como
nosso modelo oficial para a avaliao no Segundo HAREM, treinando-o com os crpus Primeiro
HAREM e Mini HAREM.
7.4.1
Cenrios de Avaliao
Avaliamos nosso sistema utilizando dois cenrios de avaliao do Segundo HAREM, nomeadamente, Cenrio Total e Cenrio Seletivo. No cenrio total avaliada a capacidade do sistema
de identificar e classificar todas as categorias, tipos e subtipos do Segundo HAREM. Mesmo que
nosso sistema no tenha a proposta de classificao de tipos e subtipos, a avaliao neste cenrio
7.4
AVALIAO NO SEGUNDO HAREM
61
importante ser verificada para que possamos comparar com os demais sistemas participantes do
evento. As configuraes utilizadas no cenrio completo foram: = 1, = 0, 5, = 0, 25 com ALT
estrita.
O Cenrio Seletivo tem o intuito de avaliar a capacidade do nosso sistema de identificar e classificar apenas as categorias propostas pelo Segundo HAREM, portanto, as configuraes utilizadas
no Cenrio Seletivo foram: = 1, = = 0 com ALT estrita.
Cenrio Total
Primeiramente vamos verificar o desempenho do nosso sistema considerando o cenrio total em
comparao com os sistemas participantes do Segundo HAREM.
Antes disso, porm, necessrio saber que nem todos os sistemas se propuseram a identificar
e classificar todas as categorias, tipos e subtipos do Segundo HAREM, o que faz com que alguns
sistemas possam ser desfavorecidos neste cenrio. Mesmo assim, esta comparao foi realizada no
mbito do Segundo HAREM, o que nos permite realizar tal verificao para efeito de comparao
com o comportamento do nosso sistema com os demais.
Vemos na Tabela 7.15 os resultados do modelo M T odascorte=5 comparados com os melhores
resultados de cada sistema deste evento. Considerando este cenrio, a medida-F de classificao do
nosso sistema est abaixo do melhor sistema em cerca de 14,64%, o que deixa nosso sistema na
quinta posio.
Este um bom resultado considerando o nmero de sistemas participantes e o fato de que a
maioria dos sistemas so baseados em regras manuais em combinao com dicionrios e ontologias.
Dos dez sistema, apenas o R3M adotou o Aprendizado de Mquina, e os resultados mostram que
ficamos com a medida-F de classificao cerca de 5% superior a este no atual cenrio.
Sistema
Priberam_1
REMBRANDT_2
XIP-L2FXerox_3
REMMA_1_corr
M T odascorte=5
R3M_1
SeRELep_1
Cage2_4_corr
SEIGeo_4
PorTexTO_4_corr
DobrEM_1_corr
Preciso
Ident(%) Class(%)
69,94
64,17
75,77
64,97
72,14
65,66
70,83
60,50
69,37
60,76
76,44
76,44
81,78
81,78
50,59
44,99
89,63
74,85
70,03
67,90
45,30
45,30
Cobertura
Ident(%) Class(%)
72,29
51,46
62,14
50,36
53,15
46,52
45,16
36,15
48,04
32,65
61,70
25,20
59,15
24,15
37,87
27,57
13,58
11,66
8,98
8,82
1,79
0,73
F1
Ident(%)
71,10
68,28
61,21
55,15
56,77
68,28
68,65
43,32
23,59
15,92
3,44
Class(%)
57,12
56,74
54,46
45,26
42,48
37,90
37,29
34,19
20,18
15,61
1,44
HAREM no cenrio total com ALT estrita. Os resultados do nosso sistema esto na linha destacada.
Cenrio Seletivo
Na Tabela 7.16 vemos os resultados do modelo M T odascorte=5 comparados aos sete melhores
resultados dos sistemas participantes do Segundo HAREM. Vemos que a medida-F de classificao
62
7.4
RESULTADOS
do nosso sistema est abaixo do melhor sistema em cerca de 11,60%, o que deixa nosso sistema na
quarta posio neste cenrio.
Sistema
Priberam_1
REMBRANDT_2
XIP-L2FXerox_3
M T odascorte=5
REMMA_1_corr
R3M_1
SeRELep_1
Cage2_4_corr
Preciso
Ident(%) Class(%)
70,32
66,50
77,00
69,54
72,65
68,32
69,38
60,77
72,24
64,64
78,28
78,21
82,59
82,59
50,74
45,16
Cobertura
Ident(%) Class(%)
72,29
55,31
62,10
53,10
53,18
48,45
48,04
40,76
45,14
39,14
61,74
31,48
59,10
30,14
37,82
32,61
F1
Ident(%)
71,29
68,76
61,41
56,77
55,57
69,01
68,90
43,34
Class(%)
60,39
60,22
56,69
48,79
48,76
44,89
44,16
37,87
Tabela 7.16: Comparativo do modelo M T odascorte=5 com os resultados dos sistemas participantes do Segundo HAREM no Cenrio Seletivo (Apenas Categorias).
7.4.2
Testes Alternativos
Seguindo a nossa metodologia, verificamos que o modelo M T odas superou o modelo M Sinergia
com os recursos que tnhamos disponveis para treino e teste, no entanto, aps a avaliao do nosso
sistema no Segundo HAREM, realizamos mais alguns experimentos para verificar o comportamento
dos nossos modelos com ajustes de cortes de predicados contextuais e manipulaes dos crpus de
treino.
Inicialmente, realizamos mais um experimento de variao de cortes de predicados contextuais
para o modelo M T odas aplicado ao crpus HAREM (Mini HAREM + Primeiro HAREM). Desta
vez, dividimos este crpus separando aleatoriamente 75% das frases para treino e 25% para teste.
Foram feitas quatro divises seguindo este esquema. Os valores das medida-Fs de cada corte esto
ilustrados na Figura 7.1.
Vemos, com estes resultados, que para os valores de cortes que testamos, a partir do valor de
corte cinco, a mdia da medida-F do modelo comea a diminuir, levando-nos a concluir que dos
cortes estudados, o que mais se adequa ao nosso modelo de fato o valor cinco.
Alm deste experimento, realizamos novos estudos comparativos com a avaliao do Segundo
HAREM. Para este conjunto de experimentos alternativos treinamos os dois modelos, M T odas e
M Sinergia, utilizando o crpus HAREM da mesma maneira que utilizamos na Seo 7.3.1, e uma
verso filtrada do mesmo crpus. Na verso filtrada, eliminamos todas as frases que no continham marcao de EM. Desta forma obtemos quatro combinaes de modelos, a saber: M T odas,
M T odasF iltro , M Sinergia e M SinergiaF iltro . Os quatro modelos foram treinados utilizando diferentes cortes de predicados contextuais e avaliados no Segundo HAREM, com o auxlio do SAHARA.
Na Figura 7.2 esto os resultados das Medida-Fs dos modelos avaliados no Cenrio Total e na
Figura 7.3 esto as Medida-Fs dos mesmos modelos avaliados no Cenrio Seletivo. Os resultados
completos destes experimentos esto no Apndice B.
Analisando as informaes do Cenrio Total (Figura 7.2) vemos que o modelo M SinergiaF iltro(corte=80)
conseguiu alcanar a medida-F de 46,49%, superando o modelo M T odascorte=5 em 4%, diminuindo
a diferena entre nosso sistema e o primeiro colocado neste cenrio. A nova diferena de 10,63%.
7.4
AVALIAO NO SEGUNDO HAREM
63
Classificao no Crpus HAREM

Modelo Utilizando todas as caractersticas
66
65
64
MedidaF
63
62
61
60
MTodas
1 Separao
2 Separao
3 Separao
4 Separao
55
60
59
58
57
56
55
0
10
15
20
25
30
35
40
45
50
Cortes
Figura 7.1: Uma avaliao mais extensa dos valores de cortes de predicados contextuais para o Modelo
M T odas sobre o crpus HAREM.
Classificao no Segundo HAREM

Cenrio Total
47
46
MedidaF
45
44
43
MTodas
MTodas_Filtro
MSinergia
MSinergia_Filtro
42
41
40
3
40 80
160
320
640
Cortes
Figura 7.2: Resultados de diferentes modelos avaliadas no Segundo HAREM- Cenrio Total.
Esse novo resultado faz com que nosso sistema fique na quarta posio se comparado com os sistemas participantes do Segundo HAREM, ganhando portanto uma posio em comparao com o
resultado apresentado na Tabela 7.15.
Nos resultados dos modelos verificados no Cenrio Seletivo, o modelo M SinergiaF iltro(corte=80)
apresentou a medida-F de 52,87%, sendo o melhor resultado obtido. Esse resultado 4,08% superior
64
7.4
RESULTADOS
Classificao no Segundo HAREM

Cenrio Seletivo
53
52
MedidaF
51
50
MTodas
MTodas_Filtro
MSinergia
MSinergia_Filtro
49
48
47
3
40 80
160
320
640
Cortes
Figura 7.3: Resultados de diferentes modelos avaliadas no Segundo HAREM- Cenrio Seletivo.
ao apresentado na Tabela 7.16. Apesar deste ganho, a posio do nosso sistema no se altera perante
os outros sistemas neste cenrio de avaliao.
Alm disso vemos que nosso modelo oficial M T odas, configurado com o valor de corte de predicado contextual igual a 80, apresentou melhor desempenho do que o valor oficialmente utilizado. Os
valores do modelo M T odascorte=5 foram superados em 3,05% no Cenrio Total e em 3,2% no Cenrio Seletivo. Diferentemente do que ocorreu com os estudos realizados sobre os crpus do Primeiro
HAREM e Mini HAREM, os resultados do Segundo HAREM melhoraram quando aumentamos o
nmero de cortes de predicados contextuais.
Esses resultados mostram que seguindo os estudos de cortes que realizamos com o material de
treino e testes que tnhamos disponveis descartaramos a hiptese de que aumentar o valor de corte
de predicados contextuais melhoraria a performance do sistema.
Esses experimentos s foram possveis devido disponibilidade dos recursos de avaliao fornecidos pelos organizadores do HAREM. No podemos afirmar que experimentaramos os cortes aqui
estudados se tais recursos no estivessem disponveis. Se esses recursos estivessem disponveis antes
do evento de avaliao do Segundo HAREM, os participantes poderiam utiliz-los para ajustar os
sistemas e com isso possvel que seus resultados fossem diferentes dos atuais.
Captulo 8
Concluses
Neste trabalho construmos um sistema de REM utilizando o arcabouo de mxima entropia.
Com o sistema construdo, foi possvel explorar diversas caractersticas contextuais e caractersticas
externas que auxiliam na tarefa de identificao e classificao de EMs da lngua portuguesa.
Treinamos um modelo base utilizando como caractersticas contextuais, as palavras, as etiquetas
morfolgicas e algumas informaes estruturais das palavras. Verificamos ainda diversas outras
caractersticas e suas combinaes adicionadas ao modelo base e avaliamos suas contribuies na
tarefa de REM em comparao com o modelo base. Utilizamos trs crpus separadamente para a
verificao das caractersticas exploradas.
Para a tarefa de avaliao do sistema, foi necessrio verificar algumas das diferentes formas de
avaliao deste tipo de sistema presentes na literatura da rea. Verificamos trs destas formas de
avaliao aplicados sobre um mesmo exemplo de texto e comparamos seus resultados. Desta forma,
pudemos ser cautelosos em afirmaes sobre os diferentes resultados apresentados em diferentes
trabalhos sobre o mesmo assunto, bem como os resultados de performance do nosso prprio sistema.
Finalmente, avaliamos nosso sistema seguindo as diretivas do Segundo HAREM.
Para a avaliao no Segundo HAREM, utilizamos uma ferramenta disponvel pela organizao
deste evento. O resultado obtido com o nosso sistema ficou abaixo do melhor sistema participante
em cerca de 14,64% no cenrio que se prope a identificar e classificar todas as categorias, tipos e
subtipos de EMs do Segundo HAREM, ficando em quinto lugar neste cenrio de avaliao, com a
F1 de 42,48%. Em um cenrio seletivo, que se prope a identificar e classificar apenas as categorias
do Segundo HAREM, o resultado foi um pouco melhor, alcanando a F1 de 48,79% e ficando abaixo
do melhor sistema em cerca de 11,60%, o que representa a quarta posio neste cenrio. Entretanto,
se comparado ao nico participante do Segundo HAREM que utilizou como abordagem o AM, neste
caso o R3M, nossos resultados superam o F1 de classificao em 4,58% e 3,9% para os cenrios total
e seletivo, respectivamente.
Com algumas manipulaes dos crpus de treinamento e um estudo do nmero de corte de
caractersticas para o processo de estimao de mxima entropia, conseguimos aumentar os F1
de classificao do nosso sistema em cerca de 4% nos dois cenrios de avaliao. Desta forma,
aumentamos o F1 de classificao para 46,49% no cenrio total e 52,87% no cenrio seletivo. Com
estes novos resultados nosso sistema ficou na quarta colocao no cenrio total, ganhando portanto
uma posio se comparado aos resultados anteriores. Quanto ao cenrio seletivo, mesmo diminuindo
a diferena entre o primeiro colocado, no houve mudana de posio se comparado s posies dos
demais sistemas. Vale ressaltar que estes novos resultados foram obtidos com um modelo treinado
65
66
CONCLUSES
8.1
utilizando apenas algumas das caractersticas estudadas.

Nosso sistema tambm apresentou bons resultados se comparados s abordagens TBL e ETL
aplicados ao problema de REM. O TBL alcanou o F1 de 87,26% avaliado sobre um crpus contendo
3325 exemplos de EM. O uso da estratgia ETL sendo avaliada utilizando o crpus do Primeiro
HAREM, alcanou o F1 de 63,27%. Usando o crpus do Primeiro HAREM e seguindo os moldes de
avaliao do CoNLL, que uma avaliao mais restrita se comparada s outras formas de avaliao
vistas neste trabalho, nosso sistema atingiu o F1 de 63,11%. Devido s diferenas de recursos
utilizados entre nossa abordagem e o TBL a comparao no pode ser levada completamente em
considerao. Porm no caso do ETL tal comparao possvel e nossos resultados se mostraram
competitivos.
Apesar de no ter atingido o estado-da-arte na tarefa de REM em portugus, fato este observado
com a comparao com os sistemas participantes do Segundo HAREM, podemos concluir que o
arcabouo de Mxima Entropia uma abordagem competitiva na resoluo desta tarefa. Nosso
sistema conseguiu atingir uma das melhores colocaes entre os sistemas participantes, utilizando
apenas dicionrios, crpus de treinamento e sem considerar conhecimento lingustico sobre o assunto
a ser resolvido.
8.1
Trabalho Futuros
Como proposta de futuros trabalhos, podemos considerar algumas ideias obtidas no decorrer
do desenvolvimento deste. Tais ideias variam desde a explorao de caractersticas que no foram
abordadas neste trabalho, at mesmo a reestruturao da arquitetura do sistema. Dentre algumas
possibilidades de futuros trabalhos, sugerimos:
1. A verificao do uso de sintagmas nominais como caracterstica do nosso sistema. Vimos na
seo 5.1.2 que o uso de tais caractersticas auxiliou a abordagem ETL na tarefa de REM
da lngua portuguesa. Esta talvez seja uma caracterstica interessante a ser explorada com o
nosso sistema;
2. Uma reestruturao da arquitetura do sistema de forma a permitir que a tarefa de identificao
de EM seja efetuada em um primeiro passo. De posse destas informaes, um segundo passo
seria efetuado, desta vez para a tarefa de classificao das EMs identificadas no primeiro
passo;
3. A utilizao de um algoritmo de otimizao para a seleo de caractersticas a serem utilizadas
pelo algoritmo de maximizao de entropia, a exemplo do algoritmo gentico. Tal abordagem
foi utilizada por Ekbal & Saha [ES10] no problema de REM para lnguas indianas.
Uma caracterstica do nosso sistema a independncia do conjunto de etiquetas de EM. Isso
permite que ele seja utilizado em futuras pesquisas testando-o com diferentes crpus e conjunto de
etiquetas. Para que isso seja possvel, basta a manipulao dos crpus a serem utilizados tornando-os
compatveis com o formato de entrada aceitvel pelo nosso sistema.
Esta dissertao, resultados com detalhes de categorias de EM e o sistema aqui implementado
podem ser encontrados em http://www.ime.usp.br/~wesleys.
Apndice A
Exemplos de Textos do HAREM

Neste Apndice compilamos alguns exemplos de frases extradas do exemplrio do Segundo
HAREM e dos crpus do HAREM utilizados nesta dissertao. Os exemplos esto organizados por
categoria/tipo/subtipo do Segundo HAREM.
A.1
Exemplos por categoria/tipo do Segundo HAREM
Pessoa
Individual
Carta aberta a Sua Santidade, o Papa Bento XVI.
D. Vanna uma livreira moda clssica.
Cargo
O presidente da Repblica , de uma forma geral, o chefe de Estado.
Jantamos com o Secretrio de Turismo, que relatou-nos tudo o que est acontecendo em Presidente Figueiredo no que tange o turismo ecolgico.
GrupoCargo
O Conselho de Ministros tomou nota, com satisfao, dos esforos do Secretariado.
...juntamente com os outros dois Vice presidentes espanhis deste Parlamento,
tive a honra e o privilgio de acompanhar...
GrupoMembro
A Inglaterra derrotou nesta quarta-feira a Sua por 2 a 1, em amistoso internacional disputado no Estdio Wembley, em Londres.
Vamos todos ajudar os Bombeiros.
Membro
George Harrison era conhecido como o Beatle discreto e quieto.
De Portugal Rssia, 40 Metodistas partilharam as suas experincias e perspectivaram o futuro da misso na Europa.
GrupoInd
67
68
APNDICE A
J a Famlia Esprito Santo, que detm cerca de um tero do Banco Esprito

Santo, tinha um patrimnio avaliado em quase 1,3 milhes de euros.
... tendo sido construdo inicialmente para residncia da famlia Barros Lima.
Povo**
A esperana mdia de vida do Terceiro Mundo absurdamente baixa.
Ronaldo conquistou a Inglaterra.
Abstrao
Disciplina
O Socialismo um sistema scio-poltico caracterizado pela apropriao dos meios
de produo pela coletividade.
O Princpio da Incerteza de Heisenberg.
Estado
A sndrome de Alstrm uma doena hereditria muito rara.
Inaugura-se uma quinta fase, de Resistncia (1961-1974), com a entrada na dcada
de 60 e o incio da luta armada de libertao nacional ...
Idia
Qualquer dia j ningum acredita na Repblica e na Democracia.
Os registradores podero discutir com o governo a campanha em torno da Gratuidade Universal, que dever ser lanada em novembro.
Nome
O que significa a sigla JCB?
A revista foi denominada Medicina e Cultura e teve o seu primeiro nmero publicado em janeiro de 1939.
Acontecimento
Efemeride
Cinco anos depois do 11 de Setembro, Bin Laden continua a monte.
Essa a grande novidade do Carnaval 94: os pelades.
Site totalmente dedicado ao episdio da Guerra de Canudos.
Organizado
A organizao do Rock in Rio 2008 acabou de confirmar mais um grande nome
para o seu cartaz.
Segue reproduo fiel do material de divulgao do VII Congresso Nacional de
Registro Civil, publicado na pgina do Recivil-MG na Internet.
Evento
O Concerto de encerramento da Presidncia portuguesa da Unio Europeia ter lugar no dia 19 de Dezembro, pelas 21h, no Centro Cultural de Belm.
A cerimnia aconteceu antes da partida Brasil X Noruega.
EXEMPLOS POR CATEGORIA/TIPO DO SEGUNDO HAREM
69
Coisa
Classe
O Doberman , de maneira geral, um co muito ativo, enrgico e determinado,
extremamente ligado famlia a que pertence.
Os arquivos MP3 esto organizados e renomeados.
MembroClasse
O Pastor Alemo foi o primeiro classificado no concurso.
...para repassar o comprovante de deposito e receber o seu Recibo de Pagamento
da Anuidade.
Objeto
Os cientistas deram conta desta enorme onda expansiva cujo tamanho comparvel
rbita de Saturno em volta do Sol.
...na qualidade de presidente da Comisso dos Transportes do Parlamento Europeu
e tambm como deputado grego, gostaria de fazer uma referncia ao naufrgio do
ferry boat Express Samina, ocorrido na passada tera feira.
Substncia
Cientistas espanhis descobrem nova forma de mapear ADN.
"Por isso, acrescentei Viagra ao tratamento".
Local
Humano
Pas
Nosso caf faz sucesso na Terra do Sol Nascente.
Qualquer cidado da Unio Europeia pode agora escrever ao Parlamento Europeu.
Diviso
A fiscalizao aconteceu em Mato Grosso do Sul.
Desde o incio da semana, moradores da Rocinha e do Vidigal aguardam uma
nova guerra entre traficantes das duas favelas...
Regio
As transnacionais expulsam os negcios locais no Terceiro Mundo e apoderamse dos seus mercados.
Os Estados Unidos no pretendem construir novas bases militares em frica,
apesar da criao do novo comando militar africano.
Construo
O Aeroporto da Madeira e o Aeroporto de Porto Santo so ponto de
partida e de chegada de vrias companhias areas internacionais.
Rua
J todos ouvimos falar dos incomparveis museus de Nova Iorque, das luxuosas
lojas da 5a Avenida e dos clssicos musicais da Broadway.
70
APNDICE A
Virar direita no cruzamento da Av. Cristvo Colombo com a R. Santa Izabel.

Outro
Corria sempre, pela manh, na Praia do Cruzeiro, em Icoaraci.
Ficamos de nos encontrar na estao Jardim So Paulo.
Fisico
Aguamassa
A Lagoa de Araruama uma lagoa brasileira que tem um grande corpo dgua
com sada para o mar, na Regio dos Lagos do Estado do Rio de Janeiro.
A Barragem do Alqueva tem uma extenso de 1160 quilmetros..
Aguacurso
Tirou fotografias fantsticas s Cataratas do Niagara.
A seca que tem atingido o pas fez com que os problemas de poluio no rio
Tranco se tornassem mais visveis.
Relevo
Grupo viajava em avio que bateu contra montanha na Cordilheira dos Andes.
Em 1997, Joo Garcia fez a primeira tentativa de escalar o Everest, face norte,
mas apenas conseguiu atingir os 8.200m.
Planeta
A ISS um esboo do que poder ser o futuro da a humanidade no espao,
atravs de sucessivas bases cada vez mais longe do nosso bero (primeiro a Lua,
depois possivelmente os pontos lagrangeanos em que as foras da Terra e do
Sol ou da Terra e da Lua se equilibram, e mais tarde Marte).
Regio
Os recursos naturais de frica so hoje desejados por todas as grandes economias mundiais.
O sul da Califrnia, como a nossa Pennsula Ibrica, um exemplo de contrastes geogrficos e climticos muito abusados.
Virtual
ComSocial
O anncio a que me referia estava no Dirio de Notcias de ontem.
Sitio
Podes tentar fazer uma pesquisa simples no GOOGLE ou no YAHOO.
Obra
Esta constatao no significa, contudo, que todos os dados apresentados no
Cdigo Da Vinci tenham o mesmo valor.
Obra
Arte
EXEMPLOS POR CATEGORIA/TIPO DO SEGUNDO HAREM
71
Leonardo Da Vinci criou muitos quadros. Dois deles so muito conhecidos: Mona
Lisa e a ltima Ceia.
A obra prima A ltima Ceia um bom exemplo disso.
Plano
O Estado subordina-se Constituio e funda-se na legalidade.
O motivo da autuao foi a prtica de aumento abusivo de preos acima da variao
dos custos de acordo com a nova Lei Antitruste (no 8.884/94).
Reproduzida
O Cdigo Da Vinci foi editado pela Bertrand.
Eu desconheo que haja entrevista da Playboy em que eu falo isso
Organizao
Administrao
O Ministrio da Sade contratou 30 mdicos uruguaios para trabalharem no 112.
Mas a Unio Europeia tambm um espao cultural de uma imensa diversidade.
Empresa
A Ferrari lanou, neste domingo, em Maranello, o 53o carro para a disputa de um
Mundial de Frmula 1.
Tem a fbrica de alumina, a Alunorte, tambm no Par, que um insumo muito
importante para o Brasil e o Brasil importava esse insumo.
Instituio
A Igreja Catlica sempre se viu, portanto, como uma unio ou comunho na
diversidade.
A Sunab tambm constatou a prtica de aumento abusivo de preos em outros 23
estabelecimentos comerciais.
Valor
Classificao
Pela primeira vez desde 2002, o cartaz desta 15a edio traduz um investimento
exclusivamente europeu...
Mas a grande surpresa do relatorio de 99, quando comparado com o de 98, foi
Cingapura, que saltou do 11o para o quarto lugar, passando frente at do ...
Moeda
Hoje custa menos de 5 reais. O salrio mnimo era R$ 200!
A remunerao de R$2.409,66, podendo chegar a R$3.613, com a Gratificao
de Desempenho...
Quantidade
Paciente de 67 anos esquecida em aparelho de tomografia.
Mais de 7.500 msicas em MP3 de todos gneros.
72
APNDICE A
Apndice B
Resultados dos Experimentos

Alternativos
Na realizao dos experimentos alternativos treinamos o modelo M T odas, apresentado na seo
7.3, com uma maior variedade de valores para o nmero de cortes de predicados contextuais. Os
resultados esto na Tabela B.1.
Alm disso, treinamos os demais modelos melhorados, apresentados na seo 7.3, e os avaliamos com a CD do Segundo HAREM com o auxlio do SAHARA. Utilizamos os crpus Mini
HAREM e Primeiro HAREM para treinamento dos modelos. Neste experimento, tambm utilizamos verses filtradas dos mesmos crpus. Nas verses filtradas, eliminamos todas as frases que
no continham marcao de EM. Desta forma obtemos quatro combinaes de modelos, a saber:
M T odas, M T odasF iltro , M Sinergia e M SinergiaF iltro . Os quatro modelos foram treinados utilizando diferentes nmeros de cortes de predicados contextuais.
Os cenrios de avaliao utilizados so os mesmos da seo 7.4.1. Na Tabela B.2 esto os
resultados dos modelos avaliados no Cenrio Total e na Tabela B.3 esto os resultados dos mesmos
modelos avaliados no Cenrio Seletivo.
Sistema
M T odas
Corte
0
5
10
15
20
25
30
35
40
45
50
55
60
Preciso
Ident(%)
Class(%)
81,25118 71,05447
80,31459
68,47128
79,68146
67,20300
79,46304
66,47413
78,89037
65,37859
78,47366
64,77332
78,31148
64,29908
78,02561
63,95459
77,60222
63,30513
77,47013
62,67949
77,35938
62,47164
77,17631
62,20132
77,20011
62,02976
Cobertura
Ident(%)
Class(%)
62,97810
55,07691
67,19605
57,28025
68,10601 57,42604
68,61721
57,38573
68,52039
56,77306
68,63000
56,62428
68,58704
56,28964
68,45706
56,09033
68,39591
55,76959
68,25247
55,19210
68,08221
54,95445
67,88887
54,69274
67,95108
54,57301
F1
Ident(%)
70,94995
73,16286
73,43145
73,63561
73,33296
73,21167
73,11796
72,91844
72,69935
72,55789
72,41432
72,22532
72,27059
Class(%)
62,04750
62,36994
61,92342
61,59030
60,76626
60,41625
60,02052
59,75623
59,29112
58,68829
58,46377
58,19775
58,05461
Tabela B.1: Resultados da avaliao mais extensa de valores de cortes para o modelo M T odas.
73
74
APNDICE B
Sistema
M T odas
M T odasF iltro
M Sinergia
M SinergiaF iltro
Corte
3
5
10
20
40
80
160
320
640
3
5
10
20
40
80
160
320
640
3
5
10
20
40
80
160
320
640
3
5
10
20
40
80
160
320
640
Preciso
Ident(%) Class(%)
68,64
60,24
69,38
60,77
69,40
60,35
69,61
59,94
70,35
60,38
70,72
60,59
71,12
60,36
71,14
60,36
70,99
60,08
68,52
59,55
68,86
59,87
68,86
59,34
69,27
59,23
69,47
59,24
69,94
59,38
70,26
59,39
70,60
59,44
70,25
59,15
68,05
59,42
68,14
59,35
68,77
59,60
70,46
60,12
69,89
59,64
70,48
60,14
70,36
59,74
70,69
60,10
70,36
59,74
67,40
58,30
67,55
58,35
68,48
58,78
69,28
59,26
69,13
58,58
69,64
59,08
69,68
58,75
70,19
59,30
69,77
58,77
Cobertura
Ident(%) Class(%)
45,39
30,91
48,04
32,66
50,24
33,91
52,03
34,77
53,93
35,93
54,84
36,47
55,41
36,50
55,36
36,45
55,32
36,34
49,62
33,47
51,64
34,85
53,75
35,95
55,27
36,68
56,58
37,45
57,56
37,93
57,85
37,95
58,28
38,09
57,41
37,52
47,33
32,07
48,99
33,12
50,97
34,28
55,65
36,86
54,60
36,16
55,76
36,93
55,72
36,72
55,56
36,66
55,72
36,72
50,81
34,11
52,34
35,09
54,53
36,33
55,30
36,71
57,35
37,72
58,21
38,32
58,36
38,18
58,24
38,18
57,77
37,77
F1
Ident(%)
54,64
56,77
58,28
59,55
61,06
61,78
62,29
62,26
62,18
57,55
59,02
60,37
61,48
62,37
63,15
63,46
63,85
63,19
55,83
57,00
58,55
62,19
61,31
62,27
62,19
62,22
62,19
57,94
58,98
60,71
61,50
62,69
63,41
63,52
63,66
63,21
Class(%)
40,86
42,48
43,42
44,01
45,05
45,53
45,49
45,45
45,28
42,85
44,05
44,77
45,31
45,89
46,29
46,31
46,43
45,91
41,66
42,52
43,53
45,70
45,02
45,76
45,49
45,54
45,49
43,04
43,82
44,90
45,33
45,89
46,49
46,28
46,45
45,99
Tabela B.2: Resultados completos dos vrios modelos avaliados no Cenrio Total do Segundo HAREM.
RESULTADOS DOS EXPERIMENTOS ALTERNATIVOS
Sistema
M T odas
M T odasF iltro
M Sinergia
M SinergiaF iltro
Corte
3
5
10
20
40
80
160
320
640
3
5
10
20
40
80
160
320
640
3
5
10
20
40
80
160
320
640
3
5
10
20
40
80
160
320
640
Preciso
Ident(%) Class(%)
68,64
60,24
69,38
60,77
69,40
60,35
69,61
59,94
70,35
60,38
70,72
60,59
71,12
60,36
71,14
60,36
70,99
60,08
68,52
59,55
68,86
59,87
68,86
59,34
69,27
59,23
69,47
59,24
69,94
59,38
70,26
59,39
70,60
59,44
70,25
59,15
68,05
59,42
68,14
59,35
68,77
59,60
70,46
60,12
69,89
59,64
70,48
60,14
70,36
59,74
70,69
60,10
70,36
59,74
67,40
58,30
67,55
58,35
68,48
58,78
69,28
59,26
69,13
58,58
69,64
59,08
69,68
58,75
70,19
59,30
69,77
58,77
Cobertura
Ident(%) Class(%)
45,39
38,59
48,04
40,77
50,24
42,33
52,03
43,41
53,93
44,85
54,84
45,52
55,41
45,56
55,36
45,50
55,32
45,36
49,62
41,78
51,64
43,50
53,75
44,87
55,27
45,79
56,58
46,75
57,56
47,35
57,85
47,37
58,28
47,54
57,41
46,84
47,33
40,04
48,99
41,35
50,97
42,79
55,65
46,01
54,60
45,13
55,76
46,10
55,72
45,84
55,56
45,77
55,72
45,84
50,81
42,58
52,34
43,80
54,53
45,35
55,30
45,82
57,35
47,08
58,21
47,84
58,36
47,67
58,24
47,66
57,77
47,15
75
F1
Ident(%)
54,64
56,77
58,28
59,55
61,06
61,78
62,29
62,26
62,18
57,55
59,02
60,37
61,48
62,37
63,15
63,46
63,85
63,19
55,83
57,00
58,55
62,19
61,31
62,27
62,19
62,22
62,19
57,94
58,98
60,71
61,50
62,69
63,41
63,52
63,66
63,21
Class(%)
47,04
48,80
49,76
50,35
51,47
51,99
51,93
51,89
51,69
49,11
50,39
51,10
51,65
52,25
52,69
52,70
52,83
52,28
47,84
48,74
49,82
52,13
51,38
52,19
51,88
51,96
51,88
49,22
50,04
51,20
51,68
52,20
52,87
52,63
52,85
52,32
Tabela B.3: Resultados completos dos vrios modelos avaliados no Cenrio Seletivo do Segundo HAREM.
76
APNDICE B
Referncias Bibliogrficas
[AF99] Carlos Daniel Chacur Alves e Marcelo Finger. Etiquetagem do portugus clssico baseado em corpus. Em IV Encontro para o Processamento Computacional da Lngua
Portuguesa Escrita e Falada (PROPOR99), Setembro 1999. 27
[Alp04] Ethem Alpaydin. Introduction to machine learning. The MIT Press, 2004. 19, 20, 22,
23
[Ber96] Adam Berger. A Brief Maxent Tutorial. Verso eletrnica disponvel em http://www2.cs.cmu.edu/afs/cs/user/aberger/www/html/tutorial/tutorial.html. Adam Berger,
1996. 25
[Bic06] Eckhard Bick. Functional aspects in portuguese ner. Em Renata Vieira, Paulo Quaresma, Maria Nunes, Nuno Mamede, Cludia Oliveira e Maria Dias, editors, Computational Processing of the Portuguese Language, volume 3960 of Lecture Notes in Computer
Science, pginas 8089. Springer Berlin / Heidelberg, 2006. 10.1007/11751984_9. 29,
38
[BPP96] Adam L. Berger, Vincent J. Della Pietra e Stephen A. Della Pietra. A maximum entropy
approach to natural language processing. Comput. Linguist., 22:3971, March 1996. 24
[Bri95] Eric Brill. Transformation-based error-driven learning and natural language processing:
a case study in part-of-speech tagging. Comput. Linguist., 21:543565, December 1995.
25
[BSAG98] Andrew Borthwick, John Sterling, Eugene Agichtein e Ralph Grishman. Exploiting
diverse knowledge sources via maximum entropy in named entity recognition. Em In
Proceedings Of The Sixth Workshop On Very Large Corpora, pginas 152160, 1998. 31,
47
[Car06] Nuno Cardoso. Avaliao de sistemas de reconhecimento de entidades mencionadas.
Dissertao de Mestrado, Faculdade de Engenharia da Universidade do Porto., Outubro
2006. 11
[Chi95] Nancy Chinchor. Statistical significance of muc-6 results. Em Proceedings of the 6th
conference on Message understanding, MUC6 95, pginas 3943, Stroudsburg, PA, USA,
1995. Association for Computational Linguistics. 10
[CMP02] Xavier Carreras, Llus Mrques e Llus Padr. Named entity extraction using adaboost.
Em Proceedings of CoNLL-2002, pginas 167170. Taipei, Taiwan, 2002. 10
[CoG] Homepage do cogroo, corretor gramatical acoplvel ao libreoffice. disponvel em http:
//ccsl.ime.usp.br/cogroo. acessado em 10 de abril de 2011. 38
[CoN10] Conll: The conference of signll. http://ifarm.nl/signll/conll, 2010. ltimo acesso em
20/09/2010. 11
77
78
REFERNCIAS BIBLIOGRFICAS
[dAF03] Archias Alves de Almeida Filho. Maximizao de entropia em lingustica computacional

para lngua portuguesa. Dissertao de Mestrado, Universidade de So Paulo, 2003. 6,
39
[DR72] J. N. Darroch e D. Ratcliff. Generalized iterative scaling for log-linear models. Annals
of Mathematical Statistics, 43:14701480, 1972. 24
[dSM09] Ccero Nogueira dos Santos e Ruy Luiz Milidi. Entropy guided transformation learning. Em Aboul-Ella Hassanien, Ajith Abraham, Athanasios Vasilakos e Witold Pedrycz, editors, Foundations of Computational, Intelligence Volume 1, volume 201 of Studies in Computational Intelligence, pginas 159184. Springer Berlin / Heidelberg, 2009.
10.1007/978-3-642-01082-8_7. xi, 27, 28
[ES10] Asif Ekbal e Sriparna Saha. Classifier ensemble selection using genetic algorithm for
named entity recognition. Research on Language & Computation, pginas 127,
Dezembro 2010. 56, 66
[FIJZ03] Radu Florian, Abe Ittycheriah, Hongyan Jing e Tong Zhang. Named entity recognition through classifier combination. Em Walter Daelemans e Miles Osborne, editors,
Proceedings of CoNLL-2003, pginas 168171. Edmonton, Canada, 2003. 10
[FMS+ 10] Cludia Freitas, Cristina Mota, Diana Santos, Hugo Gonalo Oliveira e Paula Carvalho. Second harem : advancing the state of the art of named entity recognition in
portuguese. Em In The seventh international conference on Language Resources and
Evaluation (LREC 2010), Malta, May 2010. 16
[Gd01] Caroline Varaschin Gasperin e Vera Lcia Strube de Lima. Fundamentos do processamento estatstico da linguagem natural. Relatrio Tcnico 021, Faculdade de Informtica, PUCRS, Rio Grande do Sul, Brasil, 2001. 3, 4, 6
[JM08] Daniel Jurafsky e James H. Martin. Speech and Language Processing (2nd Edition)
(Prentice Hall Series in Artificial Intelligence). Prentice Hall, 2 edio, 2008. 25
[Lin10] Linguateca. Homepage do linguateca. http://www.linguateca.pt, 2010. ltimo acesso
em 24/09/2010. 11
[MDC07] Ruy Luiz Milidi, Julio Cesar Duarte e Roberto Cavalcante. Machine learning algorithms
for portuguese named entity recognition. Inteligencia Artificial, Revista Iberoamericana
de IA, 11(36):6775, 2007. 29, 30
[MdSD08] Ruy Luiz Milidi, Ccero Nogueira dos Santos e Julio Cesar Duarte. Portuguese corpusbased learning using ETL. Journal of the Brazilian Computer Society, 14:1727, 12 2008.
30, 59
[MS99] Christopher D. Manning e Hinrich Schtze. Foundations of Statistical Natural Language
Processing. The MIT Press, Cambridge, England, 1999. 3, 5, 6, 23
[MS08] Cristina Mota e Diana Santos, editors. Desafios na avaliao conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Verso eletrnica disponvel em
http://www.linguateca.pt/LivroSegundoHAREM/. Linguateca, 2008. xi, 12, 17
[muca] Homepage do muc-6. disponvel em http://cs.nyu.edu/cs/faculty/grishman/muc6.html.
acessado em 19 de setembro de 2010. 10
[mucb] Homepage do muc-7. disponvel em http://www-nlpir.nist.gov/related_projects/muc/
proceedings/muc_7_toc.html. acessado em 19 de setembro de 2010. 10
REFERNCIAS BIBLIOGRFICAS
79
[NS07] David Nadeau e Satoshi Sekine. A survey of named entity recognition and classification.
Em Linguisticae Investigationes, pginas 326, Janeiro 2007. 7, 10
[PD97] David D. Palmer e David S. Day. A statistical profile of the named entity task. Em
Proceedings of Fifth ACL Conference for Applied Natural Language Processing (ANLP97), pginas 190193, 1997. 10
[Rat98] Adwait Ratnaparkhi. Maximum Entropy Models for Natural Language Ambiguity Resolution. Tese de Doutorado, University of Pennsylvania, Philadelphia, PA, 1998. 25, 39,
46
[RN95] Stuart Russell e Peter Norvig. Artificial Intelligence: A Modern Approach. Prentice Hall.
Segunda edio, 1995. 1, 19, 23
[RR09] Lev Ratinov e Dan Roth. Design challenges and misconceptions in named entity recognition. Em Proceedings of the Thirteenth Conference on Computational Natural Language
Learning (CoNLL), pginas 147155, 2009. 37, 42
[SC08] Diana Santos e Nuno Cardoso, editors. Reconhecimento de entidades mencionadas em portugus: Documentao e actas do HAREM, a primeira avaliao conjunta
na rea. Verso eletrnica disponvel em http://www.linguateca.pt/LivroHAREM/.
http://www.linguateca.pt, 2008. 1
[Seg07] Toby Segaran. Programming Collective Intelligence. OReilly Media, 2007. 19
[SPC06] Lus Sarmento, Ana Sofia Pinto e Lus Cabral. Repentino - a wide-scope gazetteer for entity recognition in portuguese. Em Renata Vieira, Paulo Quaresma, Maria da Graa Volpes Nunes, Nuno J. Mamede, Cludia Oliveira e Maria Carmelita Dias, editors, Computational Processing of the Portuguese Language: 7th International Workshop, PROPOR
2006, pginas 3140, Berlim/Heidelberg, 2006. Springer Verlag. 55
[TD03] Erik F. Tjong Kim Sang e Fien De Meulder. Introduction to the conll-2003 shared
task: Language-independent named entity recognition. Em Walter Daelemans e Miles
Osborne, editors, Proceedings of CoNLL-2003, pginas 142147. Edmonton, Canada,
2003. 11
[the02] CoNLL: the conference of SIGNLL. Language-independent named entity recognition,
conference on computational natural language learning-2002 (conll-2002). http://www.
cnts.ua.ac.be/conll2002/ner, 2002. ltimo acesso em 20/09/2010. 11
[the03] CoNLL: the conference of SIGNLL. Language-independent named entity recognition,
conference on computational natural language learning-2003 (conll-2003). http://www.
cnts.ua.ac.be/conll2003/ner, 2003. ltimo acesso em 20/09/2010. 11
[Tjo02] Erik F. Tjong Kim Sang. Introduction to the conll-2002 shared task: Languageindependent named entity recognition. Em Proceedings of CoNLL-2002, pginas 155
158. Taipei, Taiwan, 2002. 11
ndice Remissivo
(Resultado-da-tarefa-de-identificacao-dos-dados-daTabela-tabelaDePossiveisErrosNaAnotacaoDeUmSistemaDeREN,
15
Condicoes-para-permissao-do-etiquetamento-do-tokenti-de-uma-sentenca-de-tamanho-n, 42
Conjunto-de-caracteristicas-utilizadas-na-exploracaoda-estrutura-interna-da-palavra, 47
Corpus-utilizados-nos-experimentos-e-suas-distribuicoesde-EM-por-categorias, 45
dicionarios-utilizados-repentino, 55
Exemplo de Crpus Marcado: Excerto de Manuel
Bernardes, 4
exemploDeAvaliacaoDeREN, 7
exemploDeUsoMaxEnt-Ditribuicoes-Jabulane, 24
Exemplos de classificao de entidades e seus possveis tipos., 2
Exemplos-de-moldes-de-predicados-contextuais, 40
Exemplos-de-sequencias-de-etiquetamento-inconsistente,
42
exemplosDeModelosTextChuncking, 28
exemplosDeModelosUsadosPorBrill, 25
ModeloDeRegras-TBL-NER, 30
Moldes-aplicados-sobre-b4, 40
Possiveis-anotacoes-de-um-sistema-hipotetico, 14
tab:Conjunto-de-Classes-de-Palavras-utilizadas-peloCoGrOO, 38
Tabela-de-Representacao-da-etiquetagem-apos-ofiltro-de-entrada, 37
tabelaDePossiveisErrosNaAnotacaoDeUmSistemaDeREN,
7
80

Reconhecimento de Entidades Mencionadas em Português Utilizando Aprendizado de Máquina

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reconhecimento de Entidades Mencionadas em Português Utilizando Aprendizado de Máquina

Transféré par

Droits d'auteur :

Formats disponibles

Reconhecimento de

entidades mencionadas em portugus

Wesley Seidel Carvalho

Programa: Cincia da Computao

So Paulo, fevereiro de 2012

Esta dissertao contm as correes e alteraes

2 Processamento Estatstico da Linguagem Natural

3 Avaliao de Sistemas de Reconhecimento de Entidades Mencionadas

Conferncias de Avaliao de REM . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Diviso do Aprendizado de Mquina . . . . . . . . . . . . . . . . . . . . . . . 19

Paradigmas de Aprendizado de Mquina e Modelos de Linguagem . . . . . . 22

Aprendizado de Mquina aplicado ao PLN . . . . . . . . . . . . . . . . . . . . . . . . 23

Aprendizado Baseado em Transformao Guiada por Erro . . . . . . . . . . . 25

Aprendizado de Transformao Guiado por Entropia . . . . . . . . . . . . . . 27

Abordagens na resoluo do problema de REM . . . . . . . . . . . . . . . . . . . . . 29

TBL aplicado ao REM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Estimador de Mxima Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Metodologia e Crpus Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Estrutura Interna da Palavra . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Novo estudo de corte para crpus do HAREM . . . . . . . . . . . . . . . . . . 59

Avaliao no Segundo HAREM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

A Exemplos de Textos do HAREM

A.1 Exemplos por categoria/tipo do Segundo HAREM . . . . . . . . . . . . . . . . . . . 67

Reconhecimento de Entidades Mencionadas

Named Entity Recognition

Avaliao de Sistemas de Reconhecimento de Entidades Mencionadas

Conference on Computational Natural Language Learning

Message Understanding Conferences

Aprendizado Baseado em Transformao Guiada por Erro

Aprendizado de Transformao Guiado por Entropia

Sistema de REN construdo sobre o arcabouo de Mxima Entropia

Conjunto de treinamento para a identificao de uma ma. Cada ponto corresponde

Exemplo de uma hiptese. A classe C de mas o retngulo no espao massa-volume. 22

Esquematizao do processo de aprendizado do TBL. . . . . . . . . . . . . . . . . . . 26

Esquematizao do processo do ETL. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Excerto de uma rvore de Deciso na tarefa de segmentao de texto. Figura extrada

Arquitetura do Sistema para a fase de Treinamento. . . . . . . . . . . . . . . . . . . 36

Arquitetura do Sistema para a fase de Avaliao. . . . . . . . . . . . . . . . . . . . . 36

Mdulo de pr-processamento para extrao de caractersticas. . . . . . . . . . . . . 40

Resultados de diferentes modelos avaliadas no Segundo HAREM- Cenrio Total.

Resultados de diferentes modelos avaliadas no Segundo HAREM- Cenrio Seletivo. . 64

Exemplos de classificao de entidades e seus possveis tipos. . . . . . . . . . . . . . .

Excerto de texto de Manuel Bernades extrado do crpus Tycho Brahe. . . . . . . . .

Comparao de um texto anotado por um especialista em (A) com um texto de sada

Um acerto e possveis erros cometidos pelos sistemas de REM. . . . . . . . . . . . . .

Possveis anotaes de um sistema hipottico. . . . . . . . . . . . . . . . . . . . . . . 14

Melhores resultados da Medida-F de classificao de cada sistema participante do

Melhores resultados da Medida-F de classificao de cada sistema participante do

Distribuies de probabilidade para a classificao gramatical da palavra jabulane.

w e x so variveis que representam as palavras presentes no texto de treinamento;

Conjunto de moldes de regras para a tarefa de segmentao de texto. . . . . . . . . . 28

Moldes de regras para TBL aplicado tarefa de REM. . . . . . . . . . . . . . . . . . 30

Representao das etiquetas de EM aps o Filtro de Avaliao. . . . . . . . . . . . . 37

Conjunto de Classes de Palavras utilizadas pelo CoGrOO. . . . . . . . . . . . . . . . 38

Exemplos de moldes de predicados contextuais. . . . . . . . . . . . . . . . . . . . . . 41

Predicados contextuais dos moldes da Tabela 6.3 aplicados sobre o contexto b4 da

Exemplos de sequncias de etiquetamentos inconsistentes. . . . . . . . . . . . . . . . 42

Condies para permisso do etiquetamento do token ti , de uma sentena de tamanho

Crpus utilizados nos experimentos e suas distribuies de EM por categorias. . . . . 46

Conjunto de caractersticas utilizadas para a explorao da estrutura interna da palavra. 47

Estudo de Sobreposio de caractersticas utilizando o corte igual a 10. Os melhores

Anlise do nmero para corte de predicados contextuais utilizando as caractersticas

Avaliao das Caractersticas de Estrutura Interna da palavra combinadas com as