Vous êtes sur la page 1sur 100

We knew that corpora were hot, but didn't appreciate just how hot they would turn out

to be.
Kenneth Church, 1993 at WVLC-1

Lingstica de Corpus/Crpus:
disciplina, metodologia ou
abordagem?
histrias de 1993 (Workshop
sobre Very Large Corpora-1) at
2009
Sandra Maria Alusio

SCE 5869 Tpicos em Processamento de Lngua Natural

1993-2009

Agenda
O que Crpus?
Tipos de pesquisa com crpus e Tipos de usos de crpus
Critrios para o projeto/design de um crpus
O que Lingstica de Crpus?
Tipologia de crpus
Tipologia de Textos
Exemplos de crpus desenvolvidos no NILC
Fruns
Desafios da rea Data Resources

Analisem os casos de design


com vistas a uma proposta de crpus.
Critiquem

e problematizem os 3 casos.

1.

Crpus de textos jornalsticos, de 12 anos de um dado jornal de grande


circulao, usando amostras dos meses de fevereiro e dezembro de
cada ano para lexicografia. Quais textos/registros colocar no crpus?

2.

Crpus de teste para a tarefa de simplificao sinttica em que um


simplificador trabalha com 22 fenmenos diferentes.

T = 116 sentenas

3. Crpus para a tarefa de terminologia sobre o assunto nanotecnologia, em Portugus

O que Crpus?
Existem vrias definies de crpus na literatura,
algumas vezes divergentes (seguem 8, de 92 a 2006):
Atkins, Clear & Ostler 1992

A subset of an
electronic text
library, built according
to explicit design
criteria for a specific
purpose, e.g. the
Cobuild corpus, the
Longman/Lancaster
corpus

Terminologia X Lexicografia

Crpus para trabalhos terminolgicos iro diferir dos de


trabalhos lexicgraficos, pois os usurios possuem diferentes
necessidades:

Terminlogos precisam adquirir tanto conhecimento lingstico


como conceitual

Terminlogos tratam com campos especializados

o crpus precisa ser tanto lingstica como conceitualmente rico

especialistas do domnio tem um papel importante na construo


do crpus. Lexicgrafos geralmente no precisam de ajuda externa

Crpus para terminologia pode ser menor do que para


lexicografia que necessita de grandes crpus

(e.g. o vocabulrio do ingls maior do que 1 milho de palavras e


a variedade no uso grande).
Por exemplo, a editora Collins tem um crpus de 450 milhes de
palavras; Cambridge University Press tem 740 milhes; Longman
tem 155 milhes.

Terminologia X Lexicografia (2)

Os textos de um crpus para trabalho terminolgico devem ser


completos o que nem sempre acontece para lexicografia

Terminlogos devem delimitar o domnio dos textos do crpus,


o que no acontece com lexicgrafos

Um crpus para terminologia deve ser composto de gneros


instrucionais, cientficos e textos de divulgao/vulgarizao
cientfica (e.g. Revista Pesquisa Fapesp)

para dar conta dos diferentes graus de tecnicalidade, alm de


uma variedade de autores de um dado campo

Por fim, terminlogos precisam de textos atuais, pois focam em


novos conceitos e termos que ainda no foram dicionarizados;
os textos precisam ser originais e a maioria deve ser escrita
por nativos.

O que Crpus?
Existem vrias definies de crpus na literatura,
algumas vezes divergentes (seguem 8, de 92 a 2006):
Crystal, David. 1992. An Encyclopedic

McEnery & Wilson 1996

Dictionary of Language and Languages.

"corpus, plural: corpora,


A collection of linguistic data,
either compiled as written texts
or as a transcription of
recorded speech. The main
purpose of a corpus is to verify
a hypothesis about language for example, to determine how
the usage of a particular sound,
word, or syntactic construction
varies. A computer corpus is a
large body of machine-readable
texts."

In principle, any collection of more than one


text can be called a corpus, (corpus being Latin
for "body", hence a corpus is any body of
text). But the term "corpus" when used in the
context of modern linguistics tends most
frequently to have more specific connotations
than this simple definition.
These may be considered under four main
headings:
Sampling and representativeness;
Finite size;
Machine-readable form;

Sampling and representativeness; Finite size;


Machine-readable form; A standard reference
We are therefore interested in creating a corpus which is
maximally representative of the variety under examination, that is,
which provides us with an as accurate a picture as possible of the
tendencies of that variety, as well as their proportions.
With the exception of monitor corpora, it should be noted that it is
more often the case that a corpus consists of a finite number of words.
Nowadays the term "corpus" nearly always implies the additional feature
"machine-readable". This was not always the case as in the past the word
"corpus" was only used in reference to printed text.
There is often a tacit understanding that a corpus constitutes a standard
reference for the language variety that it represents. This presupposes that it
will be widely available to other researchers, which is indeed the case with many
corpora - e.g. the Brown Corpus, the LOB corpus and the London-Lund corpus.

Leech (1992) argues that the corpus is a more powerful methodology from the
point of view of the scientific method, as it is open to objective verification of
results

O que Crpus?
Garside, Leech &
McEnery 1997:

Traditionally, linguists have used the term corpus


to designate a body of naturally-occurring
(authentic) language data which can be used as
basis for linguistic research. This body of data
may consist of written texts, spoken discourses,
or both. Often it is designed to represent a
particular language or language variety. In the
past 35 years, the term corpus has been
increasingly applied to a body of language material
which exists in electronic form, and which may be
processed by computer for various purposes such
as linguistics research and language engineering.
...the value of a corpus as a research tool cannot
be measured in terms of brute size. The diversity
of the corpus ... can be an equally important
criterion.
Incita a dicotomia: grande vs
balanceado/equilibrado

Biber, Conrad & Reppen 1998

A corpus is not simply a


collection of texts. Rather, a
corpus seeks to represent a
language or some part of a
language. The appropriate
design for a corpus therefore
depends upon what it is meant
to represent.
The representativeness of the
corpus, in turn, determines the
kinds of research questions
that can be addressed and the
generalizability of the results
of the research.
Mostra a importncia da
Representatividade do crpus

O que Crpus?
Kilgarriff & Grefenstette 2003

McEnery and Wilson mix the


question What is a corpus?
with What is a good corpus
(for certain kinds of
linguistic study)? muddying
the simple question Is
corpus x good for task y?
with the semantic question
Is x a corpus at all? ...
So the semantic question
may be set aside, the
definition of corpus should
be broad. ...a corpus is a
collection of texts when
considered as an object of
language or literary study.
The answer to the question
Is the web a corpus? is yes.

Sardinha 2004

Traz uma definio completa do autor e itemiza os pontos


importantes:
1.
2.

A origem: os dados devem ser autnticos.

O propsito: o corpus deve ter a finalidade de ser


um objeto de estudo lingstico.
3.

A composio: o contedo do corpus deve ser


criteriosamente escolhido

....por exemplo, se um corpus de portugus brasileiro que represente a


lngua portuguesa, tal qual escrita no Brasil, em sua totalidade, a
coleta deve ser guiada por um conjunto de critrios que garanta,
entre outras coisas, que o maior nmero possvel de tipos textuais
existentes no portugus brasileiro esteja representado, que haja uma
quantidade aceitvel de cada tipo e que a seleo seja aleatria, a fim
de no contaminar a coleo com variveis indesejveis

1.

A formatao: os dados devem ser legveis por computador

2.

A representatividade: o corpus deve ser representativo de


uma lngua ou variedade (do qu? Para quem?)
3.

A extenso: o crpus deve ser vasto para ser


representativo

O que Crpus?
Diana Santos, 2006, na Primeira
Escola de Vero da Linguateca

...um corpo eletrnico, ...a conjuno de trs coisas relacionadas: (i) um conjunto de
textos, (ii) um conjunto de informao a marcar/classificar estes textos, e (iii)
uma interface que permitisse consultar os dois primeiros.
...a escolha dos textos e da informao a eles associada tinha que ter um objetivo,
seno estaramos na presena apenas de uma coleo.
Um corpo uma coleo classificada de objetos lingusticos para uso em
Processamento de Linguagem Natural/Lingustica Computacional/Lingustica

em que uso pode ser estudo, medio, teste, ou avaliao, enquanto objetos
lingusticos so textos, frases, palavras, entrevistas, erros ortogrficos, entradas
de dicionrio, citaes, pareceres jurdicos, filmes, imagens com legendas,
tradues, correes (de textos de alunos de lngua ou de traduo), telefonemas,
simulaes, programas, ...

Diana Santos, 2006, na Primeira


Escola de Vero da Linguateca (2)

A palavra classificada pode-se referir-se a muitas questes diferentes:


com relao aos parmetros da coleta: que categorias considerar;

com relao escolha: todos, alguns, amostra, ...;

com relao aos fenmenos: tipo de erro, tipo de traduo, tipo de texto, ...

com relao aos constituintes: anlise sinttica, semntica, fonolgica,


discursiva, etc.

avaliao (quando existem julgamentos associados, como os de uma


sumarizao

quanto a preservao do significado do texto original)


Contudo, o mais importante num corpo saber o que fazer com ele, como us-lo, e para
que tarefas ele til.

Tipos de pesquisa com crpus

Corpus-driven approaches: hypotheses are drawn from the


corpus

Exploratrios: procura coisas interessantes para mais tarde estudar. Compila


amostras, conta ocorrncias, procura correlaes, experimenta classificaes,
identifica conjuntos. Identifica pontos de interesse. Tecnicamente constri uma
teoria ou mapa da rea.

Corpus-based approaches: hypotheses are checked


against a corpus

Experimentais: j tem uma hiptese ou conjunto de hipteses que pretende


verificar. Quanto mais precisa a hiptese (estatstica), mais dados so precisos
para atestar, devido necessidade de significncia estatstica

a probabilidade de um desvio aleatrio da mdia da populao aumenta com a


diminuio do tamanho da amostra e diminui com o aumento do tamanho da
amostra.

Na prtica, a maior parte dos estudos tm uma


componente exploratria e outra experimental.

Um estudo experimental geralmente produzido com base nas exploraes de


outros pesquisadores. Ou de um piloto.

Tipos de usos de crpus


1. Ter uma idia do problema
2. Medir um dado fenmeno
3. Avaliar algo (uma hiptese, um sistema, um mtodo, uma teoria, ...)
4. Mais frequente - criar outras coisas: dicionrios, materiais de teste de
ensino de lngua (CAA), sistemas de aprendizado de lngua (CALL),
sistemas de deteco de plgio, de identificao de spam, entre
outros.

Nem todos os crpus so apropriados para todos os usos. Embora


tendem a ser de uso suficientemente geral, h um compromisso
entre o projeto do crpus e os tipos de usos que fazemos deles.

At agora...
No

disse nada que nos ajudasse a propor o


projeto (design) de um crpus...
Perguntas como:
(1) que tipos de textos incluir,
(2) nmero deles,
(3) seleo de textos,
(4) seleo de uma amostra dentro do
texto (se desejasse)
(5) tamanho de tal amostra ???

Questes/critrios para
informar o projeto de crpus
X

Primeira dicotomia para


projeto de crpus
Maior parte
das
pesquisas

Produo/Recepo de texto VS.

Padres de uso de grupos

organizados
demograficamente)

Texto como Produto

Lista de
gneros e Tipos de
Texto

Amostragem Demogrfica

Tem sido usada em pesquisas da rea de sociologia


e usa amostragem proporcional de um estrato
(sexo, idade, ocupao, ...) na populao.

So representativas pois refletem as propores de uma


populao

MAS...crpus precisam de uma noo de


representatividade diferente, pois seno iriam incluir
90% de fala (conversao), 3% cartas/notas/e-mails,
7% restantes de todo o resto dos gneros

pois as pesquisas precisam de toda a variao lingustica


de uma lngua.
Lembrem dos analfabetos

Problemas da amostragem
proporcional

Refletem as frequncias numricas, no a


importncia. Livros, jornais, por exemplo, so muito
mais influentes do que sua frequencia indica.

Se o foco da pesquisa for sobre a variao de


caractersticas em tipos de textos diferentes, a
amostragem proporcional no fornece uma base
boa de anlise:

90% dos textos seriam similares (conversa/fala) e no


teramos a chance de estudar profundamente o restante
10% que englobaria a maioria dos gneros/tipos de texto.

No fcil...

Entretanto, como nota Biber, 1998:246, embora a


anlise da representatividade seja crucial ela uma
tarefa problemtica,

mesmo que o foco seja em partes da linguagem, por


exemplo, um crpus que pretende representar a
linguagem falada (transcries):

no existe nenhum catlogo de bibliografia de textos


falados e eles esto sendo expandidos diariamente.

Identificar uma amostra da populao nesse caso difcil.

Biber (1993) ... Representatividade no


projeto de corpus

Quando estamos construindo um crpus geral (versus


de linguagem especializada) espera-se que ele seja
uma amostra representativa da lngua como um todo,
isto , que inclua toda a variabilidade que ocorre na
populao,

para que generalizaes possam ser feitas sobre a lngua.

Representatividade

se refere a quanto uma amostra inclui a totalidade da


variabilidade na populao.
Gnero/ No projeto de crpus, a variabilidade pode ser considerada de:

registro
Tipo de
Texto

uma perspectiva externa (da situao), isto , do modo (escrito/falado), dos


participantes (quem fala ou escreve/para quem fala ou escreve), meio de
distribuio (no publicado, publicado como livro, lei, Internet, jornal, revista, etc.),
tpico, da funo comunicativa, etc. e
de uma perspectiva interna (ou lingstica), isto , das distribuies lingsticas

H uma ordem para as


perspectivas
A

condio da representatividade lingustica


depende da representatividade de gneros.

O design do crpus deve proceder de forma cclica partindo de um


design inicial de um crpus piloto:
(1o) que deve incluir uma grande variedade de gneros
(2o) que so avaliados quanto aos tipos de textos presentes (segundo Biber,
isso requer anlise das caractersticas lingsticas)
e revisado podendo ser includos novos textos

O projeto de um crpus representativo no pra at que o crpus


esteja completo e a anlise dos parmetros de variao se aplique a
todo o crpus.

Quantos textos de cada gnero?


Supor

que nosso crpus tenha que ter 200


textos de 3 gneros:
conversao/fico/acadmico.
Cada registro tem que ser representado por
um nmero X de textos iguais. Suponha 20.
Os 140 restantes sero divididos entre os 3
para termos mais amostras para gneros
com grande varincia para as features de
interesse.

Quantos textos...
Conversas

e textos de fico apresentam


desvios totais similares (37% e 39%), mas
textos acadmicos tm desvios maiores (49%).
.37x + .39x + .49x = 140
1.25x = 140; x = 112
Amostras: .37 * 112 = 41; .39*112 = 44; .49*112
= 55
Crpus: 41 + 20 + 44 + 20 + 55 + 20 = 200

O que a Lingstica de Crpus?

Debate na definio do status da rea.

No uma disciplina como a Semntica


pois seu objeto de estudo no delimitado como em outras reas.
No domnio de estudo.
Ocupa-se de vrios fenmenos enfocados em outras reas
(morfologia, sintaxe, sociologia, etc.). Combina-se facilmente com
essas divises da lingstica.

Outra diviso da lingstica que tem status parecido com a L Crpus


a L Computacional
Que tambm reconhecida como ferramenta ou metodologia;
investigao da linguagem por meio de computador
Existe uma sobreposio ente L Crpus e L Computacional.
Essa ltima possui interesse em modelos computacionais de vrios tipos de
fenmenos lingsticos.

McEnery & Wilson 1996 afirmam que ela apenas uma


metodologia

Se metodologia for entendida como um instrumental

poderamos ter uma sintaxe baseada em crpus versus uma sintaxe


tradicional, etc.

Mas os mesmos tipos de problemas, questes, achados, etc. de um


estudo baseado em crpus se aplicaria a um estudo sem crpus???
Ou a L crpus tambm muda o modo pelo qual se faz pesquisa e
portanto os tipos de resultados???

L Crpus no se resume a um conjunto de ferramentas

Se metodologia for entendida como um modo tpico de aplicar um


conjunto de pressupostos de carter terico,

ento pode ser vista como metodologia, pois traz mais do que o
instrumental computacional

Uma razo pela qual a L Crpus no uma


metodologia o fato de seus praticantes
produzirem conhecimento novo

A anlise de um crpus pode revelar, e


freqentemente revela, fatos a respeito de uma lngua
que nunca se pensou em procurar.

Assim, uma terceira possibilidade da L Crpus


no ser nem disciplina nem metodologia

Uma rota para a Lingstica


Uma abordagem
Uma nova empreitada de pesquisa, uma nova
abordagem filosfica

L Crpus = Abordagem baseada em corpus

Abordagem baseada em corpus


(Biber et al 1998)

emprica,

Utiliza uma grande coleo de textos autnticos conhecida como


crpus
Faz uso extensivo de computadores para anlise,

analisa os padres reais de uso em textos autnticos

usando tcnicas automticas e interativas

Depende de tcnicas quantitativas e tambm qualitativas


Pois o objetivo de estudos da L Crpus no somente apresentar
contagem de features lingsticas e sim dar uma interpretao dos
padres quantitativos, isto , a importncia dessas descobertas para
o aprendizado sobre os padres do uso da lngua.

Alm de contar freqncias h a possibilidade de se estudar


associaes lingsticas (lxicas ou gramaticais).

Por exemplo, se tomarmos as palavras big, large e great, que so


sinnimos, veremos que big co-ocorre com toe, large co-corre com
number. Esses so exemplos de associaes lxicas ou colocaes.

Estudos da lngua:

estudos da estrutura e do uso

Tradicionalmente: identificao das unidades


estruturais e classes de uma lngua (morfemas,
palavras, oraes, classes gramaticais, etc.)

O enfoque da LC no uso da lngua, como os


usurios da lngua (falada ou escrita) exploram
os seus recursos.

Foco no desempenho e no na competncia.


L Crpus estuda o desempenho como um produto,
pois o crpus consiste da manifestao fsica da
lngua independente de processos mentais dos
autores pesquisados

Right is very much more common in spoken


English than in written English. Here's a couple
of different examples in spoken dialogue taken
from the Cambridge International corpus (CIC).
"That's right. Cos they've never seen him."
"Oh well. And it's going all right is it?"

The word that comes


most often after 'worry' is
'about'.

Look at these examples


from the Cambridge
International Corpus.

Concordanciador KWIC

(Keyword in Context)

KWIC foi desenvolvido em 1958 na IBM por Luhn:


Luhn, H. P. (1959). Keyword-in-Context Index for
Technical Literature (KWIC Index). Yorktown
Heights, N. Y.: IBM.

KWIC / KWAC / KWOC


http://lu.com/odlis/

KWOC
An acronym for Keyword out of Context, a variation on
the KWIC (Keyword in Context) index, in which
keywords extracted algorithmically from the title of a
document (and sometimes the text) are printed as
headings along the left-hand margin of the page, with
the titles or portions of text containing each keyword
indented under the corresponding heading. A symbol
may be substituted for the keyword in the string of text.
Unlike KWAC indexing, this method does not preserve
multiword terms and phrases in the alphanumeric
sequence of headings.

KWAC
An acronym for Keyword and Context (also known as
Keyword alongside Context), an algorithmically
generated index in which keywords from the title (and
sometimes the text) of a document are printed as
headings along the left-hand margin of the page, with
the portion of the title or text following each keyword
indented under the heading, followed by the portion of
the title or text preceding the word. Unlike KWOC
indexing, this method preserves multiword terms and
phrases in the alphanumeric sequence of headings.

Flat' is used much more by the British. Both


British and Americans use it when they mean
'smooth and level, with no curved, high or hollow
parts',

but only the British use it to mean 'a set of rooms to live
in with all the rooms on one level of a building'.
Americans use the word 'apartment' for this.

Resumindo

Estudos da L Crpus podem focar na lngua (P, I) ou variante da


lngua (IA, IB), no modo falado ou escrito

Estudos analisam padres de uso para uma estrutura

Estudos tambm podem focar no grupo de falantes/escritores, ou


como a lngua falada por mulheres difere da lngua usada por
homens, etc.

reas de pesquisa em conferncias:

Compilao de crpus
Desenvolvimento de ferramentas
Descrio da lngua
Aplicao de crpus (ensino, traduo, reconhecimento de voz, etc.)

Existem campos da Lingstica para os


quais a L Crpus a nica opo

Lingustica Histrica/Filologia (Historical linguistics)


Crpus Thycho Brahe - relationship between prosody and syntax
in the process of language change which led from Classical
Portuguese to Modern European Portuguese.

Lingustica Diacrnica (Diachronic linguistics)


The claim (Hilary Putnam, 1962)
The truth value of statements (e.g., "Robots can be conscious.")
can change over time as word use changes, even though the
meaning of such statements remains constant.
Statements

that are now false under synchronic linguistics (the


study of language at a given time) may become false, as revealed
by diachronic linguistics (the study of language through time).

Existem campos da Lingstica para os


quais a L Crpus a nica opo (2)

Estudos sobre aquisio de linguagem (Study of child language)

Estudos sobre o Uso da Lngua (forensic linguistic, style)

Lingstica forense: identificao de plgio/autoria, profile


de escritores (cartas com antrax), etc.

Modelos Probabilsticos/Estatsticos (Probabilistic linguistics)

No d para perguntar para uma criana de 18 meses se


gugu-dada verbo-nome ou nome-adjetivo.

Modelos para vrias tarefas como tagging, parsing,


speech

Lingustica Compucional (training/evaluation)

Crpus de treinamento para as tarefas acima; avaliaes


conjuntas (TRECs)

Uso de Crpus
em Estudos da
Lngua
Corpora in Speech Research
Corpora in Lexical Studies
Corpora and Grammar
Corpora and Semantics
Corpora and Pragmatics
Corpora and Sociolinguistics
Corpora and Stylistics
Corpora and Language Teaching
Corpora and Historical Linguistics
Corpora in Psycholinguistics
Corpora and Cultural Studies
...

Crpus e
Lingstica
Computacional
Tagging
Parsing
Tagging semntico
Correo Gramatical
Anlise do discurso (anforas)
Anlise Retrica
Traduo Automtica
Sumarizao Automtica
Extrao Automtica de Terminologia
Simplificao Textual

...

Algumas Tipologias de Crpus

Classificao de Atkins et al
(1992)

Um corpus um conjunto de textos compilado de acordo com


critrios explcitos para um propsito especfico e assim, a rica
variedade de crpus reflete a diversidade dos objetivos dos
projetistas.

Se um crpus criado com o propsito de se estudar


um nico MODO ento temos um crpus de fala ou crpus
escritos;
Um nico MEIO podemos ter um crpus de livros, jornais, ou de
aulas.

Vejamos agora os 9 parmetros contrastivos da tipologia:

1.

Texto inteiro X amostra X monitor


Monitor: textos so filtrados continuamente para se extrair dados para
uma base de dados, mas no so permanentemente arquivados

2.
3.

Fechado X aberto
Sincrnico X diacrnico
Um perodo especfico deve ser projetado para o sincrnico

4.
5.
6.
7.
8.

Geral X terminolgico
Mono X bi X plurilnge
Lnguas
nico X paralelo-2 X paralelo-3 ...
Central X shell
Shell o restante da biblioteca eletrnica disponvel quando necessrio

9.

Ncleo X perifrico
Conceitos advindos do International Corpus of English (ICE): ncleo
contm tipos de textos comuns a todas as variedades do ingls e
que esto em todos os subcrpus; perifrico contm aqueles tipos
especficos de alguns subcrpus.

Classificao de Sardinha
(2004)

Modo

Tempo

Falado: fala transcrita


Escrito: textos escritos, impressos ou no
Sincrnico: um perodo de tempo
Diacrnico: vrios perodos
Contemporneo: tempo corrente
Histrico: perodo de tempo passado

Seleo

De amostragem: pores de textos para ser amostra finita da lngua


Monitor: composio reciclada para refletir o estado atual de uma lngua. Ope-se a
crpus de amostragem
Dinmico: crescimento ou diminuio so permitidos; qualifica o crpus monitor
Esttico: oposto de dinmico; qualifica o crpus de amostragem
Equilibrado (Balanced): os componentes (gneros, tipos de textos, etc) so
distribudos em quantidades semelhantes; por exemplo, o mesmo nmero de textos
por gnero.

Contedo
Especializado: textos de tipos especficos
Regional ou dialetal: textos de uma ou mais variedades
sociolingsticas especficas
Multilnge: idiomas diferentes
Autoria
De aprendiz: no so falantes nativos
De lngua nativa
Disposio Interna
Paralelo: os textos so comparveis, por exemplo, original e
traduo
Alinhado: tradues aparecem abaixo de cada linha do original
Finalidade
De estudo: crpus que se pretende descrever
De referncia: usado para fins de contraste com o crpus de
estudo
De treinamento ou teste: usado para o desenvolvimento de
aplicaes ou ferramentas de PLN.

Tipologia de crpus do Projeto


BALRIC-Ling (14 critrios)

Contedo e classificao do
BNC

O BNC foi construdo entre 1991 e 1994 por um consrcio entre editoras de dicionrios
como a Oxford University Press ( OUP) e Longman, centros de pesquisas acadmicos
como a University of Lancaster e Oxford e o governo britnico.

Ele foi projetado para conter uma grande variedade de ingls britanico.

O crpus contm ~100 milhes de palavras de ingls moderno, tanto escrito (90%) como
falado (10%).

mais caro gravar e transcrever discurso do que adquirir material escrito

Possui 4.124 textos dos quais 863 so transcries de conversaes e monlogos.

Tipologia:

Crpus de amostras

Sincrnico

no est restrito a qualquer assunto, registro ou gnero

Monolngue

textos de fico a partir de 1960 e informativos a partir de 1975

Crpus geral

cada amostra no possui mais do que 45.000 palavras.

composto de amostras que so produto de falantes do ingls britnico

Misto

contm textos de linguagem escrita e falada.

Tipologia de Textos

Categorias ou atributos com especficos valores usados para

Organizar e balancear crpus (para pesquisa e gerao de subcrpus)

Por exemplo: gnero, meio, estilo, tpico, modo (escrito, escrito para
ser lido (dircurso), escrito para ser falado (dialogo/pea), falado, falado
para ser escrito (ditado))

Os valores podem ser definidos usando critrios externos (e.g. tipos de


texto institucionalizados, lista de tpicos, features extra-lingsticas ou
culturais) e/ou internos (features da linguagem do texto, compartilhada
pelos membros da classe).

Muitos critrios externos e internos esto relacionados, MAS pode


acontecer de textos classificados separadamente por critrios
externos compartilharem mesmas features lingsticas (Biber).

O que fazer nesse caso???

Anlise Multidimensional (Biber), Classificao supervisionada com


nova rotulagem, etc.

Categorias geradoras de
controvrsia

Gnero

A classificao de textos em diferentes gneros tem sido feita em projetos de crpus


com a ajuda de critrios externos como:

Uma distino usada pelo BNC em informativo e imaginativo no tem grande validade

informaes sobre o falante/escritor e audincia,


objetivos do autor, funo
dados histricos, scio-culturais, filosficos e ocupacionais.

pois ilude ao perpetuar que muitos textos tem como principal funo a transferncia de
informao.

Tpico

Tpico tambm um assunto controverso em tipologias de texto.

Nenhum sistema de classificao externo parece satisfatrio, existem vrias hierarquias


que esto sempre mudando

A prtica em muitos projetos de crpus usar uma extensiva lista de valores para
classificao, mas que no aceita por todos.

Gnero

Atkins et al:

impossvel balancear um crpus somente com critrios extra-lingsticos mas balancear um crpus
somente com critrios internos no mostraria a relao entre a linguagem e seu contexto (ambiente do
texto)

No artigo apresenta uma lista de 29 atributos e possveis valores para eles (critrios externos), que so
relevantes para uma tipologia de textos
Sugere comear com um recorte dos 29 atributos que pode ser expandido mais tarde se os recursos
permitirem

Biber:

Inicialmente selecionar textos com base em critrios externos depois fazer anlise com critrios
internos para classificar os textos.

Um processo cclico de refinamento baseado nos 2 critrios necessrio para construir um crpus,
usando as duas indexaes

Eagles:

A classificao de textos em diferentes gneros tem sido feita nos projetos de crpus com base em
critrios externos, pois esses so aceitos culturalmente, e usados em disciplinas como Teoria Literria,
Retrica e outras.

Entretanto, uma tipologia adequada vai consistir de uma combinao dos 2 critrios (externo e interno)

Tpico/Assunto
EAGLES:

Existe uma categoria entre a externa e interna que chamada de reflexiva: o texto
fala sobre ele e prope a sua classificao

Jornais so geralmente divididos em cadernos com tpicos variados

Assim, EAGLES divide os critrios externos em 2 tipos:

Circunstancial (evidncia vem de fora do texto) e


Reflexivo (evidncia vem do texto: ttulo, subttulo, prefcio, etc)

Uma classificao melhor de tpico deve ser desenvolvida primeiramente com base
em critrios internos ao texto, como a escolha do vocabulrio, atravs de tcnicas de
clusterizao, e depois a evidncia externa adicionada

Soluo: tratamento objetivo atravs de softwares de anlise (Minerao de Textos)

Projeto Aviator: utiliza levantamento de colocaes + tcnicas de clusterizao


Seleo automtica de Keywords
Sumarizao automtica
Mtodos de Extrao Automtica de Termos (em linguagem especializada)

Estudo de caso: Lcio-Ref

Tipologia quadripartida em gnero, tipo de texto,


domnio e meio de distribuio.

Gnero textual: o gnero discrimina o texto pela inteno


comunicativa, a comunidade (meio) em que circula e as
atividades humanas que o tornam relevante.

(critrio externo)

9 gneros: Cientfico, De referncia, Informativo, Jurdico,


Prosa, Poesia, Drama, Instrucional, Tcnico-Administrativo

Tipo

textual: considera-se tipo de texto o


modo especfico de estruturao de um
texto.

Refere-se ao texto visto de dentro, ou seja, suas


partes componentes, seu lxico, sua sintaxe, sua
adequao ao tema, etc.

(subjetiva exige leitura humana, mas termina


com um membro de uma lista = externa)

Domnio: a rea de conhecimento que tematiza


a principal informao veiculada pelo texto.

(subjetiva exige leitura humana, mas termina com um


membro de uma lista = externa)

Meio de distribuio: seleciona o canal atravs do qual o


texto foi divulgado ao seu pblico-alvo.

(critrio externo)

Crpus construdos no NILC


PLN-BR: www.nilc.icmc.usp.br
:8180/portal/

2 C de Aprendizes:
CORVO - Textos do ENEM de 2002

Lcio-Web: www.nilc.icmc.usp.br/
lacioweb/

19932000

20022004

CEA-STS - Abstracts em ingls


escritos por alunos brasileiros de
ps-graduao

2005

2005
C. NILC

4 Crpus Lcio-Web:

~35 milhes
de tokens e
340.016
tokens
diferentes

MAC-MORPHO
~1.2 milhes de tokens
Lcio-REF: 4278
arquivos, ~8.2 milhes
tokens
Par-C: 646 pares (I/P),
893.283 tokens
Comp-C: pares(I/P),
61.149 tokens

20062007

C. Nano
~2.5 milhes
tokens

2007
Crpus PLN-BR

2007
C. Milnio

2008
2008

CEA: 723
CEA-2: 28 artigos
abstracts pub.
(Referncia)
Comp/Est/Mat. Comp.
Fsica/Farmcia

2008
Comparable
CEA (I/P): 84
pares de abs.
C PorSimples
Estudo de
padres lxicos. 104 pares textos
jornalsticos
50 pares de textos
cientficos

Orig./Simp. (PorSimples

Problemas do C NILC

Classificao

Nmero de textos em certos subcrpus

Alguns textos se desviam da regra seguida pelo C NILC de incluir textos completos. Alguns
possuem partes do comeo, meio e fim de um texto, por exemplo.

Agrupamento e formatao

Alguns subcrpus esto sub-representados, por exemplo, o subcrpus Tcnico e Cientfico possui
somente um pequeno nmero de textos, dissertaes incompletas, sendo a maioria da Computao

Tamanho das amostras (o critrio principal era amostras completas)

Dentro das 3 classes principais os textos foram agrupados de forma ad hoc, ou por domnio (ou
assunto) ou por gnero ou tipo textual.

No houve preocupao em manter a formao, por exemplo, as marcas de sentena e pargrafo


para muitos textos.
Houve agrupamento de textos pequenos num nico, causando problemas para a criao do
cabealho do texto
Alguns textos possuem a informao de autoria e detalhes da publicao, mas nada dito sobre o
seu domnio, gnero ou tipo textual; outros nem tem cabealho.

Copyright

Foram obtidos para os subcrpus no corrigidos e semi-corrigidos; os corrigidos no tm permisso


de uso.

Organizao do C NILC

Problemas do Lcio-Web

Embora possua uma bem definida tipologia de textos

Gnero
Tipo de Texto
Domnio
Meio de Distribuio

E seus textos mantiveram a estrutura, possuam


cabealho e autorizao de uso
Falha em

no usar padres internacionais de intercmbio para facilitar


o reuso e
na seleo dos textos (no houve uma amostragem ou
balanceamento).

Tentamos sanar esses


problemas

Em

2 projetos de grande porte: Milnio e


PLN-BR

Arquitetura Geral do PLN-BR


Construo,
Manuteno e
Disponibilizao
de Corpora
Representao
do
Conhecimento
Textual

Anotao de
Corpora

CORPUS

Glosagem da
Wordnet.Br e
sua Indexao
WordNet de
Princeton

Categorizao
de Textos

Sumarizao
Automtica e
Recuperao da
Informao
Textual

Aprendizagem
Automtica de
Informaes
Lexicais

3 grandes atividades: os crpus


e sua infra-estrutura de acesso
1. Definio dos Protocolos e Padres de
Representao dos Documentos
XCES

2. Disponibilizao dos Crpus de Treinamento

Crpus Gold Standard


Crpus para treinamento de classificadores de contedo

3. Construo da Plataforma de Acesso aos Crpus o Portal


de Crpus (http://www.nilc.icmc.usp.br:8180/portal/)

A plataforma possui:

um Editor Web de Cabealhos que preenche um banco de dados


(BD) com informaes dos cabealhos dos textos. Com os dados
dos textos no BD h a possibilidade de:
vrias formas de pesquisa aos textos dos crpus e montagem de
sub-crpus.

O sub-crpus criado com as pesquisas:

disponibilizado para download seguindo o padro XCES, a partir


dos dados do banco de dados e em texto cr
pode ainda ser consultado via uma ferramenta de explorao
grfica o PEx-Corpus Tool. O PEx-Corpus uma adaptao do
projeto Projection Explorer (PEx) (http:
//www.lcad.icmc.usp.br/~paulovic/pex/) que permite inspecionar
visualmente um subcrpus para explorar o seu contedo e criar
outros subcrpus com base numa seleo de tpicos.

Discusses relacionadas ao
Projeto do Crpus
a) Devamos usar a infra-estrutura de disponibilizao e processamento do projeto Lcio-Web,
j disponvel no NILC?
b) talvez fosse interessante que no houvesse muita variao na forma e domnio dos textos
do crpus;
c) que um critrio importante seria a relevncia social do crpus;
d) que o crpus devesse ser fechado, com textos mais simples, com estruturas sintticas
menos sofisticadas, que venham em prosa (e no em verso);
e) que sejam reconhecidos por seu mrito informativo (e no pelo juzo esttico); e que,
f) de preferncia, no sejam muito longos.

Domnio/Gnero:
1.
2.
3.
4.
5.
6.
7.
8.
9.

textos de patentes;
dos domnios da Nanocincia & Nanotecnologia e da bioinformtica;
na Bblia;
no Bulrio Eletrnico da Anvisa (http://www.anvisa.gov.br/e-bulas/ );
no Guia de Remdios do UOL (http://www1.uol.com.br/remedios/);
em textos relativos a um fato histrico de importncia para o Brasil;
em textos de sade pblica, por exemplo, as cartilhas de rgos governamentais em
contraponto com textos cientficos e de divulgao para leitores mais proficientes;
em textos didticos; e
em textos da Wikipedia (um problema aqui: os textos so encomendados e no naturais)

I Workshop do projeto - 16 e 17
de maro de 2006

Todos concordaram que o gnero de textos


informativos, subgnero jornalstico era o que
atenderia melhor a todos os subgrupos.
Embora o NILC tivesse permisso de uso dos
textos de 1994 da Folha de So Paulo (FSP),
partimos para um pedido formal para a Folha, por ser o
maior jornal do Brasil, em busca de dados mais atuais.

Amostragem

Crpus Global (FULL) do PLN-BR

O ano construdo
para o projeto
PLN-BR toma os
textos de um ms
aleatrio de 1994
at um ms
aleatrio de 2005,
totalizando 12
meses diferentes
A grande base contm 125 mil textos no formato Folio Views.
Vrios textos desta base so compostos somente de informao de
cabealho:
estes no foram utilizados no projeto PLN-BR.

Obteno dos Direitos de Uso


As negociaes com a FSP para obteno da grande
base de textos e de amostras representativas e
balanceadas

comearam em maro de 2006 e em janeiro de


2007 o TERMO DE AUTORIZAO PARA UTILIZAO DE
OBRA E OUTRAS AVENAS entre ICMC-USP
(representando o Projeto PLN-BR) e a FSP foi assinado.

Os 3 crpus do PLN-BR
1.

PLN-BR FULL que contm 103.080 mil textos da FSP e


29.014.089 tokens

foi disponibilizado para download em setembro de 2006,


principalmente para os membros dos subprojetos Glosagem da
Wordnet.Br e sua Indexao WordNet de Princeton e
Aprendizagem Automtica de Informaes Lexicais.

este crpus s pode ser acessado na Web com senha


(Portal_Interno), com citao/visualizao permitida de 30% de
cada texto via concordncias, por exemplo, devido lei de
direitos autorais.

Cada pesquisador que o acessa assina um termo de


compromisso.

o crpus pode ser explorado totalmente pelos participantes do


projeto para tarefas de criao de lxicos, por exemplo, entre
outras.

Foi distribudo em codificao unicode

os textos possuem as informaes de ttulo, subttulo (quando existe), autores, tipo de texto,
caderno, ano, nmero de palavras, keywords (quando existem), seguido do texto cru.

ttulo, subttulo e autores no ganham etiquetas e assim colaboram para a contagem de freqncia
quando usados no processador de crpus Unitex.

as outras meta-informaes (tipo de texto, caderno, ano, nmero de palavras e keywords) utilizam
etiquetas Unitex:

Globo News d um 'furo' mundial


FRANCISCO MARTINS DA COSTA
{tipo de texto Notcia,.N}
{caderno TV FOLHA,.N}
{ano 1999,.N}
{nmero de palavras 125,.N}
{keywords [TELEVISO] [GAFE] [OSCAR, 1999] [GLOBONEWS],.N}
Na madrugada de domingo para segunda-feira passada, o "Em Cima da Hora", da Globo News, deu
em primeira-mo que "O Resgate do Soldado Ryan", de Steven Spielberg, ganhou o Oscar de
melhor filme.
Foi uma notcia literalmente exclusiva, afinal o vencedor para todo o resto da humanidade foi
"Shakespeare Apaixonado". Parabns Central Globo de Jornalismo! de "furos" como esse que o
telespectador gosta.
Mas gafes no so exclusividade dos canais de notcia. O cantor Vinny, ao analisar as chances de
"Central do Brasil", na tarde de domingo na MTV, ponderou que a concorrncia era forte. "Ouvi
dizer que 'La Dolce Vita' um timo filme", disse. Pena que "A Vida Bela" em italiano seja "La
Vita Bella".
(FRANCISCO MARTINS DA COSTA)

O arquivo tem 141MB compactado e 400MB


descompactado.

Estes textos passaram por um novo crivo exigido


pela FSP em dezembro de 2006

para dar acesso somente aos textos cujos crditos eram da


FSP na montagem dos dois outros crpus que prevem
acesso a textos integrais.
Este novo crpus possui 96.868 textos e 26.425.483 tokens
(mantemos este novo crpus em uma base de dados
diferente, que chamaremos aqui de PLN-BR FULL 2).

2. PLN-BR CATEG que possui 30 mil textos e 9.780.220 tokens.

s pode ser acessado com senha pelos membros, mas o acesso aos textos
integral.

visa atender o subgrupo Categorizao de Textos.


uma amostra aleatria estratificada e proporcional distribuio do crpus
PLN-BR FULL com relao aos textos dos cadernos do jornal.
formado por 30% dos textos do crpus PLN-BR FULL e possui somente
notcias e reportagens para as quais a Folha de So Paulo possui direitos
de republicao.
contm o crpus PLB-BR GOLD.

3. PLN-BR GOLD que possui 1024 textos e 338.441 tokens.

Pode ser acessado livremente via Web.

O tamanho deste crpus que recebe ateno da maioria dos subgrupos foi
decidido para representar 1% do crpus PLN-BR FULL de forma a
conservar, proporcionalmente, a distribuio deste crpus maior.
Ele uma amostra aleatria estratificada e proporcional distribuio do
crpus PLN-BR FULL com relao aos textos dos cadernos do jornal.
Ele formado por 1% dos textos do crpus PLN-BR FULL, e possui
somente notcias e reportagens para as quais a Folha de So Paulo possui
direitos de republicao.

Padres Internacionais de
Anotao e Codificao

Como o custo de se criar crpus anotados muito alto

tanto e termos financeiros como na demanda de trabalho especializado,

pesquisadores amortizam estes custos reusando estes recursos

Este alto custo contribui para o desenvolvimento de padres de


codificao e anotao

para recursos de lngua, que permitem o seu intercmbio

Exemplos de padro de anotao:

TEI mais adaptado para crpus histricos e


XCES mais adaptado para criao de crpus para PLN

Padro de codificao de caracteres: Unicode

Vantagens de se usar estes padres internacionais:


Facilita o intercmbio de dados, reuso e extensibilidade
Evita o desenvolvimento de software, pois podemos usar ferramentas j
desenvolvidas que os atendem

Discusses relacionadas ao padro a ser


usado para Anotao Estrutural e Lingstica

XML

Padres atuais: TEI e XCES (h tambm o padro XML CDIF, MARTIF, OLIF)

ANC um crpus de textos contemporneos do IA, sendo atualmente construdo

TEI tem uma massiva documentao

Novidade do XCES:

anotao stand-off (vs anotao intercalada com o texto) e


o uso de schemas XML que fornecem mais controle para a definio do que valido e mais tipos de
dados (vs o uso de DTDs)

Criao e aplicao do padro XCES (http://www.cs.vassar.edu/XCES/)


XCES a verso XML do padro CES (Corpus Encoding Standard) que parte das recomendaes do
grupo EAGLES (Expert Advisory Group on Language Engineering Standards) para codificao e anotao
de crpus que segue as recomendaes do TEI (Text Encoding Initiative)

Mas nem todo este poder vem de graa.... uma nova tecnologia, vrios parsers no o analisam, j h
muito feito em DTD, ento no estaramos reusando o que est pronto

Como decidir?

Inovao versus segurana e reuso


XCES fornece uniformidade para representao estrutural e lingstica: Feature Structure
<struct type="p" from="3" to="219">
<feat name="id" value="p1" />
</struct>

Discusso sobre padres: www.gslt.hum.gu.se/~leifg/gslt/doc/lingres.ps

Anotao XCES Bsica:


PLN-BR GOLD e PLN-BR CATEG

Anotao Stand-off:
flexibilidade

O texto primrio pode ser usado sem anotaes ou com anotaes se


necessrio.

O usurio pode escolher trabalhar com uma anotao em particular


independente do textos.

O crpus pode conter anotaes de diferentes tipos,

ou vrias verses de um nico tipo de anotao (por exemplo, mltiplas


marcaes de etiquetadores morfossintticos (taggers)) sem problemas de
compatibilidade.

O projeto pode distribuir anotaes independentes do texto para


download,

porque as anotaes possuem links para os dados originais (contedo),


assim qualquer usurio que j fez download do crpus pode posteriormente
somente baixar as novas anotaes.

Exemplo: ESPORTE_1997_640.txt
(15 par.)

ESPORTE_1997_640-logical.xml
<?xml version="1.0" encoding="UTF-8" ?>
- <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4">
- <struct type="cesDoc" from="0" to="2193">
<feat name="version" value="1.0.4" />
<feat name="id" value="ESPORTE_1997_640" />
<feat name="xmlns:xsi" value="http://www.w3.org/2001/XMLSchema-instance" />
<feat name="xmlns:xlink" value="http://www.w3.org/1999/xlink" />
<feat name="xmlns" value="http://www.xces.org/schema/2003" />
</struct>
<struct type="text" from="0" to="2192" />
<struct type="body" from="1" to="2191" />
- <struct type="div" from="2" to="2190">
<feat name="type" value="materia" />
</struct>
- <struct type="p" from="3" to="219">
<feat name="id" value="p1" />
</struct>
- <struct type="p" from="220" to="413">
<feat name="id" value="p2" />
</struct>
- - <struct type="p" from="1834" to="2119">
<feat name="id" value="p14" />
</struct>
- <struct type="p" from="2120" to="2189">
<feat name="id" value="p15" />
</struct>
</cesAna>

ESPORTE_1997_640-s.xml
(20 sentenas)
<?xml version="1.0" encoding="UTF-8" ?>
- <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4">
- <struct type="s" from="3" to="219">
<feat name="id" value="p1s1" />
</struct>
- <struct type="s" from="220" to="413">
<feat name="id" value="p2s1" />
</struct>
- <struct type="s" from="414" to="538">
<feat name="id" value="p3s1" />
- <struct type="s" from="1834" to="1901">
<feat name="id" value="p14s1" />
</struct>
- <struct type="s" from="1902" to="1971">
<feat name="id" value="p14s2" />
</struct>
- <struct type="s" from="1972" to="2119">
<feat name="id" value="p14s3" />
</struct>
- <struct type="s" from="2120" to="2179">
<feat name="id" value="p15s1" />
O Senter erra
</struct>
- <struct type="s" from="2180" to="2189">
<feat name="id" value="p15s2" />
</struct>
</cesAna>

aqui

ESPORTE_1997_640.xml (merged)
<?xml version="1.0" encoding="UTF-8" ?>
- <cesDoc version="1.0.4" id="ESPORTE_1997_640" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:xlink="http://www.w3.org/1999/xlink" xmlns="http://www.xces.org/schema/2003">
- <text>
- <body>
- <div type="materia">
- <p id="p1">
<s id="p1s1">Membros de torcidas uniformizadas do Corinthians emboscaram na madrugada de ontem o nibus em que a
delegao do clube viajava para So Paulo, aps a derrota por 1 a 0 para o Santos, na Vila Belmiro, pelo Brasileiro.</s>
</p>
- <p id="p2">
<s id="p2s1">No km 45, aps o trecho de serra da rodovia dos Imigrantes (sentido So Paulo), torcedores com camisa da
Gavies atravessaram um nibus em que viajavam na pista, transformando-o numa barricada.</s>
</p>

...
- <p id="p14">
<s id="p14s1">O ataque surge em hora crtica para o Corinthians e para a Gavies.</s>
<s id="p14s2">O time est em 20 lugar no Brasileiro e corre risco de rebaixamento.</s>
<s id="p14s3">J a Gavies, proibida como todas as uniformizadas de frequentar estdios paulistas, negociava com a PM e o
Ministrio Pblico um modo de retornar.</s>
</p>

- <p id="p15">
<s id="p15s1">LEIA mais sobre o ataque ao nibus do Corinthians nas pgs.</s>
<s id="p15s2">4-3 e 4-4</s>
</p>
</div>
</body>
</text>
</cesDoc>

O cabealho segue o TEI


<fileDesc>
Contm informaes sobre o texto
codificado (distribuio, fonte,
etc.).
<encodingDesc>
Contm informaes sobre a
maneira como o texto foi
codificado.
<profileDesc>
Contm informaes sobre vrios
aspectos do texto (lngua usada,
classificao do texto segundo a
sua tipologia, os participantes de
um texto falado e sua situao,
anotaes, etc.).
<revisionDesc>
Resume o histrico de reviso
(cabealho, segmentao e

Tipologia do Lcio-Web

Proposta: utilizar tipologia


quadripartida do Lcio-Web

Tipologia do LW

3 anotaes estruturais +
3 anotaes lingsticas

Anotao lingstica - sinttica


Tokens
<struct type=token from=0 to=1>
<feat name=id
value=t1/>
<feat name= base value=A/>
</struct>
<struct type=token from=2 to=8>
<feat name=id
value=t2/>
<feat name=base value=universidade/>
</struct>
.
Pos
<struct type=pos>
<feat name=id value=pos1/>
<feat name=class value=art/>
<feat name=gender value=F/>
<feat name=number value=S/>
<feat name=canon value=o/>
<feat name=complement value=artd/>
<feat name=tokenref value=t1/>
</struct>

Phrases
<struct type=phrase from=t1 to=t2>
<feat name=id value=phr1/>
<feat name=cat value=NP/>
<feat name=function value=subj/>
<feat name=head value=t2/>
</struct>

Tokens are
linked to the
main text
through the
attributes from
and to in the
structures of
type token.
For each token
there is a
corresponding
POS structure.
Phrases are
identified for
group of
tokens.

Fruns

Conferncia Lingstica de Crpus:


Internacional: 2001 a 2009, bianual http://www.liv.ac.uk/english
/CL2009/
Brasil de 1999 a 2009, 8 eventos: http://www.nilc.icmc.usp.br/
EncontroCorpora/index.htm
Special Interest Group on Linguistic data and corpus-based
approaches to NLP (SIGDAT): http://www.aclweb
.org/anthology-new/sigdat.html com as conferncias WVLC (de
1993 at 2000) e Empirical Methods in Natural Language
Processing (de 1996 at 2008)

International Journal of Corpus Linguistics


(http://www.benjamins.com/cgi-bin/t_seriesview.cgi?series=Ijcl )
Language Resources and Evaluation
(http://www.springer.com/linguistics/computational+linguistics/journal
/10579)

Desafios da rea Data Resources


1) Necessidade
de uma Cincia
da Anotao de
Crpus

http://www-nlpir.nist.gov/MINDS/FINAL/data.web.pdf

2) Necessidade de uma infra-estrutura de


anotao robusta e extensvel
Along with a better understanding of a
methodology for annotation there should be a
set of public domain tools and interfaces that
can support, and to a certain degree enforce,
best practice annotation guidelines.
Exemplo:
WYNNE, M. (Ed). Developing Linguistic Corpora: a Guide to Good Practice.
Disponvel em: http://ota.ahds.ac.uk/documents/creating/dlc/index.htm . Acesso
em14/10/2008. (Produced by AHDS Literature, Languages and Linguistics)

3) Necessidade de integrao de tecnologias


para acelerar e produzir melhores anotaes
There is considerable evidence that the productivity
of manual annotation can be speeded up by preprocessing the data with sufficiently accurate
automatic taggers (Chiou, et al., 2001).
However, current annotation practices frequently fail
to take advantage of this approach, possibly
because of the difficulty of integrating these systems
into new annotation tasks.

4) Necessidade da Criao de anotaes


mais ricas (informaes lingsticas)

5) Necessidade da criao de Kits de


Lngua
There has long been recognition of the need to have
basic language processing resources available for a
broad spectrum of languages:
monolingual text, parallel text, part-of-speech taggers,
morphological analyzers, and Named Entity annotation.

Este ser o assunto da prxima aula...

6) Necessidade da criao de
recursos lxicos de grande cobertura
In the quest for improving the portability of
supervised stochastic systems, one underutilized resource is the lexicon.
Many supervised approaches depend heavily
on lexical cues, and balk when given data
with out-of-vocabulary lexical items.

Perguntas

Qual a populao de que seu crpus uma


amostra?
Qual a melhor maneira de lidar com o problema da
representatividade? Que conselho voc daria a
algum para se precaver das crticas relativas
falta de representatividade de corpus?
Quais as diferenas entre Lingustica de Crpus e
PLN?
Qual das 8 definies de crpus que lhe parece
mais adequada/til ao seu contexto de pesquisa?

Perguntas

Quais as vantagens e desvantagens de se usar a


Web como crpus?
Qual a diferena de se usar a Web como crpus e
como fonte de crpus?
Voc j usou a Web como fonte de crpus? Como
crpus? Quais desafios voc enfrentou/prev?
Que ferramentas voc usa para anlise de crpus?
Voc j notou problemas de aferio de frequncia
com esta ferramenta?

Textos de Suporte

MORRISON, Alan; POPHAM, Michael; WIKANDER, Karen. Creating and


Documenting Electronic Texts: A Guide to Good Practice. Disponvel em:
http://ota.ahds.ac.uk/documents/creating/cdet/index.html
Acesso em 14/10/2008. (Produced by AHDS Literature, Languages and
Linguistics)

WYNNE, M. (Ed). Developing Linguistic Corpora: a Guide to Good Practice.


Disponvel em: http://ota.ahds.ac.uk/documents/creating/dlc/index.htm . Acesso
em14/10/2008. (Produced by AHDS Literature, Languages and Linguistics)

ALUSIO, S. M., ALMEIDA, G. M. de B. O que e como se constri um


corpus? Lies aprendidas na compilao de vrios corpora para
pesquisa lingstica. Calidoscpio (UNISINOS). , v.4, p.155 - 177, 2006.
Disponvel em: http://www.unisinos.br/publicacoes_cientificas/images/stories/
pdfs_calidoscopio/vol4n3/art04_aluisio.pdf

Martha Palmer, Randee Tangi, Stephanie Strassel, Christiane Fellbaum, Eduard


Hovy. Historical Development and Future Directions in Data Resource
Development. Relato do da rea de Recursos Lingsticos do Workshop
MINDS. Disponvel em: http://www-nlpir.nist.gov/MINDS/FINAL/data.web.
pdf

Referncias
McENERY T. & WILSON A. (1996) Corpus linguistics, Edinburgh: Edinburgh
University Press.
BERBER SARDINHA, T. (2004) Lingstica de Corpus. So Paulo: Manole.
GARSIDE, R.; LEECH, G.; MCENERY, A.M. (eds.) (1997). Corpus Annotation.
Longman.
BIBER, D.; S. Conrad; R. Reppen. (1998). Corpus linguistics: Investigating
language structure and use. Cambridge University Press, Cambridge.
ATKINS, S.; CLEAR, J.; OSTLER, N. (1992). Corpus design criteria. Journal of
Literary and Linguistic Computing 7(1).
CHURCH, K. and MERCER, R. (1993) Introduction to the Special Issue on
Computational Linguistics using Large Corpora, Computational Linguistics
Volume 19, Number 1, 1-24.
KILGARIFF, A. and GREFENSTETTE, G. (2003) Introduction to the Special Issue
on the Web as a Corpus, Computational Linguistics Volume 2, Number 3,
333-347
LEECH, G. (1992) "Corpora and theories of linguistic performance", in Svartvik, J.
Directions in Corpus Linguistics, pp 105-22. Berlin: Mouton de Gruyter.
SANTOS, Diana. "Corporizando algumas questes". In Stella E. O. Tagnin & Oto
Arajo Vale (orgs.), Avanos da Lingstica de Corpus no Brasil, Editora
Humanitas/FFLCH/USP, So Paulo, 2008, pp.41-66.

Vous aimerez peut-être aussi