Académique Documents
Professionnel Documents
Culture Documents
to be.
Kenneth Church, 1993 at WVLC-1
Lingstica de Corpus/Crpus:
disciplina, metodologia ou
abordagem?
histrias de 1993 (Workshop
sobre Very Large Corpora-1) at
2009
Sandra Maria Alusio
1993-2009
Agenda
O que Crpus?
Tipos de pesquisa com crpus e Tipos de usos de crpus
Critrios para o projeto/design de um crpus
O que Lingstica de Crpus?
Tipologia de crpus
Tipologia de Textos
Exemplos de crpus desenvolvidos no NILC
Fruns
Desafios da rea Data Resources
e problematizem os 3 casos.
1.
2.
T = 116 sentenas
O que Crpus?
Existem vrias definies de crpus na literatura,
algumas vezes divergentes (seguem 8, de 92 a 2006):
Atkins, Clear & Ostler 1992
A subset of an
electronic text
library, built according
to explicit design
criteria for a specific
purpose, e.g. the
Cobuild corpus, the
Longman/Lancaster
corpus
Terminologia X Lexicografia
O que Crpus?
Existem vrias definies de crpus na literatura,
algumas vezes divergentes (seguem 8, de 92 a 2006):
Crystal, David. 1992. An Encyclopedic
Leech (1992) argues that the corpus is a more powerful methodology from the
point of view of the scientific method, as it is open to objective verification of
results
O que Crpus?
Garside, Leech &
McEnery 1997:
O que Crpus?
Kilgarriff & Grefenstette 2003
Sardinha 2004
1.
2.
O que Crpus?
Diana Santos, 2006, na Primeira
Escola de Vero da Linguateca
...um corpo eletrnico, ...a conjuno de trs coisas relacionadas: (i) um conjunto de
textos, (ii) um conjunto de informao a marcar/classificar estes textos, e (iii)
uma interface que permitisse consultar os dois primeiros.
...a escolha dos textos e da informao a eles associada tinha que ter um objetivo,
seno estaramos na presena apenas de uma coleo.
Um corpo uma coleo classificada de objetos lingusticos para uso em
Processamento de Linguagem Natural/Lingustica Computacional/Lingustica
em que uso pode ser estudo, medio, teste, ou avaliao, enquanto objetos
lingusticos so textos, frases, palavras, entrevistas, erros ortogrficos, entradas
de dicionrio, citaes, pareceres jurdicos, filmes, imagens com legendas,
tradues, correes (de textos de alunos de lngua ou de traduo), telefonemas,
simulaes, programas, ...
com relao aos fenmenos: tipo de erro, tipo de traduo, tipo de texto, ...
At agora...
No
Questes/critrios para
informar o projeto de crpus
X
organizados
demograficamente)
Lista de
gneros e Tipos de
Texto
Amostragem Demogrfica
Problemas da amostragem
proporcional
No fcil...
Representatividade
registro
Tipo de
Texto
Quantos textos...
Conversas
ento pode ser vista como metodologia, pois traz mais do que o
instrumental computacional
emprica,
Estudos da lngua:
Concordanciador KWIC
(Keyword in Context)
KWOC
An acronym for Keyword out of Context, a variation on
the KWIC (Keyword in Context) index, in which
keywords extracted algorithmically from the title of a
document (and sometimes the text) are printed as
headings along the left-hand margin of the page, with
the titles or portions of text containing each keyword
indented under the corresponding heading. A symbol
may be substituted for the keyword in the string of text.
Unlike KWAC indexing, this method does not preserve
multiword terms and phrases in the alphanumeric
sequence of headings.
KWAC
An acronym for Keyword and Context (also known as
Keyword alongside Context), an algorithmically
generated index in which keywords from the title (and
sometimes the text) of a document are printed as
headings along the left-hand margin of the page, with
the portion of the title or text following each keyword
indented under the heading, followed by the portion of
the title or text preceding the word. Unlike KWOC
indexing, this method preserves multiword terms and
phrases in the alphanumeric sequence of headings.
but only the British use it to mean 'a set of rooms to live
in with all the rooms on one level of a building'.
Americans use the word 'apartment' for this.
Resumindo
Compilao de crpus
Desenvolvimento de ferramentas
Descrio da lngua
Aplicao de crpus (ensino, traduo, reconhecimento de voz, etc.)
Uso de Crpus
em Estudos da
Lngua
Corpora in Speech Research
Corpora in Lexical Studies
Corpora and Grammar
Corpora and Semantics
Corpora and Pragmatics
Corpora and Sociolinguistics
Corpora and Stylistics
Corpora and Language Teaching
Corpora and Historical Linguistics
Corpora in Psycholinguistics
Corpora and Cultural Studies
...
Crpus e
Lingstica
Computacional
Tagging
Parsing
Tagging semntico
Correo Gramatical
Anlise do discurso (anforas)
Anlise Retrica
Traduo Automtica
Sumarizao Automtica
Extrao Automtica de Terminologia
Simplificao Textual
...
Classificao de Atkins et al
(1992)
1.
2.
3.
Fechado X aberto
Sincrnico X diacrnico
Um perodo especfico deve ser projetado para o sincrnico
4.
5.
6.
7.
8.
Geral X terminolgico
Mono X bi X plurilnge
Lnguas
nico X paralelo-2 X paralelo-3 ...
Central X shell
Shell o restante da biblioteca eletrnica disponvel quando necessrio
9.
Ncleo X perifrico
Conceitos advindos do International Corpus of English (ICE): ncleo
contm tipos de textos comuns a todas as variedades do ingls e
que esto em todos os subcrpus; perifrico contm aqueles tipos
especficos de alguns subcrpus.
Classificao de Sardinha
(2004)
Modo
Tempo
Seleo
Contedo
Especializado: textos de tipos especficos
Regional ou dialetal: textos de uma ou mais variedades
sociolingsticas especficas
Multilnge: idiomas diferentes
Autoria
De aprendiz: no so falantes nativos
De lngua nativa
Disposio Interna
Paralelo: os textos so comparveis, por exemplo, original e
traduo
Alinhado: tradues aparecem abaixo de cada linha do original
Finalidade
De estudo: crpus que se pretende descrever
De referncia: usado para fins de contraste com o crpus de
estudo
De treinamento ou teste: usado para o desenvolvimento de
aplicaes ou ferramentas de PLN.
Contedo e classificao do
BNC
O BNC foi construdo entre 1991 e 1994 por um consrcio entre editoras de dicionrios
como a Oxford University Press ( OUP) e Longman, centros de pesquisas acadmicos
como a University of Lancaster e Oxford e o governo britnico.
Ele foi projetado para conter uma grande variedade de ingls britanico.
O crpus contm ~100 milhes de palavras de ingls moderno, tanto escrito (90%) como
falado (10%).
Tipologia:
Crpus de amostras
Sincrnico
Monolngue
Crpus geral
Misto
Tipologia de Textos
Por exemplo: gnero, meio, estilo, tpico, modo (escrito, escrito para
ser lido (dircurso), escrito para ser falado (dialogo/pea), falado, falado
para ser escrito (ditado))
Categorias geradoras de
controvrsia
Gnero
Uma distino usada pelo BNC em informativo e imaginativo no tem grande validade
pois ilude ao perpetuar que muitos textos tem como principal funo a transferncia de
informao.
Tpico
A prtica em muitos projetos de crpus usar uma extensiva lista de valores para
classificao, mas que no aceita por todos.
Gnero
Atkins et al:
impossvel balancear um crpus somente com critrios extra-lingsticos mas balancear um crpus
somente com critrios internos no mostraria a relao entre a linguagem e seu contexto (ambiente do
texto)
No artigo apresenta uma lista de 29 atributos e possveis valores para eles (critrios externos), que so
relevantes para uma tipologia de textos
Sugere comear com um recorte dos 29 atributos que pode ser expandido mais tarde se os recursos
permitirem
Biber:
Inicialmente selecionar textos com base em critrios externos depois fazer anlise com critrios
internos para classificar os textos.
Um processo cclico de refinamento baseado nos 2 critrios necessrio para construir um crpus,
usando as duas indexaes
Eagles:
A classificao de textos em diferentes gneros tem sido feita nos projetos de crpus com base em
critrios externos, pois esses so aceitos culturalmente, e usados em disciplinas como Teoria Literria,
Retrica e outras.
Entretanto, uma tipologia adequada vai consistir de uma combinao dos 2 critrios (externo e interno)
Tpico/Assunto
EAGLES:
Existe uma categoria entre a externa e interna que chamada de reflexiva: o texto
fala sobre ele e prope a sua classificao
Uma classificao melhor de tpico deve ser desenvolvida primeiramente com base
em critrios internos ao texto, como a escolha do vocabulrio, atravs de tcnicas de
clusterizao, e depois a evidncia externa adicionada
(critrio externo)
Tipo
(critrio externo)
2 C de Aprendizes:
CORVO - Textos do ENEM de 2002
Lcio-Web: www.nilc.icmc.usp.br/
lacioweb/
19932000
20022004
2005
2005
C. NILC
4 Crpus Lcio-Web:
~35 milhes
de tokens e
340.016
tokens
diferentes
MAC-MORPHO
~1.2 milhes de tokens
Lcio-REF: 4278
arquivos, ~8.2 milhes
tokens
Par-C: 646 pares (I/P),
893.283 tokens
Comp-C: pares(I/P),
61.149 tokens
20062007
C. Nano
~2.5 milhes
tokens
2007
Crpus PLN-BR
2007
C. Milnio
2008
2008
CEA: 723
CEA-2: 28 artigos
abstracts pub.
(Referncia)
Comp/Est/Mat. Comp.
Fsica/Farmcia
2008
Comparable
CEA (I/P): 84
pares de abs.
C PorSimples
Estudo de
padres lxicos. 104 pares textos
jornalsticos
50 pares de textos
cientficos
Orig./Simp. (PorSimples
Problemas do C NILC
Classificao
Alguns textos se desviam da regra seguida pelo C NILC de incluir textos completos. Alguns
possuem partes do comeo, meio e fim de um texto, por exemplo.
Agrupamento e formatao
Alguns subcrpus esto sub-representados, por exemplo, o subcrpus Tcnico e Cientfico possui
somente um pequeno nmero de textos, dissertaes incompletas, sendo a maioria da Computao
Dentro das 3 classes principais os textos foram agrupados de forma ad hoc, ou por domnio (ou
assunto) ou por gnero ou tipo textual.
Copyright
Organizao do C NILC
Problemas do Lcio-Web
Gnero
Tipo de Texto
Domnio
Meio de Distribuio
Em
Anotao de
Corpora
CORPUS
Glosagem da
Wordnet.Br e
sua Indexao
WordNet de
Princeton
Categorizao
de Textos
Sumarizao
Automtica e
Recuperao da
Informao
Textual
Aprendizagem
Automtica de
Informaes
Lexicais
A plataforma possui:
Discusses relacionadas ao
Projeto do Crpus
a) Devamos usar a infra-estrutura de disponibilizao e processamento do projeto Lcio-Web,
j disponvel no NILC?
b) talvez fosse interessante que no houvesse muita variao na forma e domnio dos textos
do crpus;
c) que um critrio importante seria a relevncia social do crpus;
d) que o crpus devesse ser fechado, com textos mais simples, com estruturas sintticas
menos sofisticadas, que venham em prosa (e no em verso);
e) que sejam reconhecidos por seu mrito informativo (e no pelo juzo esttico); e que,
f) de preferncia, no sejam muito longos.
Domnio/Gnero:
1.
2.
3.
4.
5.
6.
7.
8.
9.
textos de patentes;
dos domnios da Nanocincia & Nanotecnologia e da bioinformtica;
na Bblia;
no Bulrio Eletrnico da Anvisa (http://www.anvisa.gov.br/e-bulas/ );
no Guia de Remdios do UOL (http://www1.uol.com.br/remedios/);
em textos relativos a um fato histrico de importncia para o Brasil;
em textos de sade pblica, por exemplo, as cartilhas de rgos governamentais em
contraponto com textos cientficos e de divulgao para leitores mais proficientes;
em textos didticos; e
em textos da Wikipedia (um problema aqui: os textos so encomendados e no naturais)
I Workshop do projeto - 16 e 17
de maro de 2006
Amostragem
O ano construdo
para o projeto
PLN-BR toma os
textos de um ms
aleatrio de 1994
at um ms
aleatrio de 2005,
totalizando 12
meses diferentes
A grande base contm 125 mil textos no formato Folio Views.
Vrios textos desta base so compostos somente de informao de
cabealho:
estes no foram utilizados no projeto PLN-BR.
Os 3 crpus do PLN-BR
1.
os textos possuem as informaes de ttulo, subttulo (quando existe), autores, tipo de texto,
caderno, ano, nmero de palavras, keywords (quando existem), seguido do texto cru.
ttulo, subttulo e autores no ganham etiquetas e assim colaboram para a contagem de freqncia
quando usados no processador de crpus Unitex.
as outras meta-informaes (tipo de texto, caderno, ano, nmero de palavras e keywords) utilizam
etiquetas Unitex:
s pode ser acessado com senha pelos membros, mas o acesso aos textos
integral.
O tamanho deste crpus que recebe ateno da maioria dos subgrupos foi
decidido para representar 1% do crpus PLN-BR FULL de forma a
conservar, proporcionalmente, a distribuio deste crpus maior.
Ele uma amostra aleatria estratificada e proporcional distribuio do
crpus PLN-BR FULL com relao aos textos dos cadernos do jornal.
Ele formado por 1% dos textos do crpus PLN-BR FULL, e possui
somente notcias e reportagens para as quais a Folha de So Paulo possui
direitos de republicao.
Padres Internacionais de
Anotao e Codificao
XML
Padres atuais: TEI e XCES (h tambm o padro XML CDIF, MARTIF, OLIF)
Novidade do XCES:
Mas nem todo este poder vem de graa.... uma nova tecnologia, vrios parsers no o analisam, j h
muito feito em DTD, ento no estaramos reusando o que est pronto
Como decidir?
Anotao Stand-off:
flexibilidade
Exemplo: ESPORTE_1997_640.txt
(15 par.)
ESPORTE_1997_640-logical.xml
<?xml version="1.0" encoding="UTF-8" ?>
- <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4">
- <struct type="cesDoc" from="0" to="2193">
<feat name="version" value="1.0.4" />
<feat name="id" value="ESPORTE_1997_640" />
<feat name="xmlns:xsi" value="http://www.w3.org/2001/XMLSchema-instance" />
<feat name="xmlns:xlink" value="http://www.w3.org/1999/xlink" />
<feat name="xmlns" value="http://www.xces.org/schema/2003" />
</struct>
<struct type="text" from="0" to="2192" />
<struct type="body" from="1" to="2191" />
- <struct type="div" from="2" to="2190">
<feat name="type" value="materia" />
</struct>
- <struct type="p" from="3" to="219">
<feat name="id" value="p1" />
</struct>
- <struct type="p" from="220" to="413">
<feat name="id" value="p2" />
</struct>
- - <struct type="p" from="1834" to="2119">
<feat name="id" value="p14" />
</struct>
- <struct type="p" from="2120" to="2189">
<feat name="id" value="p15" />
</struct>
</cesAna>
ESPORTE_1997_640-s.xml
(20 sentenas)
<?xml version="1.0" encoding="UTF-8" ?>
- <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4">
- <struct type="s" from="3" to="219">
<feat name="id" value="p1s1" />
</struct>
- <struct type="s" from="220" to="413">
<feat name="id" value="p2s1" />
</struct>
- <struct type="s" from="414" to="538">
<feat name="id" value="p3s1" />
- <struct type="s" from="1834" to="1901">
<feat name="id" value="p14s1" />
</struct>
- <struct type="s" from="1902" to="1971">
<feat name="id" value="p14s2" />
</struct>
- <struct type="s" from="1972" to="2119">
<feat name="id" value="p14s3" />
</struct>
- <struct type="s" from="2120" to="2179">
<feat name="id" value="p15s1" />
O Senter erra
</struct>
- <struct type="s" from="2180" to="2189">
<feat name="id" value="p15s2" />
</struct>
</cesAna>
aqui
ESPORTE_1997_640.xml (merged)
<?xml version="1.0" encoding="UTF-8" ?>
- <cesDoc version="1.0.4" id="ESPORTE_1997_640" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:xlink="http://www.w3.org/1999/xlink" xmlns="http://www.xces.org/schema/2003">
- <text>
- <body>
- <div type="materia">
- <p id="p1">
<s id="p1s1">Membros de torcidas uniformizadas do Corinthians emboscaram na madrugada de ontem o nibus em que a
delegao do clube viajava para So Paulo, aps a derrota por 1 a 0 para o Santos, na Vila Belmiro, pelo Brasileiro.</s>
</p>
- <p id="p2">
<s id="p2s1">No km 45, aps o trecho de serra da rodovia dos Imigrantes (sentido So Paulo), torcedores com camisa da
Gavies atravessaram um nibus em que viajavam na pista, transformando-o numa barricada.</s>
</p>
...
- <p id="p14">
<s id="p14s1">O ataque surge em hora crtica para o Corinthians e para a Gavies.</s>
<s id="p14s2">O time est em 20 lugar no Brasileiro e corre risco de rebaixamento.</s>
<s id="p14s3">J a Gavies, proibida como todas as uniformizadas de frequentar estdios paulistas, negociava com a PM e o
Ministrio Pblico um modo de retornar.</s>
</p>
- <p id="p15">
<s id="p15s1">LEIA mais sobre o ataque ao nibus do Corinthians nas pgs.</s>
<s id="p15s2">4-3 e 4-4</s>
</p>
</div>
</body>
</text>
</cesDoc>
Tipologia do Lcio-Web
Tipologia do LW
3 anotaes estruturais +
3 anotaes lingsticas
Phrases
<struct type=phrase from=t1 to=t2>
<feat name=id value=phr1/>
<feat name=cat value=NP/>
<feat name=function value=subj/>
<feat name=head value=t2/>
</struct>
Tokens are
linked to the
main text
through the
attributes from
and to in the
structures of
type token.
For each token
there is a
corresponding
POS structure.
Phrases are
identified for
group of
tokens.
Fruns
http://www-nlpir.nist.gov/MINDS/FINAL/data.web.pdf
6) Necessidade da criao de
recursos lxicos de grande cobertura
In the quest for improving the portability of
supervised stochastic systems, one underutilized resource is the lexicon.
Many supervised approaches depend heavily
on lexical cues, and balk when given data
with out-of-vocabulary lexical items.
Perguntas
Perguntas
Textos de Suporte
Referncias
McENERY T. & WILSON A. (1996) Corpus linguistics, Edinburgh: Edinburgh
University Press.
BERBER SARDINHA, T. (2004) Lingstica de Corpus. So Paulo: Manole.
GARSIDE, R.; LEECH, G.; MCENERY, A.M. (eds.) (1997). Corpus Annotation.
Longman.
BIBER, D.; S. Conrad; R. Reppen. (1998). Corpus linguistics: Investigating
language structure and use. Cambridge University Press, Cambridge.
ATKINS, S.; CLEAR, J.; OSTLER, N. (1992). Corpus design criteria. Journal of
Literary and Linguistic Computing 7(1).
CHURCH, K. and MERCER, R. (1993) Introduction to the Special Issue on
Computational Linguistics using Large Corpora, Computational Linguistics
Volume 19, Number 1, 1-24.
KILGARIFF, A. and GREFENSTETTE, G. (2003) Introduction to the Special Issue
on the Web as a Corpus, Computational Linguistics Volume 2, Number 3,
333-347
LEECH, G. (1992) "Corpora and theories of linguistic performance", in Svartvik, J.
Directions in Corpus Linguistics, pp 105-22. Berlin: Mouton de Gruyter.
SANTOS, Diana. "Corporizando algumas questes". In Stella E. O. Tagnin & Oto
Arajo Vale (orgs.), Avanos da Lingstica de Corpus no Brasil, Editora
Humanitas/FFLCH/USP, So Paulo, 2008, pp.41-66.