Académique Documents
Professionnel Documents
Culture Documents
RESUMO
O objetivo principal desta pesquisa analisar caractersticas lingusticas quantitativas que
diferenciam teses de doutorado e que podem influenciar no desempenho da etapa de extrao
de sintagmas nominais para a sua indexao automtica. As caractersticas analisadas aqui so
relativas a dimenses de grandeza, comportamento lingustico e estrutura do texto. A estrutura
do texto considerada foi relativa s suas partes estruturais (introduo, desenvolvimento e
concluso). Os termos considerados aqui foram somente sintagmas nominais plenos contidos
nos prprios textos. Os textos considerados foram um total de 98 teses de doutorado de oito
reas de conhecimento de uma mesma universidade. Todos os textos apresentaram
comportamentos caractersticos quando estavam relacionados s cincias naturais ou s
cincias sociais. Aqueles relativos s cincias naturais apresentaram menor grandeza,
favorecendo assim um melhor desempenho para processadores de indexao automtica. J o
comportamento lingustico constatado como mais prximo da linguagem natural, presente
sobretudo nas cincias sociais, contribui para o melhor desempenho na indexao automtica
por gerar menor quantidade de erros de extrao de sintagmas nominais. Os textos relativos
aos programas de Engenharia Metalrgica e de Cincia da Informao apresentaram as
menores estruturas de introduo e concluso, fatores que auxiliam no desempenho de
processos de indexao automtica.
Palavras-chave: lingustica computacional; processamento de linguagem natural; indexao
automtica; indexao automtica por extrao; sintagmas nominais; estrutura de texto.
1. INTRODUO
Algoritmos cada vez mais otimizados e processadores cada vez mais rpidos esto
permitindo que as pesquisas com indexadores automticos possam utilizar estruturas
lingusticas cada vez mais complexas: uma delas o sintagma nominal. Tal estrutura, que
possui maior valor semntico que a palavra isolada (PERINI et al., 1996), foi usada para a
lngua portuguesa por Kuramoto (1999) em sua tese de doutorado. A partir desses estudos,
Souza (2005) props uma metodologia de escolha automtica de sintagmas nominais como
descritores relevantes no processo de indexao automtica. A metodologia de Souza foi
utilizada por Maia (2008) para o desenvolvimento de uma ferramenta1 que, dentre outras
funcionalidades, extrai tais sintagmas nominais de forma automtica.
A utilizao do sintagma nominal responsvel por uma significativa evoluo nos
sistemas usados para a indexao automtica atualmente, no entanto a grande maioria desses
sistemas baseada na lngua inglesa. A lngua portuguesa possui substanciais diferenas em
relao ao ingls, o que coloca obstculos para que tais ferramentas sejam facilmente
adaptadas para nossa lngua. Logo, faz-se necessria a criao de conhecimento, no apenas
sobre, mas para a lngua portuguesa para o uso de tais ferramentas.
O uso dos sintagmas nominais em um texto em portugus pode permitir chegar a
mtodos de escolha automtica de descritores que sejam mais relevantes do que simplesmente
o uso de palavras isoladas. Tais mtodos tm em comum a extrao desses sintagmas
nominais como etapa anterior escolha dos mesmos como descritores. Os resultados dessas
extraes permitem caracterizar de antemo seus respectivos textos em relao a dimenses
de grandeza, diversidade do uso da lngua e estilos de estrutura, por exemplo, que influenciam
no desempenho desse processo de extrao.
Considerando-se a indexao automtica de extensas bases digitais de documentos,
torna-se relevante analisar as caractersticas de seus textos que podem influenciar no
desempenho dessa etapa de extrao que consome significante parcela do custo
computacional de todo o processo de indexao automtica de um conjunto de documentos.
Visando contribuir para minimizar esse custo computacional, o objetivo desta pesquisa
analisar caractersticas lingusticas quantitativas que diferenciam as teses de doutorado que
podem influenciar no desempenho da etapa de extrao de sintagmas nominais para a sua
indexao automtica. As caractersticas analisadas aqui so relativas a dimenses de
grandeza, comportamento lingustico e estrutura do texto. Os termos considerados aqui so
somente sintagmas nominais contidos nos prprios textos. Os textos considerados aqui so
teses de doutorado das oito reas de conhecimento de uma mesma universidade.
2. CONCEITOS GERAIS E REVISO DA LITERATURA
A ferramenta de Maia (2008) se chama Ogma. Existem vrias ferramentas de processamento de linguagem
natural para a lngua portuguesa, dentre elas pode-se destacar o Palavras (BICK, 2000), que fruto de uma tese
de doutorado para a anlise automtica gramatical da lngua portuguesa.
usada como peso para determinar a sua relevncia como seu descritor. Um problema que as
expresses referenciais geram para a indexao automtica seria o fato de ocultar a real
frequncia de um assunto, pelo fato da expresso referencial possibilitar que termos distintos
sejam usados para o mesmo assunto.
Sintagma nominal (noun phrase, NP) SN definido como a nica unidade
sinttica capaz de funcionar como sujeito ou objeto nas oraes da lngua portuguesa, sendo
normalmente construdo com base em um substantivo. Uma forma de verificar se uma
expresso um SN consiste em tentar inseri-lo na seguinte moldura: ______ sou / / somos /
so / bom / boa / bons / boas (TRASK, 2004, p. 270).
Abaixo, temos um exemplo de sintagma nominal. possvel observar que existe a
estrutura chamada de sintagma nominal aninhado. Na Figura 1 a seguir o termo todos os
livros possui tal estrutura, pois ele composto por outro sintagma nominal (os livros)
aninhado dentro dele.
Figura 1 - Exemplo de estrutura de um sintagma nominal.
rvore sintagmtica
F frase
SN sintagma nominal
SV sintagma verbal
Det determinante
N nome
V verbo
Q - quantificador
3. METODOLOGIA
Em virtude da necessidade de um corpus com textos mais longos, buscou-se por teses
de doutorado, como textos mais longos e acessveis digitalmente. O portal de peridicos da
CAPES possui 64 bases de teses e dissertaes, sendo que 58 delas so brasileiras. Dessas
bases, foi escolhida a Biblioteca Digital da UFMG.
Para uma tese, que possui aproximadamente entre cem e quatrocentas pginas
relacionadas a uma rea de estudos (ECO, 2007, p. 27), acredita-se aqui que essa ordem de
grandeza textual pode favorecer o estudo da extrao dos sintagmas nominais como
descritores. Essa hiptese baseada nos seguintes aspectos: as repeties de um mesmo
sintagma nominal tendem a aumentar conforme o crescimento da quantidade de palavras em
um texto que trata de uma mesma rea; com uma quantidade maior de repeties de um
mesmo sintagma, pode-se avaliar com mais detalhes as caractersticas de cada texto.
A escolha aqui de teses como elementos de pesquisa implica em maior custo
computacional de processamento da extrao dos sintagmas nominais, em comparao a
artigos, uma vez que estes ltimos, geralmente, possuem um tamanho da ordem de dez vezes
menor (MESQUITA, 2012). No entanto, com o desempenho dos recursos computacionais
atuais em relao aos mais antigos2 usados em outras pesquisas, que se basearam em artigos,
o processamento de teses mostrou-se vivel (cerca de 12 horas para 98 teses), como pode ser
visto adiante na anlise de resultados.
2
Souza (2005) utilizou um computador com processador AMD Athlon XP 2600+ com 256MB de memria
RAM. O utilizado aqui possui processador Intel Core i5-2430M 2,4GHz com 4GB de RAM.
O PDF um padro aberto de arquivo (Portable Document Format) desenvolvido pela Adobe Systems.
Para cada texto, foram obtidos seus sintagmas nominais e apresentados, um em cada
linha, em um novo texto. Considerou-se aqui cada sintagma nominal mximo,
desconsiderando-se os sintagmas nominais aninhados, ou seja, aqueles que so sintagmas
nominais, porm fazem parte de um sintagma nominal maior (mximo). Essa escolha deve-se
ao fato de a ferramenta Ogma fornecer a listagem sequencial de sintagmas somente nesse
formato.
A ferramenta Ogma 0.105 e o software Microsoft Office Word 2007 foram utilizados
para a extrao dos sintagmas nominais atravs dos seguintes procedimentos:
1. Etiquetagem: a partir de cada texto pr-processado com o nome no formato
ann.txt foi gerado um novo arquivo. Esse arquivo utilizado como uma etapa
intermediria para a extrao dos sintagmas nominais. Nela realizada a
etiquetagem do texto no modelo ED-CER (MAIA, 2008). Usou-se a seguinte
sintaxe de comando para este procedimento:
ogma e ann.txt ann-e.txt (pode-se observar que o nome do arquivo
etiquetado gerado o mesmo do original acrescido de -e.
Exemplo: ogma e a01.txt a01-e.txt).
2. Extrao dos sintagmas nominais: a partir de cada texto etiquetado com o
nome no formato ann-e.txt foi gerado um novo arquivo. Esse arquivo o
resultado da extrao dos sintagmas nominais do texto com base nas regras
definidas por Maia (2008). Usou-se a seguinte sintaxe de comando para este
procedimento:
ogma s ann-e.txt ann-s.txt (pode-se observar que o nome do
arquivo gerado com a sequncia de sintagmas nominais extrados
o mesmo do original acrescido de -s. Exemplo: ogma s a01e.txt a01-s.txt).
4
Os textos contidos em formatos digitais no textuais, tais como em imagens ou figuras, tambm foram
descartados.
5
O criador da ferramenta Ogma disponibilizou gentilmente uma nova verso, a 0.10 (sendo a anterior a 0.9),
para que a mesma atendesse s necessidades dos recursos usados nesta pesquisa.
98
100%
Para alguns programas, algumas teses dentro do perodo no foram analisadas por no estarem disponveis
integralmente na BDTD/UFMG.
10
2,3
2,5
Pelo perodo mdio de todas as teses de uma mesma seo do corpus ser de 2,3 anos,
considera-se que as descries lingusticas feitas aqui so sincrnicas, ou seja, foi
considerado que todas as teses fizeram parte de um mesmo momento histrico social dos
respectivos programas de ps-graduao.
11
Total
Total
(%)
03:32
00:53
02:14
00:36
00:58
00:25
00:50 00:24
09:52
83,15%
00:30
00:13
00:25
00:14
00:09
00:11
00:13 00:05
02:00
16,85%
04:02
01:06
02:39
00:50
01:07
00:36
01:03 00:29
11:52 100,00%
24
16
13
12
10
98
00:10
00:04
00:12
00:04
00:06
00:04
00:07 00:04
00:07
00:42
00:19
01:39
00:33
00:51
00:31
01:05 00:36
00:43
12
210
automtica
153.386
730
CORRA e
outros (2011)
30
resumos de teses e
dissertaes
automtica
951
32
Esta pesquisa
98
teses
automtica
995.691
10.160
Para Santos (1996) todo conhecimento cientfico-natural cientfico-social, sendo que esta ltima preferiu a
compreenso do mundo manipulao do mundo (ibidem, p. 71).
13
105.499
12.269
1.631
91.599
13,2%
232.788
18.267
6.775
207.746
10,8%
92.151
11.330
1.261
79.560
13,7%
E - Qumica
83.635
13.020
1.186
69.429
17,0%
F - Bioqumica e Imunologia
54.532
5.140
956
48.436
11,2%
109.712
10.884
2.197
96.631
11,9%
64.815
5.671
1.430
57.714
11,0%
1.130.957
111.058
24.208
995.691
12,0%
G - Cincia da Informao
H - Medicina (Pediatria)
Total
Uma anlise manual em cada um dos sintagmas nominais extrados, como realizada
por Corra et al. (2011), provavelmente chegaria a uma taxa de erros de extrao superior aos
12,0% encontrados aqui. No entanto, dada a dimenso dessa anlise para a quantidade
aproximada de 1,1 milhes de sintagmas nominais extrados, mesmo que feita de forma
14
estatisticamente amostral, e baixa relevncia para os objetivos fins desta pesquisa, tal taxa
ficou limitada aos dados obtidos de forma automtica.
A seo do corpus que apresentou maior taxa de erros foi a correspondente ao
programa de ps-graduao em Qumica, que possui como caracterstica de seu sistema
lingustico o uso de frmulas qumicas. No entanto, os fatores que influenciaram a sua
elevada taxa de erros aqui foram: a elevada presena de nmeros (que foram descartados
como stopwords residuais) e o recorrente uso de expresses em ingls. Tais fatores foram
constatados por uma explorao de leitura pelos autores nos resultados das extraes feitas
pelo Ogma.
A seo do corpus que apresentou menor taxa de erros foi a correspondente ao
programa de ps-graduao em Letras Estudos Literrios, que podemos considerar o mais
metalingustico dentre os outros programas. Ou seja, aquele que usa a prpria lngua como
objeto de seu discurso (DUBOIS et al, 1973, p. 471), fazendo assim um distanciamento maior
de outros sistemas lingusticos mais especialistas, como o lgico-matemtico, que so mais
passveis de incorrerem em erros de extrao em processadores de linguagem natural, que
usam como base um dicionrio geral da lngua, como o Ogma.
Para o objetivo principal desta pesquisa de caracterizao de teses de doutorado, foi
considerada para cada sintagma nominal extrado a sua posio estrutural correspondente s
partes de introduo, desenvolvimento e concluso. Dentre essas, a de desenvolvimento
conteve 82,7% dos sintagmas nominais, enquanto as outras duas dividiram o restante em
10,1% para a introduo e 7,2% para a concluso, como pode ser visto no Grfico 3 a seguir:
Grfico 3 - Distribuio de sintagmas nominais por partes da tese.
15
Seo do corpus
A - Educao: Conhecimento e Incluso Social
B - Cincia Animal
C - Letras: Estudos Literrios
D - Engenharia Metalrgica e de Minas
E - Qumica
F - Bioqumica e Imunologia
G - Cincia da Informao
H - Medicina (Pediatria)
Total
16
Embora aqui haja a possibilidade de um sintagma nominal ter tamanho arbitrrio, considerado aqui que em
um sistema lingustico haja um mximo empregado dentre a totalidade de comportamentos lingusticos de seus
indivduos.
10
IUPAC - International Union of Pure and Applied Chemistry. Compendium of Chemical Terminology. Gold
Book. Disponvel em: <http://goldbook.iupac.org/PDF/goldbook.pdf>.
17
5. CONCLUSES
11
A lei do lingusta Zipf nasceu em conjunto com o princpio do menor esforo, postulando que o caminho mais
natural por onde haja menos resistncia, e foi publicado em ZIPF, G.K. Human Behavior and the Principle of
Least Effort. Cambridge, Massachusetts: Addison-Wesley. 1949.
18
19
REFERNCIAS
BABBIE, E. Mtodos de pesquisa de survey. Belo Horizonte: UFMG, 1999.
BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. New York: ACM
Press, 1999. 511p.
BAEZA-YATES, R.; RIBEIRO-NETO, B.. Modern Information Retrieval: the concepts and
technology behind search. 2. Ed. London: Pearson Education Limited, 2011. 913 p.
BDTD/UFMG - BIBLIOTECA DIGITAL DA UFMG. Disponvel em: <
http://www.bibliotecadigital.ufmg.br/dspace/browse-date>. Acesso em novembro de 2011.
BICK, E. The Parsing System Palavras: Automatic Grammatical Analysis of Portuguese in a
Constraint Grammar Famework. Aarhus: Aarhus University Press, 2000.
BORKO, Harold. Toward a theory of indexing. Information Processing and Management, v.
13, p. 355-365, 1977.
BORKO, H.; BERNIER, C. Indexing concepts and methods. New York: Academic Press.
1978.
DIAS, Eduardo Wense; NAVES, Madalena Martins Lopes. Anlise de assunto: teoria e
prtica. Braslia: Thesaurus, 2007. 116p.
20
DUBOIS, J.; GIACOMO, M.; GUESPIN, L.; MARCELLESI, C.; MARCELLESSI, J.;
MEVEL, J.. Dicionrio de lingstica. So Paulo: Cultrix, 1973. 657p.
ECO, U. Como se faz uma tese em cincias humanas. 13 Ed. Lisboa - Presena. 2007. 238 p.
KURAMOTO, H. Proposition d'un Systme de Recherche d'Information Assiste par
Ordinateur Avec application la langue portugaise. 1999. Tese (Doutorado em Cincias da
Informao e da Comunicao) Universit Lumire - Lyon 2, Paris, Frana
KURAMOTO, H. Uma abordagem alternativa para o tratamento e a recuperao de
informao textual : os sintagmas nominais. Revista Cincia da Informao, v.25, n. 2, 1996.
LEVINE, D. M.;BERENSON, M. L.; STEPHAN, David. Estatstica: Teoria e Aplicaes
usando Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
LYONS, J. Linguagem e Lingstica: uma introduo. Rio de Janeiro. LTC - Livros Tecnicos
e Cientificos, 1987. 322 p.
MAIA, L. C. G Uso de sintagmas nominais na classificao automtica de documentos. Tese
de Doutorado. Orientador Prof. Dr. Renato Rocha Souza. UFMG, ECI, 2008.
MESQUITA, L. A. L. SINTAGMAS NOMINAIS NA INDEXAO AUTOMTICA: uma
anlise estrutural da distribuio de termos relevantes em teses de doutorado da UFMG.
Dissertao de Mestrado. Orientador Prof. Dr. Renato Rocha Souza. UFMG, ECI, 2012.
OTHERO, G. A. A gramtica da frase em portugus: algumas reflexes para a formalizao
da estrutura frasal em portugus. Dados eletrnicos. Porto Alegre. EDIPUCRS, 2009. 160 p.
PERINI, M. A. et al. O SN em portugus: a hiptese mrfica. Revista de Estudos de
Linguagem - UFMG, Belo Horizonte, Julho / Dezembro 1996. p. 43-56.
SANTOS, B. de S.. Um discurso sobre as cincias. Porto: Afrontamento, 1996.
SOUZA, R. R. Uma proposta de metodologia para escolha automtica de descritores
utilizando sintagmas nominais. Tese de Doutorado. Orientadora Prof. Dr. Lidia Alvarenga.
UFMG, ECI, 2005.
TRASK, R. L. Dicionrio de Linguagem e Lingstica. Traduo e adaptao de Rodolfo
Ilari. Reviso Tcnica de Ingedore Villaa Koch e Thas Cristfaro Silva. So Paulo:
Contexto. 2004. 364 p. ISBN 85-7244-254-5.