Forleg

Uma proposta de modelo de representao do conhecimento contido no texto de
artigos cientficos publicados na web em formato legvel por programas [*]

A proposed knowledge representation model to the knowledge embedded in the text of
scientifc articles web published in program readable format
por Carlos H. Marcondes, Marlia A. R. Mendona e Luciana R. Malheiros
Resumo: So reportados resultados de pesquisa com o objetivo de propor um modelo

de publicao eletrnica de artigos cientficos como texto, legvel por pessoas, e
simultaneamente, em formato legvel por programas. Este conhecimento identificado
com os elementos de metodologia cientfica do artigo, em especial com a hiptese,
como o elemento que estabelece novas relaes entre fenmenos. No modelo proposto
a estrutura de conhecimento contido em artigos cientficos explicitada e registrado
em XML. O conhecimento registrado desta forma viabiliza seu processamento por
programas inteligentes. Embora publicados na Web peridicos eletrnicos so ainda
calcados no modelo de publicaes em papel e no utilizam todo o potencial do meio
eletrnico. O modelo proposto pretende ampliar estas potencialidades, viabilizando
recuperao semntica e validao dos novos conhecimentos reportados pelos artigos.
A pesquisa analisa um conjunto de artigos de peridicos cientficos eletrnicos com o
objetivo de validar o modelo, verificando em que medida os artigos se enquadram nele.
Palavras-chave: Publicaes eletrnicas; Metodolgica cientfica; Comunicao

cientfica; Representao do conhecimento; Ontologias.
Abstract: This article reports results of a research with the aim of investigate the
possibilities of electronic publishing journal articles both as text for human reading and
in machine readable format recording the new knowledge contained in the article. This
knowledge is identified with the scientific methodology elements such as problem,
methodology, hypotheses, results, and conclusions. A model integrating all those
elements is proposed which makes explicit and records in XML the article contribution,
new knowledge and scientific novelty. The use of XML language to represent this
knowledge enables its processing by intelligent software agents Despite the fact that
electronic publishing is a common activity to scholars electronic journals are still based
in the print model and do not take full advantage of the facilities offered by the Web
environment. The proposed model aims to extend these facilities enabling semantic
retrieval and validation of the knowledge contained in articles. The research analyses a
set of electronic journal articles with the aim of validate the model, verifying their
compliance with the model.
Keywords: Electronic publishing; Scientific methodology; Scientific communication;
Knowledge representation; Ontologies.
1. Introduo
Publicaes cientficas na Web se tornaram uma realidade. A maior parte dos
peridicos tm hoje verses eletrnicas. Artigos cientficos so o grande veiculo
atravs do qual so disseminados os novos conhecimentos. Hoje existem dois
obstculos para o acesso e utilizao em larga escala deste conhecimento: o grande
nmero de publicaes, a chamada "exploso informacional", fenmeno fundador da
Cincia da Informao, que atinge mais alto grau com o surgimento da Web e das
publicaes eletrnicas; e o fato desse conhecimento estar inserido no texto dos
artigos de forma no estruturada, legvel somente por pessoas.
De Roure (2001), ao propor uma anteviso do futuro ambiente de trabalho do cientista,
chamado de E-Science, comenta, ao se referir ao componente de conhecimento deste
ambiente:
"knowledge acquisition set the challenge of getting hold of the information that is
around, and turning it into knowledge by making it usable. This might involve for
instance, making tacit knowledge explicit, identifying gaps in the knowledge already
held, acquiring and integrating knowledge from multiple sources (e.g. different experts,
or distributed sources on the web), or acquiring knowledge from unstructured media
(e.g. natural language or diagrams" (DE ROURE, 2001, p. 56.)
"Examples are the integration of authoring and reviewing processes in on-line
documents. Such environments allow structured discussions of the evolution and
development of an idea, paper or concept. The structured discussion is another
annotation that can be held in perpetuity. This means that the reason for a position in a
paper or design choice is linked to the object of discussion itself" (DE ROURE, 2001, p.
59.)
A Comunicao Cientfica (MEADOWS, 1999) tem sido o mecanismo atravs do qual

novos conhecimentos so incorporados a uma rea de conhecimento, garantindo assim
o chamado "conhecimento pblico" (ZIMAN, 1979). Mesmo hoje, utilizando as
facilidades da tecnologia da informao para prover acesso ao texto completo de
artigos, a Comunicao Cientfica depende de um longo e demorado processo social,
onde textos cientficos, aps publicados, so lidos por pesquisadores, avaliados,
criticados e citados, passando pelos chamados filtros de qualidade, at que o novo
conhecimento possa enfim ser incorporado ao corpo da Cincia.
Apesar de desenvolvimentos importantes na Anlise Documentria (SMIT, 1987), seu
objetivo continua sendo o de prover acesso. Existe uma diviso implcita de trabalho:
cabe Anlise de Documentria indexar para prover acesso, enquanto, ao usurio, um
pesquisador/leitor, cabe o processamento do contedo do texto em termos de sua
validade, coerncia e confiabilidade para a Cincia.
O repositrio deste novo conhecimento o artigo cientfico. Apesar de todas as
possibilidades de publicao no ambiente Web, peridicos eletrnicos so, ainda hoje,
calcadas no modelo impresso, no aproveitando as potencialidades do ambiente Web.
Miranda e Simeo (2002) em pesquisa sobre peridicos eletrnicos, destacam o pouco
uso de caractersticas tpicas do ambiente Web como interatividade, hipertextualidade,
multimediao nos sites de acesso de distribuidores internacionais de peridicos
eletrnicos como Elsevier, Gal, Ovid, Springer, ProQuest, SciELO, etc..
Desde o advento do computador pesquisas tem sido desenvolvidas no sentido de
utiliza-lo como extenso das capacidades cognitivas humanas (LVY, 1993). A
passagem de documentos em papel para documentos digitais, constitui-se numa
mudana de qualidade, cujas conseqncias ainda no esto totalmente claras. O
documento digital tem a possibilidade de se constituir numa nova e poderosa
ferramenta cognitiva, em especial no contexto do projeto Web Semntica (BERNERS-
LEE, 2001).
A Cincia da Informao pode avanar mais que simplesmente facilitar o acesso a
textos cientficos? Artigos cientficos tm como objetivo serem portadores de
conhecimento novo. Qual a forma desse conhecimento? Como identifica-lo nos textos
de artigos cientficos? Como extra-lo e formaliza-lo? Como agenciar programas para
ajudar a processar este conhecimento? Estas questes constituem nossa agenda de
pesquisa.
Como discutido na Filosofia, conhecimento consiste em estabelecer relaes entre
fenmenos da realidade. Os manuais de metodologia cientfica estabelecem (MATTAR
NETO, 2002), (ALVES-MAZOTTI, 2002), (MARCONI & LAKATOS, 2004) que, entre os
elementos de metodologia cientfica, em especial a hiptese aquele que encerra uma
relao.
Tambm na rea de Cincia da Computao (SOWA, 2000) uma base de conhecimento
formada por fatos e por regras de produo. Estas consistem em relaes entre fatos
ou fenmenos, representada sob a forma de clusulas em lgica de primeira ordem, do
tipo Se (fato ou fenmeno) ento (fato ou fenmeno). Enquanto para a Cincia da
Informao (BARRETO, 1999), conhecimento um processo ocorrendo na mente de
pessoas, a Cincia da Computao se preocupa com o aspecto representacional do
conhecimento para que ele possa ser processado por programas; nessa acepo que
representao do conhecimento utilizado nesta pesquisa.
A partir destas colocaes, pode-se conjecturar se o artigo cientfico publicado na Web,
que construdo e estruturado dentro de um formalismo estrito, especialmente nas
Cincias da Sade, no poderia evoluir no sentido de se constituir num objeto digital
que inclusse, alm de suas partes textuais, o conhecimento novo representado em
meio legvel por computador? Seria possvel, atravs um editor de textos cientficos,
como subproduto do processo de editar/publicar eletronicamente um artigo, extrair
tambm esse conhecimento e represent-lo em formato legvel por programas, em
linguagem XML[1]? Carr (2004) afirma que "in order to allow documents to
unambiguously interpreted by both human readers and software agents, knowledge
should be an explicit part of document representation". Assim tornar-se-ia possvel
agenciar programas agentes de "software"[2] para apoiar pesquisadores em tarefas
como validar esse conhecimento, coteja-lo com o conhecimento j existente, relaciona-
lo com ontologias disponveis na Web, em especial na rea de Cincias da Sade, como
UMLS - Unified Medical Language System,
<http://www.nlm.nih.gov/pubs/factsheet/umls.html>, verificar sua coerncia, seu grau
de "novidade" ou sua contribuio para determinada rea do conhecimento, cotej-lo e
recupera-lo semanticamente.
Esta pesquisa parte portanto das seguintes hipteses:
* o conhecimento cientfico consiste em estabelecer (novas) relaes entre fenmenos;

* artigos cientficos possuem, alm da estrutura textual, chamada aqui de "estrutura
superficial", uma "estrutura profunda" ou "estrutura de conhecimento", que pode ser
extrada do texto e representada em formato legvel por programas.
Para viabilizar e fornecer subsdios para a construo deste editor de textos cientficos,
que concretize esta proposta, deve ser desenvolvido um modelo do conhecimento
contido no texto de artigos. Propor e discutir tal modelo o objetivo desse trabalho. Um
modelo inicial proposto em Marcondes (2005a, b e c). Esta pesquisa analisa artigos
de peridicos eletrnicos da rea de Cincias da Sade a partir desse modelo, para
valid-lo e aperfeio-lo.
A seguir as bases conceituais que embasaram o modelo proposto so apresentadas e
discutidas; a seguir o modelo exposto e discutido; finalmente, so apresentadas
algumas concluses e levantadas novas questes suscitadas pela pesquisa.
2. Bases conceituais e tericas

2.1 Conhecimento como relao
Em que consiste o conhecimento? Essa uma discusso que vem assumindo uma
centralidade cada na Cincia da Informao, tanto quanto em outras reas do
conhecimento. Quais as possibilidades e quais as formas de termos acesso a ele?
Existe um conhecimento pblico, intersubjetivo, ou, ao contrrio, o conhecimento um
processo individual? Estas so perguntas que h muito tempo a Filosofia vem se
fazendo. A trajetria histrica da Filosofia, desde os gregos, segundo Michel Dummett,
citado por Marcondes (2004, p. 9), abrange o enfoque a trs questes: a questo
ontolgica - o ser, seus componentes fundamentais, seus estados, com os pr-
socrticos; a questo do conhecimento - suas condies e possibilidades - desde o
estabelecimento do mtodo cientfico com Descartes, Bacon e Galileu, passando pelos
empiristas com Locke, Berkley e Hume, at a sntese formulada por Kant; evoluindo
mais recentemente, a partir de fins do sculo XIX e incio do sculo XX, quando a
humanidade passa pelo impacto crescente da Cincia, para a questo da linguagem
como viabilizadora do conhecimento - a Filosofia da Linguagem. Mas a preocupao
com a correo da linguagem que levaria ao conhecimento cientfico j uma
preocupao da Cincia, antes da Filosofia da Linguagem, com o Discurso do Mtodo,
de Descartes (2005) e com o Novo Organum, de Bacon (1973). Esta preocupao se
consubstanciou, ao longo da evoluo da Cincia desde o sculo XVI, no chamado
Mtodo Cientfico.
"As cincias utilizam da razo (ou pensamento) para estudar seus objetos. O
pensamento pode ser definido como a capacidade de estabelecer relaes por meio do
processo de unir ou separar conceitos e objetos: a realidade composta de complexos,
e esses complexos tem ligaes com algumas coisas e no com outras. Pensar
justamente o processo de descobrir ou realizar associaes e disjunes, ou seja, de
traar relacionamentos. Como o significado de um complexo encontra-se nos
relacionamentos que ele estabelece com outros complexos, cada relacionamento
descoberto ou inventado um significado, e grandes ordens de sistemas de
relacionamentos constituem grandes corpos de significados." (Mattar Neto, 2002, p.
33).
Textos cientficos, em especial, os artigos cientficos, tm como objetivo serem

portadores de conhecimento novo. Como desde h muito discutido na Filosofia, desde
Aristteles, passando por Kant - para quem que a Relao um dos seus quatro
conceitos puros do entendimento ou categorias, (KANT, 2001, p. 70) -, at moderna
Lgica Formal conhecimento consiste em estabelecer relaes entre fenmenos da
realidade. Como os manuais de metodologia cientfica estabelecem, entre os
elementos de metodologia cientfica, em especial a hiptese o componente que
encerra uma relao. Em Cincia, o grau certeza desta relao vai diferenciar uma
hiptese, que tem ainda um carter conjectural, de uma lei.
"A hiptese poder ser simbolizada de duas formas: "Se x, ento y, sob as condies r
e s", ou "Se x1, x2 e x3, ento y" (MARCONI & LAKATOS, 2004, p.141), ou seja, dada
certa condio X segue-se como conseqncia Y. Ou ento: "As leis cientficas so
enunciados gerais que indicam relaes entre dois ou mais fatores"... "em todos os
casos em que se realizam as condies A, sero realizadas as condies B" (Alves-
Mazotti, 2002, p. 11).
Popper (2004, p. 27) afirma que "Um cientista, seja terico ou experimental, formula
enunciados ou sistemas de enunciados e verifica-os um a um. No campo das cincias
empricas, ele formula hipteses ou sistemas de teorias, e submete-os a teste,
confrontando-os com a experincia". Tanto um enunciado enquanto relao entre
conceitos, quanto sistema, trazem implcita a idia de relao.
Outro estudioso da forma dos enunciados cientficos foi Karl Hempel. Hempel afirma
que a Cincia, alm de relacionar fenmenos, busca explic-los, relacionando
fenmenos com sua explicao. Segundo este autor "a scientific explanation consist of
two major "constituints": an explanandum, a sentence "describing the phenomenon to
be explained" and an explanans, "the class of those sentences which are adduced to
account for the phenomenon" (HEMPEL, 1965, p.247).
Neste sentido, as hipteses, enquanto propostas de relaes entre fenmenos, tm
importncia decisiva enquanto manifestao do conhecimento novo em Cincia.
Marconi e Lakatos (2004, p. 141) expressam assim este fato: "podemos considerar a
hiptese como um enunciado geral de relaes entre variveis (fatos,fenmenos)". A
manifestao concreta deste novo conhecimento, nos marcos institucionais da Cincia,
o artigo cientfico, especificamente, seu texto. em torno da hiptese que se orienta
e se organiza toda a pesquisa cientfica, e, conforme sugerido aqui, em torno dela que
se organiza toda a argumentao no texto de um artigo cientfico:
"no possvel dar qualquer passo adiante, em uma pesquisa, se, depois de enunciar a
dificuldade (problema) que originou a pesquisa, no iniciarmos com uma explicao
para ela - enquanto uma hiptese -, pois a funo da hiptese orientar nossa busca
de ordem entre os fatos" (MARCONI & LAKATOS, 2004, p.143).
Todo artigo ou prope enquanto um problema, ou desenvolve e quantifica de forma
original, ou re-contextualiza uma hiptese j estabelecida por outro autor. Sob alguma
destas formas, uma hiptese (ou relao entre fenmenos) deve aparecer
implicitamente no texto de artigos cientficos.
2.2 A Cincia da Informao e a anlise de textos de artigos cientficos
A Cincia da Informao tem uma dvida muito forte com a Filosofia da Linguagem.
Este movimento filosfico iniciado em fins do sculo XIX e incio do sculo XX, estudava
a linguagem como forma de acesso ao conhecimento, da a sua nfase em aperfeioar
a linguagem como instrumento de acesso ao conhecimento, sua estrutura lgica
(Frege, Carnap Wittgestein, Russel, Hempel).
A Cincia da Informao herda da Filosofia da Linguagem a sua nfase na anlise do
texto escrito como da manifestao lingstica capaz de conter ou veicular o
conhecimento.
Se textos de artigos cientficos podem conter conhecimento, o movimento da Cincia
da Informao prover acesso aos mesmos. A Cincia da Informao tem como um
dos problemas sobre o qual se debrua desde os seus primrdios, a questo de
otimizar a Comunicao Cientfica.
No entanto o processo de anlise/representao temtica empreendida pela Cincia da
Informao visa somente sua recuperao em sistemas automatizados e
identificao superficial de seu contedo, mais especificamente sobre o qu o texto,
seu "aboutness"[3]; este "sobre o qu" expresso nas linguagens de representao
temtica por descritores que no mantm nenhuma relao semntica entre si. O
trabalho de identificar o conhecimento contido no texto, as relaes entre fenmenos,
sua validade, sua coerncia, sua contribuio para a Cincia, fica a cargo do leitor, o
cientista, para quem todos os esforos dos sistemas de informao bibliogrficos tm
sido, no mximo, prover acesso.
Na literatura brasileira de Cincia da Informao tambm surgem trabalhos
importantes de anlise de textos para fins de documentao. Estes trabalhos, entre os
quais os mais significativos so a produo do Grupo Temma, (SMIT, 1987) formado por
pesquisadores da USP, incorpora anlise documentria o aporte da Semiologia e da
Lingstica Estrutural de Saussure e Fillmore. Mais especificamente, o trabalho de
Kobashi (1996), incorpora anlise documentria os aportes de Gardin (2001), sobre o
raciocnio lgico contido em textos cientficos e de Van Dijk (KINTSH, 1978), sobre
macro-estruturas textuais. No entanto o objetivo da anlise documentria de textos
ainda sua indexao, elaborao de resumos, com vistas a sua recuperao.
No que diz respeito ao texto de artigos cientficos, pesquisas na rea de Cincia da
Informao logo perceberam que a estrutura altamente formalizada de artigos
cientficos poderia ser relacionada com seu contedo e, no mnimo, otimizar o acesso a
este, num ambiente de sistemas automatizados de recuperao de informaes. Os
trabalhos de Kando (1997, 1999), por exemplo, prope uma discriminao bastante
profunda e exaustiva da estrutura tradicional do texto de um artigo cientfico -
Introduo, Material e Mtodos, Discusso e Concluses - (chamada de primeiro nvel)
em mais dois nveis de detalhe, onde os componentes de um artigo cientfico, seus
dados, a argumentao do autor, etc. so identificados. O autor utiliza esta diviso da
estrutura do texto de artigos e a marcao destes elementos para otimizar a
recuperao mais precisa do contedo dos artigos.
Nestes trabalhos, como nos de Kando, a estrutura dos textos de artigos cientficos
altamente analisada, decomposta em seus componentes, para que o "aboutness" do
texto possa ser extrado pelo documentalista com mais preciso, servir para melhor
indexar o texto com vistas a sua recuperao; a identificao do conhecimento contido
no texto do artigo, sua avaliao e integrao ao "corpus" de conhecimento de uma
determinada rea, todas estas operaes ficam a cargo do leitor. Estes trabalhos no
ultrapassam a proposta histrica da Cincia da Informao, de prover acesso a
documentos para pesquisadores.
2.3 A Cincia da Informao e a Cincia da Computao
histrica a aliana entre a Cincia da Informao e a Cincia da Computao para o
tratamento e recuperao de informaes utilizando o computador. Desde os trabalhos
pioneiros de Luhn (1968) ainda na dcada de 50 com os ndices KWIC, passando por de
Salton (1983) com a experincia do sistema SMART e com a indexao vetorial, que
vrios pesquisadores de ambas as reas tm se engajado em pesquisas sobre
recuperao de informaes.
Na rea de Inteligncia Artificial e Sistemas Especialistas uma base de conhecimento
formada por fatos e pelas chamadas "regras de produo". Estas no so mais que
relaes entre fatos ou fenmenos, na forma de clusulas binrias Se (fato ou
fenmeno) ento (fato ou fenmeno). Esforo significativo de pesquisa na rea de
Sistemas Especialistas consiste em formalizar o processo de aquisio de
conhecimento, que consiste em formalizar o conhecimento de um especialista humano,
representando-o por exemplo sob a forma de regras de produo. A Cincia da
Computao se preocupa com o aspecto representacional do conhecimento, de modo a
tornar vivel seu processamento por programas.
Vrias outras pesquisa, na rea de Cincia da Computao, avanam diferentes
propostas na linha de extrao de texto ("text extraction") para visando categorizao
automtica de documentos (LANGER, 2004) e criao automtica de resumos (PAICE,
1993), (TEUFFEL, 1998). No entanto, devido s limitaes dos modelos de anlise de
linguagem natural, a opo de extrao de textos, mais pragmtica embora mais
limitada, pois no chega a se constituir em processamento de linguagem natural, tem
se mostrado resultados prticos interessantes. No entanto, esta alternativa para o
problema proposto no leva em conta nem as possibilidade oferecidas por um modelo
da estrutura de conhecimento contida nos textos de artigos cientficos nem as
oferecidas pela interao com o autor/pesquisador num ambiente de autoria
inteligente, para guiar o processamento e extrair o conhecimento de textos no
momento da sua produo/edio/publicao em ambiente Web.
Se atravs de um ambiente de autoria, um editor de textos cientficos, for possvel,
como subproduto do processo de editar/publicar eletronicamente um artigo, capturar
tambm a relao estabelecida no artigo e representa-la em formato legvel por
programas, utilizando-se por exemplo a linguagem XML, torna-se possvel agenciar
programas, os agentes inteligentes, para apoiar o pesquisador no seu trabalho de
validar o conhecimento contido em artigos, coteja-lo com o conhecimento j existente,
verificar sua coerncia, verificar seu grau de "novidade" ou sua contribuio para
determinada rea do conhecimento, compar-lo e recupera-lo semanticamente com
muito mais preciso.
3. Modelo Proposto
O resultado dessa pesquisa a proposta de um modelo. Um ponto de partida
fundamental para o desenvolvimento de um ambiente Web de autoria e recuperao
de informaes como o descrito anteriormente o estabelecimento de um modelo para
este processo. Um tal modelo inicial foi delineado em Marcondes (2005a) com base na
literatura de comunicao cientfica, publicaes eletrnicas, Web Semntica,
Epistemologia e Filosofia da Cincia e Cincia da Computao.
O modelo se desdobra em trs nveis: primeiro, um ambiente Web de publicaes
eletrnicas e recuperao de informaes no qual pesquisadores editam e publicam
seus artigos segundo o esquema proposto possibilitando agenciar programas agentes
inteligentes para validar o conhecimento contido nos artigos, verificar sua consistncia,
identificar indcios de novidade cientfica e recuperar de forma semanticamente mais
rica o conhecimento contido nestes artigos. Este nvel do modelo esta ilustrado na
Figura 1; deve permitir ao pesquisador simultaneamente ao editar/publicar seu artigo,
capturar os elementos do raciocnio cientfico de modo a permitir registr-los e
identific-los individualmente. Segundo, modelo de tipos de raciocnio em artigos
cientficos e consequentemente a estrutura dos componentes lgicos do artigo como
Problema, Hipteses, Resultados, Concluses; e terceiro, modelo de representao
desses componentes lgicos em formato legvel por programas, em linguagem XML.
A pesquisa relativa ao primeiro nvel do modelo, o ambiente Web para editar/publicar
artigos no ser desenvolvida neste momento. Este artigo trata especificamente da
validao do modelo de tipos de raciocnio e estrutura lgica dos componentes do
artigo, os nveis 2 e 3; esta validao consiste em analisar e processar manualmente o
que faria um editor cientfico que permitisse publicao e registro simultneos de
textos de artigos e do conhecimento a contido em formato legvel por programas.
Espera-se que a anlise emprica de artigos reais e a sistematizao dos resultados
dessa anlise possa fornecer subsdios para reformulao e aperfeioamento do
modelo. A seguir o modelo descrito e so apresentados os resultados da anlise.
Os artigos analisados foram escolhidos na rea de Cincias da Sade devido ao alto
grau de formalizao e padronizao da sua documentao. A pesquisa analisou 20
artigos da verso eletrnica do peridico Memrias do Instituto Oswaldo Cruz,
<http://www.scielo.br/revistas/mioc>, e outros 20 do peridico Brazilian Journal of
Medical and Biological Research, <http://www.scielo.br/revistas/bjmbr>. Artigos
cientficos, em especial nessa rea, tem uma estrutura altamente formalizada, a assim
chamada IMRAD, "Introduction, Methods, Results, and Discussion", cujo objetivo ,
literalmente, refletir o mtodo cientfico.
A anlise de um artigo inicia-se por classifica-lo com base no modelo de raciocnio
empregado. Esta classificao baseado em Hutchins (1997) e Gross (1990) e em
textos de e sobre Pierce (HOFFMAN.1997), um dos maiores estudiosos de Lgica.
Baseado nestas propostas considerou-se a seguinte classificao: artigos podem ser
tericos ou experimentais; artigos tericos seriam os que prope novas hipteses;
artigos experimentais testam experimentalmente hipteses j formuladas ou formulam
e testam experimentalmente uma nova hiptese; estes podem usar os mtodos de
raciocnio dedutivo (no primeiro caso) ou indutivo (no segundo).
Artigos tericos se caracterizam por discutirem questes de maior abrangncia.
Analisam criticamente diversas hipteses anteriores, mostrando suas fragilidades.
Estes artigos so os que tm mais potencial de apresentarem contribuies para a
Cincia, j que discutem ou questionam o paradigma vigente (OLIVA, 1994). Sua
contribuio a formulao de uma nova hiptese, indicando um novo caminho de
pesquisa. O tipo de raciocnio empregado o abdutivo ou seja, o "insight" e a
formulao de novas hipteses. Artigostericos-abdutivos no trazem resultados
experimentais.
Artigos experimentais se dividem em dedutivos e indutivos. Ambos se caracterizam por
discutirem questes num escopo de abrangncia limitado. No discutem os rumos de
uma teoria cientfica, mas se limitam a confirma-la ou aperfeioa-la. Sempre trazem
resultados experimentais.
A caracterstica dos artigos que utilizam o raciocnio dedutivo trabalharem a partir de
hipteses j formuladas anteriormente, cujas referncias vem citadas, aplicando-as a
um contexto especfico.
Os artigos que utilizam o raciocnio indutivo se caracterizam por formularem e testarem
uma proposta com um certo grau de originalidade, dentro do paradigma cientfico
vigente.
Os componentes identificados, que formam o modelo de anlise, so os seguintes; um
artigo cientfico se organiza a partir de um PROBLEMA; um PROBLEMA expressa uma
carncia, insatisfao ou deficincia conceitual com o atual estado de coisas num
domnio de conhecimento.
A partir do PROBLEMA, este inserido numa relao que pode resolver a carncia ou
deficincia; esta relao a HIPTESE. Uma HIPTESE enuncia relaes entre
fenmenos. Uma HIPTESE se desdobra em ANTECEDENTE, TIPO-RELAO e
CONSEQUENTE. Um autor num artigo pode formular uma hiptese original -
HIPTESE(o) ou tomar a hiptese anterior - HIPTESE(a) - de outros autores; neste
caso uma ou mais citaes referentes HIPTESE(a) - CITAES(h) - so feitas.
Um autor tambm pode analisar vrias HIPTESE(a) para mostrar que elas so
insatisfatrias como solues para o PROBLEMA e formular sua HIPTESE(o).
Um artigo terico-abdutivo se justifica simplesmente por propor uma nova
HIPTESE(o).
A hiptese, num artigo experimental, deve ter uma MANIFESTAO concreta
observvel empiricamente. Em um artigo cientfico, significa ter RESULTADOS
observados segundo determinada MEDIDA, em determinado CONTEXTO segundo
determinada METODOLOGIA. Este CONTEXTO onde os fenmenos relacionados na
HIPTESE so observados pode ser desdobrado em AMBIENTE - comunidade ou
instituio onde o fenmeno ocorre -, ESPAO - o lugar onde o fenmeno ocorre -,
TEMPO ou poca em que o fenmeno ocorre e GRUPO de indivduos onde o fenmeno
ocorre.
O desenvolvimento do raciocnio num artigo terico-abdutivo segue o seguinte padro:
* dado um PROBLEMA, com os seguintes aspectos e dados

* os seguintes Autores/HIPTESES anteriores para sua soluo no so satisfatrias por
causa das seguintes CRTICAS,
* diante disso, propomos a seguinte HIPTESE original
O desenvolvimento do raciocnio num artigo experimental-dedutivo segue o seguinte

padro:
* dado um PROBLEMA, com os seguintes aspectos e dados,

* os seguinte Autores formularam HIPTESES anteriores para sua soluo,
* diante disso, escolhemos a seguinte (uma das HIPTESE anteriores).
* este fenmeno descrito na HIPTESE tem a seguinte MANIFESTAO,
* testamos, ampliamos ou re-contextualizamos esta HIPTESE no seguinte CONTEXTO
e estes testes apresentaram os seguintes RESULTADOS.
O desenvolvimento do raciocnio num artigo experimental indutivo segue o seguinte

padro:
* dado um PROBLEMA, com os seguintes aspectos e dados,

* (uma soluo para este PROBLEMA pode se basear na seguinte HIPTESE),
* desenvolvemos a seguinte soluo baseada nessa HIPTESE, que teria a seguinte
MANIFESTAO emprica,
* testamos esta MANIFESTAO e estes testes apresentaram os seguintes
RESULTADOS.
Depois de classificados quanto ao tipo de raciocnio cientfico, artigos so analisador,

identificado-se os componentes descritos anteriormente. Numa segunda fase de
anlise, os componentes da HIPTESE so relacionados ao "conhecimento pblico" de
uma determinada rea, identificando-os com termos contidos numa base de
conhecimento disponvel na Web, no caso a UMLS (para os ANTECEDENTE e
CONSEQUENTE) e UMLS Semantic Network (para TIPO DE RELAO).
Um exemplo de artigo analisando segundo este modelo pode ser visto na Figura 2. A
representao do conhecimento nele contido em linguagem XML seria a seguinte:
<?xml version="1.0" encoding="ISO8859-1" ?>

<estrutura_de_conhecimento art-id="352387">
<fato></fato>
<problema>
tipos de HPV prevalentes no grupo testado?
</problema>
<relacao metodo="dedutivo">
<hipotese tipo="anterior">
<citacao>(Lorincz et al. 1992)</citacao>
<citacao>(IARC 1995)</citacao>
<citacao>(Muoz 2000)</citacao>
<citacao>(Sherman et al. 1994). </citacao>
<antecedente>HPV (Papillomavirus Humano) </antecedente>
<tiporelacao>causa ("causes"(T147)/UMLS SN)</tiporelacao>
<consequente>lesoes pre-neoplasicas e neoplasicas (Infeces Tumorais por
Vrus, Neoplasias do Colo) </consequente>
</hipotese>
</relacao>
<manifestacao>
<resultado>Tabela 1, Tabela 2</resultado>
<contexto>
<ambiente></ambiente>
<local>Distrito Federal</local>
<local>Brasil</local>
<tempo></tempo>
<grupo>Mulheres</grupo>
</contexto>
<metodologia></metodologia>
</manifestacao>
<conclusao>
A infeco por certos tipos de HPV pode ser a causa do cncer cervical de
vrias mulheres
</conclusao>
<conclusao>
O HPV-16 o mais comum na nossa populao
</conclusao>
</estrutura_de_conhecimento>
O registro do conhecimento contido no artigo desta forma permitiria por exemplo, os
seguintes tipos de recuperao:
* que artigos (tambm) tem hipteses relacionando HPV como causa de leses pr-
neoplsicas e neoplsicas em mulheres?"
* "que artigos tem hipteses relacionando outros fatores que no HPV como causa de
leses pr-neoplsicas e neoplsicas em mulheres?"
* que artigos tem hipteses relacionando HPV como causa de leses pr-neoplsicas e
neoplsicas em outros grupos?"
* que artigos tem hipteses relacionando HPV como causa de outras patologias em
mulheres?"
* em que diferentes condies contextuais existem artigos com hipteses relacionando
HPV como causa de leses pr-neoplsicas e neoplsicas em mulheres?"
4. Concluses
A importncia em marcar os elementos descritos e registr-los em formato legvel por
programas como proposto viabilizar que programas agentes de "software" ou
sistemas de recuperao de informaes possam fazer diversas inferncias baseados
nestas relaes e auxiliar pesquisadores em tarefas que hoje so demoradas e pouco
formalizadas, como acessar e recuperar de forma semanticamente mais rica
informao relevante, verificar a originalidade, validade, coerncia e importncia de
contribuies para a Cincia.
A agenda de pesquisa a ser desenvolvida se desdobra em pelo menos trs etapas. Na
etapa descrita aqui, trata-se de propor e validar um modelo para o conhecimento
contido no texto de artigos cientficos em um formato legvel por programas, usando
linguagem XML.
A medida que o conhecimento contido em artigos cientficos possa ser extrado e
registrado em formato legvel por programas, atravs de um ambiente de autoria, um
editor de textos cientficos, artigos publicados segundo esse modelo podem ser
recuperados de forma semanticamente muito mias rica e precisa. O desenvolvimento
deste ambiente de autoria, as estratgias a serem a utilizadas para extrair o
conhecimento contido no texto de um artigo cientfico durante o processo de sua
edio/publicao na Web, constituem uma outra etapa dessa pesquisa.
Por fim, o modelo pode ser til tambm para sinalizar indcios de novas descobertas,
artigos que seguem o padro de raciocnio abdutivo e quando alguns ou todos os
elementos de uma HIPTESE no puderem ser mapeados no "conhecimento
estabelecido". Esta alternativa vai ser explorada na etapa seguinte da pesquisa, ao se
analisar tambm artigos cientficos modelares que veiculam descobertas significativas
para avaliar em que medida estes se desviam do padro identificado.
Figura 1
Figura 2
FORMULRIO PARA ANLISE DE ARTIGOS

Peridico: Memrias do
<http://www.scielo.br/revistas/mioc>
Instituto Oswaldo Cruz
Referncia do Artigo
CAMARA, Geni NL, CERQUEIRA, Daniela M, OLIVEIRA, Ana PG et al. Prevalence
of human papillomavirus types in women with pre-neoplastic and neoplastic
cervical lesions in the Federal District of Brazil. Mem. Inst. Oswaldo Cruz.
[online]. Oct. 2003, vol.98, no.7 [cited 10 March 2005], p.879-883. Available
from World Wide Web: <http://www.scielo.br/scielo.php?
script=sci_arttext&pid=S0074-02762003000700003&lng=en&nrm=iso>. ISSN
0074-0276
MTODO
Dedutivo: X Indutivo: Abdutivo:
PROBLEMA (transcrever do texto)
As a contribution to the public health authorities in planning prophylactic and
therapeutic vaccine strategies, we describe the prevalence of human
papillomavirus (HPV) types in women presenting abnormal cytological results in
Pap smear screening tests in the Federal District, Central Brazil.(Abstract)
In contrast to what is observed in developed countries, cervical cancer
mortality in Brazil is still high.(Introduo)
HIPTESE anterior (transcrever do texto)
The chronic infection by certain types of human papillomavirus (HPV) is
definitely related to the incidence of cervical cancer (Lorincz et al. 1992, IARC
1995) and the HPVs -16, -18, -31, -33, -35, -45, -51, -52, and -58 can now be
considered as cervical carcinogenic agents (Muoz 2000). Squamous
carcinomas and adenocarcinomas are the most frequent cervical neoplasias,
and may develop from intraepithelial lesions, easily detected in preventive
cytological exams (Sherman et al. 1994).
Relao normalizada
HPV esta relacionado com leses pr-neoplasticas e neoplsticas
a)A infeco por certos tipos de HPV pode ser a causa do cncer cervical de
vrias mulheres
b) O HPV-16 o mais comum na nossa populao
Antecedente: HPV, diversos tipos / Papillomavirus Humano
Tipo de relao: causa / "causes", T147 UMLS SN
Conseqente: leses pr-neoplasticas e neoplsticas em mulheres, cncer
cervical, neoplasias / Infeces Tumorais por Vrus, Neoplasias do Colo
Citaes: (Lorincz et al. 1992, IARC 1995), (Muoz 2000), (Sherman et al.
1994).
MANIFESTAO
Resultado:
Medida: prevalncia
Contexto:
Ambiente:
Local: Distrito Federal, Brasil
Tempo:
Grupo: mulheres
Metodologia:
CONCLUSES
Observaes:
Notas
[*] Participaram desta pesquisa como Bolsistas de Iniciao Cientfica Ariane Silva
Santa Rita Ferreira, Henrique Mendona, Vera Rolim
[1] XML- Extensible Markup Language, Linguagem de Marcao Extensvel ,um padro
do W3C. <http://www.w3c.org/xml>
[2] Ver definio de agentes de software na Wikipedia em
<http://en.wikipedia.org/wiki/Software_agents>
[3] Ver a definio de Binger Hjorland em

<http://www.db.dk/bh/Core%20Concepts%20in%20LIS/articles%20a-z/aboutness.htm>
Referncias bibliogrficas
ALVES_MAZZOTTI, Alda; GEWANDSZNAJDER, Fernando. O Mtodo nas Cincias naturais
e sociais: pesquisa quantitativa e qualitativa. So Paulo : Pioneira Thomson Learning,
2002.
BACON, Francis. Novum organum. So Paulo : Abril Cultural, 1973. (Coleo Os
pensadores, 13).
BARRETO, Aldo de Albuquerque. A oferta e a demanda da informao: condies
tcnicas, econmicas e polticas. Cincia da Informao, Braslia, v..28, n.2, maio/ago.
1999. p.168-142. Disponvel em <http://www.scielo.br/scielo.php?
script=sci_arttext&pid=S0100-19651998000200003&lng=pt&nrm=iso>. Acesso em 18
junho 2005.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web. Scientific
American, May, 2001. Disponvel em
<http://www.scian.com/2001/0501issue/0501berners-lee.html>, Acesso em 24 maio
2001.
CARR, L.; MILES-BOARD, T.; WOUKEU, A.; WILLS, G.; HALL, W. The case for explicit
knowledge in documents. In: THE ACM SYMPOSIUM ON DOCUMENT ENGINEERING,
2004, Milwaukee, Wiscosin. Proceedings... Milwaukee: ACM, 2004, p. 90-98. Disponvel
em: <http://www.eprints.ecs.soton.ac.uk/9360/> Acesso em: 07 ago. 2005.
DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel. Research agenda for the
Semantic Grid: a future s-Science infraestructure. (Report commissioned for EPSRC/DTI
Core e-Science Programme). 2001.
DESCARTES, Ren. Discurso do mtodo. So Paulo : Martin Claret, 2005. (Coleo Obra
prima de cada autor).
GARDIN, Jean-Claude. Vers un remodelage des publications savantes: ses rapports avec
sciences de l'information. In: Chaudiron, Stphane, Fhlur, Christian. Filtrage et rsum
automatique de l' information sur les rseaux., Conference invitee - Colloque ISKO-
France, 3. 5-6 juillet, 2001. Univesit de Nanterre - Paris X, 2001.
GROSS, Alan G. The Rhetoric of Science. Cambridge, Massachusetts; Londres, Inglaterra
: Harvard University Press,1990.
HEMPEL, Karl. Aspects of scientific explanation and other essays in the philosophy of
science. New York : Free Press, 1965.
HOFFMANN, Michael. Is there a "Logic" of Abduction? In: CONGRESS OF THE IASS- AIS
International Association for Semiotics Studies, Guadalajara, Mexico, 1997, 6th,
Proceeedings... Disponvel em
<http://www.unibielefeld.de/idm/personen/mhoffman/papers/abduction-logic.html>.
Acesso em 14 dez. 2005.
HUTCHINS, John. On the structure of scientific texts. In: UEA Papers in Linguistics, 5 th.,
1977, Norwich. Proceedings...Norwich, UK: University of East Anglia, 1977. p. 18-
39.Disponvel em: <http://ourworld.compuserve.com/homepages/wjhutchins/UEAP/L-
1977.pdf>. Acesso em: 30 mar. 2006.
KANDO, Noriko. Text-level structure of research papers: implications for text-based
information processing systems. In: ANNUAL BCS-IRSG COLLOQUIUM ON IR RESEARCH,
19th., 1997, Aberdeen. Proceedings... Aberdeen, Scotland: Springer-Verlag, 1997. p. 68-
81. Disponvel em : <http://www.scholar.google.com/scholar?
hl=en&lr=&q=cache:Da9bLQqHqRQJ:research.nii.ac.jp/~kando/>. Acesso em: 03 out.
2005.
KANDO, Noriko. Text structure analysis as a tool to make retrieved documents usable.
In: INTERNATIONAL WORKSHOP ON INFORMATION RETRIEVAL WITH ASIAN LANGUAGES,
4th., 1999, Taipei. Proceedings... Taipei, Taiwan: Academia Sinica, 1999. p. 126-135.
Disponvel em: <http://www.scholar.google.com/scholar?
hl=en&lr=&q=cache:ZFHr2MhHmWYJ:research.nii.ac.jp/~kando/>. Acesso em: 03 out.
2005.
KANT, Immanoel. Crtica da Razo Pura. So Paulo : Nova Cultural, 1991. (Coleo os
Pensadores, 7).
KINTSH, Walter; VAN DIJK, Teun A. Towards a model of text comprehension and
production. Psycological Review, v. 84, n. 5, Sept. 1972. p.363-393.
KOBASHI, Nair. A elaborao de informaes documentais: em busca de uma
metodologia. Tese (doutorado), Escola de Comunicao e Artes, USP. So Paulo, 1994.
LANGER, Hangen; LNGEN, Harald; BAYERL, Petra Sakia. Text Type Structure and
Logical Document Structure. 2004. Disponvel em
<http://acl.ldc.upenn.edu/acl2004/discourseannotation/pdf/langer.pdf>. Acesso em 8
de nov. 2005.
LVY, Pierre, As tecnologias da inteligncia: o futuro do pensamento na era da
informtica. Rio de Janeiro : Ed. 34, 1993. 208 p. (Coleo Trans).
LUHN, H. P. Keyword-in-context Index for Technical Literature (KWIC Index)
Yorktown Heights, NY, International Business Machines Corp, 1959.
MEADOWS, Arthur Jack. A comunicao cientfica. Braslia : Briquet de Lemos, 1999.
MARCONDES, Carlos H. From scientific communication to public knowledge: the
scientific article Web published as a knowledge base. In: Egelen, Jan, Dobreva, Milena,
ed. ICCC ElPub - INTERNATIONAL CONFERENCE ON ELECTRONIC PUBLISHING, Leuven,
Blgica, 2005, 9, Proceedings... Leuven, Blgica, 2005. p.119-27. Disponvel em
<http://elpub.scix.net>
MARCONDES, Carlos H; MENDONA, Marlia A. R; MALHEIROS, Luciana. A estrutura dos
elementos de metodologia cientfica no textos de artigos de peridicos eletrnicos em
Cincias da Sade. In: International Conference on Health Information and Libraries, 9,
Salvador, Bahia, Brasil, Proceedings... Salvador, 2005. Disponvel em
<http//www.icml9.org/program/track5/public/documents/Carlos Henrique Marcondes-
112049.doc>.
MARCONDES, Carlos H. Da comunicao cientfica ao conhecimento pblico: artigos
cientficos digitais como bases de conhecimento. In: ENANCIB - Encontro da Associao
Nacional de Pesquisa e Ps-graduao em Cincia da Informao, 6, nov. 2005,
Florianpolis, Santa Catarina, Brasil, Anais... , 2005. (Anais em CD-ROM).
MARCONDES, Danilo. Filosofia analtica. Rio de Janeiro : Jorge Zahar, 2004. (Coleo
Passo a passo).
MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia cientfica. So Paulo :
Editora Atlas, 2004.
MATTAR NETO, Jos Augusto. Metodologia cientfica na era da informtica. So Paulo :
Saraiva, 2002.
MIRANDA, Antonio; SIMEO, Elmira. A conceituao de massa documental e o ciclo de
interao entre tecnologia e o registro do conhecimento. DataGramaZero, v.3, n. 4,
ago. 2002. Disponvel em <http://www.dgz.org/ago02/Art_03.htm>, acesso em 15 nov.
2003.
OLIVA, Alberto. Kuhn: o normal e o revolucionrio na reproduo da racionalidade
cientfica. In: PORTOCARRERO, Vera (org). Filosofia, histria e sociologia das cincias.
Rio de Janeiro : Ed. FIOCRUZ, 1994. p. 67-102.
PAICE, Chris D.; JONES, Paul A. The identification of important concepts in highly
structured technical papers. In: ANNUAL INTERNATIONAL ACM/SIGIR CONFERENCE ON
RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 16th., 1993, Pittsburgh.
Proceedings... Pittsburgh, PA: ACM, 1993. p. 69-78. Disponvel em:
<http://www.ils.unc.edu/~cablake/inls110_S06/Refs/PaiceJones.pdf>. Acesso em: 30
abr. 2006.
POPPER, Karl. A lgica da pesquisa cientfica. So Paulo : Ed. Cultrix, Ed. USP, 2001.
SALTON, G.; MCGILL, M. J. Introduction to Modern Information Retrieval. New York :
McGraw-Hill Book Company, 1983.
SMIT, Johanna. Anlise documentria: anlise da sntese. Braslia : IBICT, 1987.
SOWA, John. Knowledge representation: logical, philosophical and computacional
foudations. Pacific Grove : Brooks/Cole, 2000.
TEUFEL, Simone. Meta-discourse markers and problem-structuring in scientific articles.
In: WORKSHOP DISCOURSE STRUCTURE AND DISCOURSE MARKERS, 1998, Montreal.
Proceedings...Montreal: ACL, 1998. p. 43-49. Disponvel em:
<http://acl.ldc.upenn.edu/w/w98/0307.pdf>. Acesso em: 08 nov. 2005.
ZIMAN, John. Conhecimento pblico. Belo Horizonte : Itatiaia, So Paulo : Ed. da
Universidade de So Paulo, 1979.
Sobre os autores / About the Authors:

Carlos H. Marcondes
marcon@vm.uff.br
Departamento de Cincia da Informao
Marlia A. R. Mendona
mariliaalvarenga@terra.com.br
Departamento de Cincia da Informao
Luciana R. Malheiros
malheiro@vm.uff.br
Departamento de Fisiologia e Farmacologia
Universidade Federal Fluminense, Niteri - RJ, Brasil

Forleg

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Forleg

Transféré par

Droits d'auteur :

Formats disponibles

Uma proposta de modelo de representao do conhecimento contido no texto de

artigos cientficos publicados na web em formato legvel por programas [*]

Resumo: So reportados resultados de pesquisa com o objetivo de propor um modelo

Palavras-chave: Publicaes eletrnicas; Metodolgica cientfica; Comunicao

A Comunicao Cientfica (MEADOWS, 1999) tem sido o mecanismo atravs do qual

* o conhecimento cientfico consiste em estabelecer (novas) relaes entre fenmenos;

2. Bases conceituais e tericas

Textos cientficos, em especial, os artigos cientficos, tm como objetivo serem

* dado um PROBLEMA, com os seguintes aspectos e dados

O desenvolvimento do raciocnio num artigo experimental-dedutivo segue o seguinte

* dado um PROBLEMA, com os seguintes aspectos e dados,

O desenvolvimento do raciocnio num artigo experimental indutivo segue o seguinte

* dado um PROBLEMA, com os seguintes aspectos e dados,

Depois de classificados quanto ao tipo de raciocnio cientfico, artigos so analisador,

<?xml version="1.0" encoding="ISO8859-1" ?>

FORMULRIO PARA ANLISE DE ARTIGOS

[3] Ver a definio de Binger Hjorland em

Sobre os autores / About the Authors:

Vous aimerez peut-être aussi