Vous êtes sur la page 1sur 54

1

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL


FACULDADE DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
CURSO DE MESTRADO

Padrões em Bibliotecas Digitais

por

MARCIRIO SILVEIRA CHAVES

Trabalho Individual I

Profa. Dra. Vera Lúcia Strube de Lima


Orientadora

Porto Alegre, agosto de 2002.


2
3

SUMÁRIO

LISTA DE ABREVIATURAS ........................................................................................... 5

LISTA DE FIGURAS....................................................................................................... 6

LISTA DE TABELAS....................................................................................................... 7

RESUMO ........................................................................................................................ 8

1 INTRODUÇÃO............................................................................................................. 9
1.1 MOTIVAÇÃO ......................................................................................................................... 9
1.2 OBJETIVOS ......................................................................................................................... 11
1.3 ESTRUTURA DO TRABALHO ............................................................................................... 11
2 CONCEITOS E POSICIONAMENTOS RELACIONADOS À TEMÁTICA DAS BDS. 12
2.1 PREÂMBULO ....................................................................................................................... 12
2.2 BIBLIOTECA DIGITAL SEGUNDO CHRISTINE L. BORGMAN ................................................ 12
2.3 BIBLIOTECA DIGITAL SEGUNDO A DIGITAL LIBRARY FEDERATION..................................... 13
2.4 BIBLIOTECA DIGITAL SEGUNDO RICARDO BAEZA-YATES E BERTHIER RIBEIRO-NETO ... 14
2.5 BIBLIOTECA DIGITAL SEGUNDO GARY MARCHIONINI E SEUS CO-AUTORES ..................... 14
2.6 BIBLIOTECA DIGITAL SEGUNDO WILLIAM Y. ARMS ......................................................... 15
2.7 CONSIDERAÇÕES ................................................................................................................ 15
3 PADRÕES DE FORMATO E MARCAÇÃO EM BD................................................... 18
3.1 PREÂMBULO ....................................................................................................................... 18
3.2 PDF - PORTABLE DOCUMENT FORMAT ............................................................................... 18
3.3 PS - POST SCRIPT ................................................................................................................ 20
3.4 HTML - HYPERTEXT MARKUP LANGUAGE E SGML - STANDARD GENERALIZED MARKUP
LANGUAGE................................................................................................................................ 21
3.5 XML - EXTENSIBLE MARKUP LANGUAGE............................................................................ 21
3.5.1 Vantagens da linguagem XML ................................................................................... 22
3.5.2 Usos do padrão XML.................................................................................................. 25
3.6 CONSIDERAÇÕES ................................................................................................................ 25
4 METADADOS EM BD................................................................................................ 26
4.1 PREÂMBULO ....................................................................................................................... 26
4.2 INTEROPERABILIDADE ....................................................................................................... 28
4.3 CONJUNTOS DE ELEMENTOS DE METADADOS .................................................................... 29
4.3.1 DC - Dublin Core........................................................................................................ 30
4.3.2 MARC - MAchine-Readable Cataloging.................................................................... 32
4.3.3 RDF - Resource Description Framework.................................................................... 34
4.4 CONSIDERAÇÕES ................................................................................................................ 35
5 ARQUITETURAS PARA BDS ................................................................................... 37
5.1 PREÂMBULO ....................................................................................................................... 37
5.2 ARQUITETURA DE INFORMAÇÕES ...................................................................................... 37
4

5.2.1 Objetos Digitais .......................................................................................................... 39


5.3 ARQUITETURA DE METADADOS ......................................................................................... 40
5.3.1 Warwick Framework (WF)......................................................................................... 41
5.4 CONSIDERAÇÕES ................................................................................................................ 43
6 CONCLUSÃO ............................................................................................................ 44
6.1 SOBRE ESTE TRABALHO ..................................................................................................... 44
6.2 TRABALHO FUTURO ........................................................................................................... 45
REFERÊNCIAS BIBLIOGRÁFICAS ............................................................................. 46

BIBLIOGRAFIA COMPLEMENTAR ............................................................................. 54


5

LISTA DE ABREVIATURAS

ANSI - American National Standards Institute

CD-ROM – Compact Disc – Read Only Memory

DC - Dublin Core

BD - Biblioteca Digital

DLIs - Digital Library Initiatives

DTD - Document Type Definition

HTML - Hypertext Markup Language

ISO - International Standards Organization

MARC - MAchine Readable Cataloging

NCSA - National Center for Supercomputing Applications

NISO - National Information Standards Organization

OCLC - Online Computer Library Center

OCR - Optical Character Recognition

PDF – Portable Document Format

RDF - Resource Description Framework

RI - Recuperação de Informação

SGML - Standard Generalized Markup Language

URI - Uniform Resource Identifier

URLs - Uniform Resource Locators

XML - eXtensible Markup Language

XSL - eXtensible Style Language

W3C - World Wide Web Consortium

Web - World Wide Web


6

LISTA DE FIGURAS

Figura 1 Conversão MARC 21 (2709) de/para MARC 21 (XML) [MARC 02] ............. 33
Figura 2 Partes de um objeto digital [ARMS 95]........................................................ 39
Figura 3 Exemplo de um container WF [LAGOZE 96] ............................................... 41
7

LISTA DE TABELAS

Tabela 1 Resumo das principais características de uma BD…………………………… 16


Tabela 2 Problemas comuns e soluções PDF [ADOBE 02]…………………….………. 19
Tabela 3 Benefícios do XML em relação ao HTML [MADNICK 01]……………………. 24
Tabela 4 Atributos metadados [BALDONADO 97]……………………………………….. 28
Tabela 5 Resumo dos principais elementos de metadados do Dublin Core………….. 31
8

RESUMO

A grande quantidade de conteúdo digital disponível na Web com diferentes


formatos e padrões tem trazido alguns problemas para as Bibliotecas Digitais (BDs).
Este trabalho busca conceituar uma biblioteca digital, e realiza um estudo sobre
padrões de formatos e linguagens de marcação amplamente utilizados em BDs.

BDs necessitam que as informações estejam organizadas de modo a facilitar


operações. Nesse contexto são introduzidos formatos de metadados, seguidos por
conjuntos de metadados que facilitam a interoperabilidade dos dados e serviços entre
BDs.

Ainda, para melhor suportar operações nas BDs, é necessário construir uma
arquitetura tanto para informação quanto para metadados. Essas arquiteturas também
serão abordadas.

Finalmente, um framework é apresentado para agregar múltiplos conjuntos de


metadados existentes. Este framework também tem implicações sobre a
interoperabilidade e pode ser considerado essencial para sistemas que tenham um
longo ciclo de vida.
9

1 INTRODUÇÃO

1.1 Motivação

As bibliotecas digitais (BDs) tornaram-se importantes nos últimos anos [SCHATZ


99], fazendo surgir muitos projetos ao redor do mundo, envolvendo abordagens
comerciais e de pesquisas e desenvolvimento [BAEZA-YATES 99]. Isso é justificado,
amplamente, com o crescimento exponencial de informações na World Wide Web
(Web).

Carl Lagoze e David Fielding, em [LAGOSE 98], consideram que existem três
características básicas para o sucesso da Web. Por sua universalidade, qualquer
pessoa pode participar, na Web, como autor, editor ou cliente, com um investimento
mínimo de hardware e conhecimento. Por sua uniformidade, recursos, serviços e
usuários participam na Web como iguais, em um espaço comum de informações. Por
sua descentralização, a Web é fundamentalmente desorganizada, exceto em nível
técnico de protocolos e mecanismos de tráfego, onde existe um padrão praticamente
estabelecido.

Estes princípios, que são fundamentais para o sucesso da Web, são também o
núcleo dos problemas que freqüentemente perturbam os usuários. Universalidade, ao
extremo, pode ser traduzida por "quantidade sem qualidade", assim justificando, por
exemplo, que materiais estritamente acadêmicos co-existam com conteúdos
impróprios para crianças. Uniformidade significa que ferramentas, tecnologias de
domínio específico e diretrizes essenciais para usar muitas classes de informação (por
exemplo, geo-espacial, estatística, científica, etc.) são difíceis ou, até mesmo,
impossíveis de encontrar. Descentralização freqüentemente significa que é difícil impor
as estruturas organizacionais necessárias, garantindo a integridade - por exemplo,
confiabilidade e acessibilidade, segurança e privacidade para conteúdos e usuários, e
preservação de informação. Através da adoção de padrões é possível (a) separar
conteúdos próprios de cada domínio do conhecimento (b) facilitar a busca por
tecnologias específicas e (c) organizar as informações de forma estruturada, tanto na
Web quanto nas BDs.
10

Entende-se por padrões, neste trabalho, um conjunto de regras ou


especificações para o projeto ou operação de um dispositivo computacional. Tony Gill
e Paul Miller [GILL 02] ainda definem padrões como regras e diretrizes codificadas
para criação, descrição e gerenciamento de recursos digitais. Existem padrões
proprietários, os quais são desenvolvidos e promulgados por companhias para
assegurar ou aumentar suas fatias de mercado, e padrões abertos, os quais estão
publicados e disponíveis para uso por qualquer pessoa [HAIGH 98]. Este trabalho
apresenta padrões, tanto proprietários quanto abertos, que têm sido utilizados em
BDs.

Conforme Hussein Suleman e seus co-autores, em [SULEMAN 01], BDs têm


sido tradicionalmente posicionadas na intersecção entre Ciência da Informação,
Ciência da Computação e sistemas de informação em rede, mas o objeto BD ainda
não está bem definido [BORGMAN 99]. O consenso existente é o de coleções de
informações acessíveis. Por causa disto, o campo não converge facilmente nos
padrões e na tecnologia. Assim, a maioria dos sistemas existentes que são
classificados como BDs tem resultado de projetos de desenvolvimento de software
customizados - cada produto resulta de ciclos intensivos de projeto, implementação e
teste [SULEMAN 01]. Além disso, alguns paradigmas novos têm surgido, tais como
empréstimos virtuais, aquisição de obras digitais e digitalização de documentos. Neste
contexto, é imperativo um tratamento padronizado para atividades fundamentais como
criação e captura de documentos, gerência e armazenamento, busca e acesso,
distribuição de informação e direitos autorais. Por último, é necessário o emprego de
padrões de modo a possibilitar a interoperabilidade e a troca de dados.

Alexa McCray e Marie Gallagher, em [MCCRAY 01], propõem dez princípios a


serem levados em consideração na construção de BDs. Um destes princípios, que
pode trazer benefícios para as BDs em termos de marcação de documentos, criação e
manutenção de metadados e interoperabilidade, entre outros, é a adoção de padrões
e a aderência aos mesmos.

A escalabilidade de leitura, interoperabilidade e portabilidade são apenas


algumas tarefas a destacar. Atividades cotidianas, tais como escanear documentos,
inserir metadados e marcar documentos, todas envolvendo manipulação de itens
individuais em uma coleção, precisam ser realizadas de maneira a gerar o mínimo de
necessidade de manutenção.
11

1.2 Objetivos

O objetivo deste trabalho é apresentar um estudo amplo sobre BDs,


especificamente abordando a padronização utilizada, tanto em nível de dados quanto
de metadados. Pelo fato de os dados serem intercambiáveis entre BDs e estarem
disponíveis ao usuário, também são apresentadas algumas arquiteturas de
informações e metadados. Essas arquiteturas são as mais utilizadas com base nas
seguintes referências, entre outras: [ARMS 95], [ARMS 97], [DANIEL 98], [DEMPSEY
96], [DUVAL 02], [LAGOZE 96] e [NURNBERG 95].

1.3 Estrutura do Trabalho

Este trabalho está estruturado em capítulos. No capítulo 2, são apresentados e


comentados alguns dos principais conceitos relacionados às BDs. O capítulo 3
destina-se a introduzir formatos padrões de documentos utilizados em BDs, bem como
as linguagens de marcação mais amplamente utilizadas. Metadados, conjuntos
padrões de elementos de metadados e interoperabilidade são abordados no capítulo
4. Arquiteturas de informações e de metadados são descritas no capítulo 5.
Finalmente, no capítulo 6, são apresentadas considerações finais à luz do estudo
realizado, bem como idéias de trabalho futuro.
12

2 CONCEITOS E POSICIONAMENTOS RELACIONADOS


À TEMÁTICA DAS BDS

2.1 Preâmbulo

Nos últimos anos têm surgido diversas terminologias para bibliotecas não
convencionais. Segundo Murilo Bastos da Cunha, em [CUNHA 97], a biblioteca digital
é também conhecida como biblioteca eletrônica (principalmente no Reino Unido),
biblioteca virtual, biblioteca sem paredes e biblioteca cibernética.

O termo "biblioteca digital" apresenta significados diferentes para diferentes


pessoas, sejam elas bibliotecários ou cientistas da computação [BORGMAN 99]. As
principais iniciativas (DLIs - Digital Library Initiatives) nos EUA ainda não se dedicaram
a definir este termo [SARACEVIC 01]. Contudo, nesta seção, serão apresentados
alguns dos principais conceitos encontrados na literatura. A referência [DLD 99]
apresenta sessenta conceitos para BD. Alguns considerados pelo presente autor como
os mais relevantes são apresentados a seguir.

2.2 Biblioteca Digital segundo Christine L. Borgman

Christine L. Borgman, em [SARACEVIC 01], apresenta um conceito de BDs


através de duas idéias complementares:

1- BDs são um conjunto de recursos eletrônicos e capacidades técnicas


associados para criar, buscar e usar informações. Nesse sentido elas são uma
extensão e intensificação de sistemas de armazenamento e recuperação de
informação (RI) que manipulam dados digitais em qualquer mídia (texto, imagens
estáticas ou dinâmicas, sons) e existem em redes distribuídas. O conteúdo das
bibliotecas digitais inclui dados, metadados que descrevem vários aspectos dos dados
(por exemplo, representação, criador, proprietário, direitos de reprodução) e
metadados que consistem de links ou relacionamentos para outros dados ou
metadados internos ou externos à BD.
13

2- BDs são construídas - coletadas e organizadas - por (e para) uma


comunidade de usuários, e suas capacidades funcionais suportam as necessidades de
informações daquela comunidade. BD é uma extensão, intensificação e integração de
uma variedade de informação de instituições onde recursos são selecionados,
coletados, organizados, preservados e acessados para suportar uma comunidade de
usuários.

O conceito (1) apresenta a perspectiva dos sistemas, enfatizando o


armazenamento e RI, enquanto o conceito (2) salienta que BDs existem num contexto
social e que o projeto, a política e a prática devem refletir este contexto.

2.3 Biblioteca Digital segundo a Digital Library Federation

Segundo a Digital Library Federation1, BDs são organizações que produzem os


recursos, incluindo as pessoas especializadas, para selecionar, estruturar, oferecer
acesso intelectual, interpretar, distribuir, preservar a integridade, e garantir a
persistência, ao longo do tempo, das coleções de trabalhos digitais, para que eles
estejam legíveis e disponíveis para uso por uma comunidade ou conjunto de
comunidades definidas [DLF 99].

Este conceito enfatiza o ambiente organizacional e institucional para a coleção


de trabalhos e serviços digitais, o que faz com que o mesmo difira dos conceitos de
Christine L. Borgman.

Uma característica relevante em uma BD, que não é descrita neste conceito,
refere-se à utilização de metadados. Devido à grande quantidade de informações
disponíveis em uma BD e às diversas atividades envolvidas, é bastante importante
que um conceito de BD mencione os metadados. Os metadados serão abordados no
capítulo 4.

1
Consórcio de bibliotecas e agências relacionadas que usam tecnologias de informação
eletrônica para estender suas coleções e serviços.
14

2.4 Biblioteca Digital segundo Ricardo Baeza-Yates e


Berthier Ribeiro-Neto

Conforme Ricardo Baeza-Yates e Berthier Ribeiro-Neto, em [BAEZA-YATES 99],


BD é uma combinação envolvendo: uma coleção de objetos digitais (repositório);
descrições destes objetos (metadados); um conjunto de usuários; e sistemas que
oferecem uma variedade de serviços, tais como captura, indexação, catalogação,
busca, navegação, recuperação, entrega, arquivamento e preservação.

Uma sugestão para complementar este conceito é ampliá-lo para “objetos


digitais”. Dessa forma, é possível destacar-se que os objetos digitais podem estar em
locais separados, tanto fisicamente quanto virtualmente.

Além disso é importante destacar, neste conceito, os serviços oferecidos e


realizados por uma BD. O desempenho na realização dos mesmos é fundamental para
o sucesso da BD e para a aceitação do sistema por parte dos usuários.

2.5 Biblioteca Digital segundo Gary Marchionini e seus co-


autores

Conforme Gary Marchionini e seus co-autores, em [MARCHIONINI 02], BDs


servem comunidades de pessoas e são criadas e mantidas por e para pessoas. As
pessoas e as informações que as BDs precisam são centrais para todas as
bibliotecas, digitais ou não. Todos os esforços no projeto, implementação e avaliação
de BDs devem ser consolidados nas necessidades de informações, características e
contextos das pessoas que usarão ou poderão usar essas bibliotecas.

Gary Marchionini demonstra preocupação com as pessoas que interagirão com


as BDs. Tanto bibliotecários que trabalham na manutenção, quanto usuários que
utilizam o sistema, foram considerados.

Por outro lado, Gary Marchionini não menciona que BDs são coleções de
informação que usam metadados e realizam serviços, tais como busca, acesso e
apresentação, entre outros.
15

2.6 Biblioteca Digital segundo William Y. Arms

William Y. Arms, apud [SARACEVIC 01], produz o que chama de "definição


informal" propondo que uma BD seja uma coleção de informações gerenciadas, com
serviços associados, onde a informação é armazenada em formatos digitais e
acessível através de uma rede.

Esse conceito, embora bastante simplificado, diz o essencial sobre o que


realmente é uma BD, faltando-lhe apenas citar a utilização de metadados. Ao contrário
de Gary Marchionini, William Y. Arms não faz referência direta às pessoas. Por
“coleção de informações gerenciadas” fica implícita a participação de pessoas nesse
processo.

2.7 Considerações

A partir dos conceitos apresentados, pode-se constatar que uma BD é muito


mais do que uma coleção de textos e outros objetos digitalizados, conforme afirma
[SARACEVIC 01].

Já Karen Drabenstott, em [DRABENSTOTT 94], relatou alguns elementos que


têm sido identificados como comuns para os conceitos de BDs:

• A biblioteca digital não é uma entidade isolada;

• A biblioteca digital requer tecnologia para conectar os recursos de outras


bibliotecas digitais;

• As conexões entre as muitas BDs e serviços de informação são


transparentes para os usuários finais;

• Acesso universal para BDs e serviços de informação é um objetivo.

Além desses elementos comuns, as coleções das BDs são compostas por
artefatos digitais, tais como filmes e arquivos de áudio, que não podem ser
representados ou distribuídos em formato impresso.

À luz dos conceitos e dos principais elementos das BDs, conclui-se que coleções
digitais efetivas são sistemas sócio-técnicos complexos. Uma coleção efetiva requer
atenção consistente e simultânea a vários interesses sociais, organizacionais,
administrativos e técnicos, conforme Michael Jones, em [JONES 99].
16

Apesar do conceito de BD diferir, para diferentes comunidades de usuários, foi


possível, a partir da apreciação dos conceitos apresentados e da bibliografia
consultada, constituir-se uma abordagem comparativa e reunir na Tabela 1, as
principais características de uma BD.

Possuem Possuem Envolvem Realizam Possuem


uma coleção metadados uma serviços1 informações
de comunidade acessíveis
informações de usuários através de
uma rede
Christine L.
X X X X X
Borgman
Digital Library
X X X X
Federation
Ricardo Baeza-
Yates e Berthier X X X X
Ribeiro-Neto
Gary Marchionini
e seus co- X
autores
William Y. Arms X X X X
Tabela 1 Resumo das principais características de uma BD

As linhas da Tabela 1 correspondem aos autores citados nas seções


precedentes deste capítulo, e seus posicionamentos. As colunas apresentam cinco
características identificadas nos posicionamentos desses autores. A maior parte dos
autores, exceto Gary Marchionini e seus co-autores, aborda as principais
características em seus conceitos. Em síntese, uma BD possui uma coleção de
informações (acessíveis através de uma rede), possui metadados, envolve uma
comunidade de usuários e realiza serviços, tais como indexar, gerenciar e distribuir
informações, entre outros.

É importante destacar que somente Christine L. Borgman e Ricardo Baeza-Yates


e Berthier Ribeiro-Neto fazem referência a metadados. Nem Ricardo Baeza-Yates e
Berthier Ribeiro-Neto nem Gary Marchionini e seus co-autores mencionam que as
informações nas BDs devem estar acessíveis através de uma rede.

1
Tratamento da informação: acessar, indexar, visualizar, distribuir, gerenciar, entre outros
serviços.
17

Finalmente, no conceito proposto por William Y. Arms, destaca-se a parte de que


a informação deve ser gerenciada, uma vez que as BDs possuem um volume
considerável de informações (na ordem dos terabytes).

O próximo capítulo apresentará alguns dos formatos padrões e linguagens de


marcação mais amplamente utilizados em BDs. Procurar-se-á abordar as vantagens e
desvantagens peculiares de cada um.
18

3 PADRÕES DE FORMATO E MARCAÇÃO EM BD

3.1 Preâmbulo

Uma BD freqüentemente possui, em seu acervo, conteúdo legível por máquina,


possivelmente editável, estruturado, semi-estruturado e até mesmo não-estruturado,
podendo ser em formato multimídia, entre outros. Além disso, muitas vezes esses
dados necessitam ser exibidos em formatos diferentes, para usuários distintos.

Um princípio importante, durante o desenvolvimento de BDs, é a adesão e


aderência a padrões [MACCRAY 01]. Os documentos disponíveis nas BDs devem
estar codificados em formatos e linguagens de marcação padronizados, de modo a
facilitar o intercâmbio, o acesso e a manutenção das informações, entre outras
preocupações. A seguir será apresentado o estudo de alguns formatos e linguagens
utilizados em BDs. Esses formatos e linguagens foram escolhidos a partir da revisão
bibliográfica de [BARU 99], [CHRISTEL 01], [COLE 00], [EXNER 98], [RAABE 98],
[TENNANT 01], [W3C_HTML 02] e considera-se que são os mais utilizados pelas BDs
atualmente.

3.2 PDF - Portable Document Format

No processo de conversão de obras de formatos físicos para digitais, muitas BDs


necessitam manter o mesmo leiaute da obra original. Esta necessidade, entre outras,
motiva a adoção do formato PDF (Portable Document Format) pelas BDs.

O formato PDF, desenvolvido pela empresa Adobe, é um formato de arquivo


universal que conserva todas as fontes, formatos, cores, gráficos e documentos de
qualquer origem criados em qualquer aplicação e plataforma [ADOBE 02]. A empresa
Adobe apresenta, em [ADOBE 02], um conjunto de problemas e soluções que são
reproduzidos na Tabela 2: problemas comuns em atividades que lidam com
informações digitais, e as soluções encontradas com a utilização do formato PDF. É
19

importante esclarecer que esta tabela foi elaborada por uma empresa comercial e tem
como objetivo a comercialização do produto.

Problemas Comuns Soluções PDF


Os destinatários não podem abrir os Qualquer um, em qualquer lugar, pode
arquivos porque não dispõem das abrir um arquivo PDF, necessitando
aplicações que foram utilizadas para criar apenas do software proprietário gratuito
tais arquivos. Acrobat Reader.
Devido a incompatibilidade entre Os arquivos PDF aparecem tal como
plataformas, software e versões, perdem- foram criados.
se formatos, fontes e gráficos.
Alguns documentos não são impressos Os arquivos PDF sempre são impressos
na forma correta, devido às limitações de de forma correta, em qualquer
software ou da impressora. impressora.
Tabela 2 Problemas comuns e soluções PDF [ADOBE 02]

Todos os três problemas descritos na Tabela 2 são passíveis de ocorrer em


BDs. Numa troca de informações entre duas BDs A e B, ninguém pode garantir que os
documentos tenham sido gerados por aplicações disponíveis em ambas as BDs. Caso
o destinatário ainda consiga abrir o documento com outro aplicativo, alguns formatos
originais podem ser perdidos. Após aberto o documento, o usuário da BD B pode
desejar imprimi-lo, contudo sua impressora pode não ser compatível com o tipo de
documento gerado pela BD A.

O trabalho de André Raabe [RAABE 98] referenda a solução proposta para o


segundo problema da Tabela 2, quando afirma que, no processo de digitalização de
uma obra em papel, o leiaute da obra original é mantido de forma confiável, no caso
dos arquivos em formato PDF. Apesar de solucionar os problemas descritos acima, o
formato PDF apresenta um ponto desfavorável, que é a incapacidade de as máquinas
de busca acessarem o conteúdo dos documentos, deixando o usuário somente com a
opção de acessar esses conteúdos através do software proprietário Adobe Acrobat
Reader.

Esta limitação implica desvantagens nas atividades de uma BD. No processo de


indexação, por exemplo, o desenvolvedor fica limitado a indexar somente metadados,
pois o conteúdo dos documentos não está acessível por máquina em formato PDF.
Como conseqüência, a RI é prejudicada, fazendo com que documentos relevantes não
retornem para o usuário quando este realiza uma consulta.

Outra desvantagem refere-se à apresentação de documentos, uma vez que é


necessário um trabalho sobre-humano para apresentar partes dos mesmos. Um
20

exemplo é a visualização de apenas algum capítulo específico de um livro ou,


somente, o sumário do livro. Indexação e visualização de documentos são dois
exemplos de dificuldades encontradas nas atividades das BDs.

3.3 PS - Post Script

O formato PS é gerado a partir da linguagem Post Script, que é uma linguagem


de programação simples, interpretada, com capacidades gráficas poderosas [PSLRM
92]. A linguagem Post Script, criada em 1985 também pela empresa Adobe, deve ser
entendida como:

• uma linguagem de programação de propósito geral;

• uma linguagem de descrição de páginas (que também inclui características


de programação);

• um sistema interativo para controlar o formato de saída em dispositivos


(vídeos e impressoras, por exemplo);

• um formato de troca de documentos.

No contexto das BDs, são de interesse específico os dois últimos itens, uma vez
que a aplicação básica do formato PS é descrever a aparência do texto, formas
gráficas e imagens impressas ou apresentadas em vídeo. Este formato permite editar
o conteúdo dos documentos, possui baixa complexidade na formatação do conteúdo e
é amplamente utilizado quando os documentos precisam ser impressos. Pelo fato de
já existir um grande número de documentos no formato PS, muitas aplicações utilizam
este formato para troca de documentos.

Por outro lado, algumas desvantagens do formato PS incluem a impossibilidade


da codificação de material multimídia e o fato de o conteúdo dos arquivos não estar
disponível para acesso pelas máquinas de busca. Mas, a principal desvantagem do
formato PS é o tamanho final do arquivo, em relação aos outros formatos, tais como
PDF, HTML, XML e SGML. O formato PS ocuparia mais espaço do que os outros
formatos citados. No contexto de uma BD, a quantidade de informações estaria na
ordem dos terabytes.

Uma descrição completa da linguagem Post Script pode ser encontrada em


[PSLRM 92]. Para maiores detalhes sobre formatos eletrônicos de documentos, está
21

disponível uma tabela-resumo de suas características no site IFLANET1


(http://www.ifla.org/VI/5/op/udtop11/table.pf).

3.4 HTML - Hypertext Markup Language e SGML - Standard


Generalized Markup Language

HTML (Hypertext Markup Language) é a “língua franca” para publicar hipertexto


na Web [W3C_HTML 02]. Esta linguagem tornou-se bastante difundida, tanto do ponto
de vista acadêmico quanto comercial, devido a sua simplicidade. Contudo, com o
passar do tempo, algumas necessidades dos usuários da Internet mudaram e esta
linguagem passou a não suportar atividades, tais como marcação de conteúdo
separada de marcação de exibição, identificação semântica de conteúdos e
organização hierárquica das etiquetas, entre outras.

O SGML (Standard Generalized Markup Language) é um padrão internacional


(ISO 8879) publicado em 1986 e regula o uso de marcações descritivas mescladas ao
documento. O SGML também fornece um método padrão para nomear as estruturas
de um texto, definindo modelos hierárquicos para cada tipo de documento produzido.
A linguagem SGML força cada um dos elementos descritos, como "capítulo", "título" e
"parágrafo", por exemplo, a se ajustarem à estrutura lógica e previsível do documento.

Uma vantagem, em relação aos padrões PDF e PS, se refere ao tamanho final
do arquivo que, usando HTML e SGML, é menor. Por outro lado, a maior desvantagem
da linguagem SGML, em relação à HTML e à recente XML, é o nível de complexidade.
Somente grandes empresas estão trabalhando com SGML. Isso se deve ao fato de as
mesmas possuírem mais recursos humanos, pessoais e financeiros para suportar as
dificuldades impostas pela complexidade. Assim, o uso da linguagem SGML ficou
bastante restrito, fazendo com que este padrão fosse dificilmente adotado por
pequenas e/ou médias empresas.

3.5 XML - eXtensible Markup Language

A maior parte do material convertido para texto através de OCR (Optical


Character Recognition) é ainda produzida em PDF ou HTML [RUSBRIDGE 98].

1
International Federation of Library Associations - http://www.ifla.org
22

Entretanto, ambos os formatos permitem acesso muito restrito à estrutura da


informação. Outra opção de formatação poderia ser SGML, contudo a complexidade
intrínseca da linguagem faz com que os desenvolvedores evitem usá-la. Nesse
contexto, surge a linguagem XML (eXtensible Markup Language), que produz uma
alternativa menos complexa que SGML e mais rica do que HTML, para estruturar os
objetos disponíveis em uma BD. Para Nina Exner e co-autores, em [EXNER 98], XML
é mais econômica e mais fácil de implementar.

Segundo Elliotte R. Harold, em [HAROLD 99], XML é um conjunto de regras para


definir etiquetas semânticas. Divide um documento em partes e as identifica. A
introdução da especificação XML elaborada pelo W3C (World Wide Web Consortium)
[BRAY 00] diz que “XML descreve uma classe de dados chamada ‘documentos XML’ e
descreve parcialmente o comportamento de programas de computador que os
processam.” O XML é uma forma restrita do SGML e os documentos XML estão em
consonância com os documentos SGML.

3.5.1 Vantagens da linguagem XML

A linguagem XML pode produzir documentos codificados com etiquetas


semânticas e folhas de estilo XSL (eXtensible Style Language) para gerar
automaticamente coleções de sites, conforme Dale Flecker relata em [FLECKER 00].
O objetivo é criar sites como objetos de dados, para que a manutenção possa ser
realizada como uma tarefa centralizada.

Quanto à apresentação de documentos, um livro, por exemplo, é um objeto


altamente estruturado, com informações, tais como capítulos, títulos, parágrafos e
bibliografia, entre outras. Um livro marcado com XML pode ser apresentado de várias
formas – capítulo por capítulo ou como um sumário (pela extração dos cabeçalhos das
seções do documento), por exemplo. Outra forma de apresentação que está
disponível é através de dispositivos pessoais, tais como pagers, celulares e leitores de
e-books.

Especificamente, os dados poderão ser exibidos conforme os usuários


desejarem, pois as folhas de estilo XSL produzirão diferentes visões do mesmo
documento. Contudo, Roy Tennant, em [TENNANT 01], diz que esta tarefa não é
trivial, mas a utilização da linguagem XML torna o processo mais fácil. Outras
23

vantagens, proporcionadas pelo uso da linguagem XML em BDs, são descritas por
Eric V. Herwijnen, em [HERWIJNEN 00]:

• A estrutura e a marcação de um documento XML facilitam a criação de


bases de documentos, ao mesmo tempo que o conteúdo marcado em XML
pode ser apresentado na Internet ou em um CD-ROM.

• Os metadados podem ser explicitamente lidos das etiquetas XML,


possibilitando um conjunto padrão de etiquetas entre as bibliotecas. Portanto,
XML evitaria a necessidade de registros MARC.

A linguagem XML provê outras facilidades para as BDs, tais como melhor
identificação semântica dos conteúdos, herdar documentos de BDs já existentes pela
adição de links sem modificar os documentos fonte [BAUER 01], e aumento da
velocidade de RI em BDs [BARU 99], [CHRISTEL 01].

Em termos comparativos com outros formatos e linguagens, XML tem uma


versatilidade maior que PDF, segundo Nina Exner e co-autores [EXNER 98].
Versatilidade significa que as folhas de estilo XSL permitem a exibição de informações
mediante as ações do usuário, ou seja, o usuário visualiza somente a parte do
documento que lhe interessar. Apesar disso, Timothy Cole [COLE 00] afirma que PDF
e outros formatos proprietários de alta qualidade continuarão sendo usados.

Na Tabela 3, proveniente do trabalho de Stuart Madnick [MADNICK 01], são


apresentados alguns dos benefícios do XML em relação ao HTML, através de cinco
importantes características.
24

Característica HTML XML


Extensibilidade Conjunto fixo de etiquetas Conjunto de etiquetas
extensível
Propósito das etiquetas Etiquetas descrevem Etiquetas descrevem
apresentação conteúdo
Visão Apresentação única Múltiplas visões do mesmo
documento (por XSL)
Orientação Documentos Documentos + dados semi-
estruturados
Pesquisa Somente por palavra-chave Por palavra-chave +
consultas por campos
sensíveis à utilização de
letras maiúsculas ou
minúsculas nas
expressões
Tabela 3 Benefícios do XML em relação ao HTML [MADNICK 01]

Quanto à característica “extensibilidade”, a linguagem HTML oferece um


conjunto fixo de etiquetas tais como "<B>", "<I>", "<P>". Ao contrário, um conjunto de
etiquetas extensível, refere-se ao fato de o desenvolvedor poder criar suas próprias
marcações. No caso da marcação de um livro, pode-se gerar etiquetas padronizadas,
como por exemplo "<TÍTULO>", "<AUTOR>" e "<SEÇÃO>", entre outras.

Nos exemplos descritos no parágrafo anterior, percebe-se que as etiquetas, no


padrão HTML, descrevem características de exibição de um determinado documento,
tais como tamanho da margem, da fonte, etc., ao passo que a marcação XML
descreve o conteúdo dos documentos, ou seja, identifica o conteúdo de forma
semântica.

Pelo fato de a linguagem HTML possuir marcação de exibição misturada com


conteúdo, o mesmo documento pode ter somente uma forma de apresentação. Caso
seja necessário exibir este documento de outra maneira, ele terá que ser etiquetado
novamente. No caso do padrão XML, apenas um documento é marcado, e as folhas
de estilo XSL possibilitam múltiplas visões deste documento. Esta característica ainda
implica a facilidade de manutenção.

Finalmente, XML é orientado a documentos mais dados semi-estruturados pois,


em um processo de consulta os dados estão identificados semanticamente. Além
disso, com o padrão XML, é possível fazer distinção entre caracteres maiúsculos e
minúsculos nos termos digitados para consulta.
25

3.5.2 Usos do padrão XML

Através da revisão bibliográfica foi possível constatar que a utilização da


linguagem XML tem apresentado um crescimento bastante grande em diversas
aplicações na Web, entre elas, BDs. Especificamente, em BDs, tem-se os seguintes
exemplos de uso: [BIA 00], [COLE 00], [MILLER 00], [SULEMAN 00].

Eric V. Herwijnen, em [HERWIJNEN 00], analisa três áreas de uso potencial para
XML:

1) Como uma “língua franca” para documentos que são distribuídos


eletronicamente na Internet. XML aumentará o número de documentos na
forma full text e facilitará as atividades padrão de uma BD, tais como
classificação, catalogação, pesquisa e RI.

2) Como uma linguagem de troca entre sistemas (de BDs, por exemplo).

3) Como uma linguagem para descrição de dados, pois suas etiquetas


permitem uma identificação semântica dos dados.

3.6 Considerações

Este capítulo apresentou padrões de formato e marcação utilizados em BDs. Os


formatos PDF e PS encontram-se vastamente distribuídos em documentos digitais
devido à portabilidade e à popularidade de seus aplicativos proprietários, Acrobat
Reader e Ghost View, respectivamente.

Quanto às linguagens de marcação, através das referências bibliográficas


estudadas e das informações descritas neste capítulo, pode-se concluir que XML é um
formato de marcação bastante adequado para suportar as atividades das BDs
disponíveis na Web. Além disso, percebe-se uma forte tendência para a adoção da
linguagem XML, devido às vantagens descritas.

Um dos fatores que mais influenciam as BDs a adotarem padrões é o fato de as


mesmas lidarem constantemente com interoperabilidade de serviços e documentos.
Para facilitar a interoperabilidade é importante que as BDs adotem metadados. Esses
assuntos serão tratados no próximo capítulo.
26

4 METADADOS EM BD

4.1 Preâmbulo

BDs tradicionalmente possuem grandes quantidades de dados (da ordem de


terabytes) que precisam ser manipulados freqüentemente, de forma eficiente, para
fornecer condições de uso aos usuários. Este capítulo descreve a importância dos
metadados no contexto das BDs, apresenta alguns dos principais conjuntos de
metadados e trata sobre interoperabilidade de dados.

Para diferentes comunidades de usuários, desde bibliotecários até cientistas da


computação, o escopo e o propósito dos metadados são diferentes. Para os
bibliotecários, metadados são considerados registros em um catálogo, enquanto que,
para um projetista de banco de dados, metadados são esquemas relacionais e
dicionários de dados.

Metadado pode ser definido como “dado estruturado sobre dado”. De acordo
com Date, em [DATE 91], metadados são “descrições de outros objetos no sistema, ao
invés de simples ’dados em bruto’ ”. Para Ricardo Baeza-Yates e Berthier Ribeiro-
Neto, em [BAEZA-YATES 99], metadados são atributos de dados ou documentos,
normalmente descritivos, com informações sobre autor e conteúdo, freqüentemente
subdivididos em categorias ou facetas, tipicamente mantidos em um catálogo,
algumas vezes registrado de acordo com algum framework, como os padrões DC -
Dublin Core (ver seção 4.3.1) ou MARC (ver seção 4.3.2). O conceito de metadados,
quando aplicado ao contexto de bibliotecas, digitais ou tradicionais, normalmente
refere-se a informação que [SMITH 96]:

• produz uma (geralmente breve) caracterização do objeto de informação nas


coleções de uma biblioteca;

• é armazenado principalmente como os conteúdos dos catálogos digitais em


bibliotecas tradicionais;

• é usado para ajudar os usuários a acessarem objetos de informação de


interesse.
27

De acordo com Mathew Weaver, em [WEAVER 01], metadados separam e


relatam propriedades, de forma que o usuário possa ser preciso na descrição do
conteúdo do documento. Essa precisão pode ser expressa através de metadados
externos ou metadados baseados em conteúdo1 [HEARST 99].

Metadados externos referem-se a informações associadas à produção e uso do


documento. Exemplos como linguagem, data de criação e autor, aplicam-se ao
documento inteiro.

Em contraste com os metadados externos, estão os metadados baseados em


conteúdo: descrições sobre o que é realmente um documento – seu conteúdo ou
significado [HEARST 99]. Palavras-chave contidas em um artigo enviado para jornais
ou revistas, por exemplo, são metadados baseados em conteúdo.

Um tópico importante é o relacionamento entre metadados externos e


metadados baseados em conteúdo. Existem esforços para definir tipos de metadados
para a Web, como em [LAGOZE 96]. Nesta fonte, o foco mais importante é voltado
aos metadados externos, deixando-se o conteúdo para um campo chamado subject ou
algo similar [HEARST 99].

Segundo Ricardo Baeza-Yates e Berthier Ribeiro-Neto, em [BAEZA-YATES 99],


a discussão sobre metadados é crucial para permitir a transição de bibliotecas
tradicionais (com catálogos complexos e dispendiosos) para um ambiente Web, que
disponibilize metadados para todos os tipos de objetos digitais, metadados estes que
sejam adequados para permitir a organização de vastas coleções em BDs.

Metadados podem descrever não somente documentos mas, também, coleções


e BDs inteiras, juntamente com os serviços que as mesmas oferecem [BALDONADO
97]. O registro de metadados associado a um objeto digital contém informação
descritiva e funcional [COLE 00]. A Tabela 4 apresenta uma lista com exemplos de
metadados descrevendo características de serviços gerais.

1
Do inglês contentful
28

Atributo Metadado Descrição


versao Versão do objeto metadado
nomeColeçao Nome da coleção que está sendo descrita
nomesAtrModelo Modelos de atributo suportados
nomesAtr Atributos suportados
booleanOps Operadores booleanos suportados
proximidade Tipo de palavra próxima suportada
truncation Padrões de truncamento1 suportados
modificadoresImplicitos Modificadores implícitos suportados (por exemplo,
stemming)
listaStopWords Stopwords2 suportadas
linguagens Origem das Linguagens (por exemplo, pt-Brasil, para
Português do Brasil)
linkConteudoSumario URL do resumo do conteúdo da coleção
dataModificacao Data da última modificação do objeto metadado
dataExpiracao Data em que o objeto metadado será revisado
resumo Resumo da coleção
restricoesAcesso Restrições para acessar a coleção
contato Informação para contato com o administrador da coleção
Tabela 4 Atributos metadados [BALDONADO 97]

Uma das funções fundamentais na utilização de metadados, mormente na Web,


é facilitar a interoperabilidade tanto entre os sistemas, tais como máquinas de busca e
comércio eletrônico, quanto entre BDs. A próxima seção abordará a interoperabilidade
sob o ponto de vista das BDs.

4.2 Interoperabilidade

Conforme Bill Birmingham e co-autores, em [BIRMINGHAM 00],


interoperabilidade é a capacidade das BDs trocarem e compartilharem documentos,
consultas e serviços. Através dessa troca e compartilhamento são realizadas
interações entre os sistemas das BDs.

1
Do inglês truncation
2
Palavras que podem ser eliminadas no pré-processamento de textos (por exemplo, “de”,
“por”, “pelo”, etc.).
29

Interações requerem que informações em uma BD estejam organizadas


eficientemente [ARMS 97]. A chave para a interoperabilidade do conteúdo digital e, de
fato, de qualquer coleção digital, segundo Tony Gill e Paul Miller, em [GILL 02], é a
consistência, a qual é alcançada através do uso de padrões.

Quando uma grande população de usuários procura acessar diversas BDs,


questões de interoperabilidade tornam-se cruciais. Idealmente, todas as bibliotecas
devem suportar funções de um modo similar ou, ao menos, aderir a certos padrões, de
forma que possa haver acesso e troca de informações [BIRMINGHAM 00].

O objetivo da interoperabilidade é disponibilizar serviços coerentes aos usuários,


a partir de componentes tecnicamente diferentes e gerenciados por organizações
diferentes [ARMS 02]. Isto requer cooperação em três níveis: técnico, de conteúdo e
organizacional.

• Em nível técnico se cobrem formatos, protocolos, sistemas de segurança,


etc., para que as mensagens possam ser trocadas.

• Em nível de conteúdos se cobrem dados e metadados e se incluem


protocolos semânticos, na interpretação da informação.

• Em nível organizacional se cobrem regras básicas para acesso, preservação


de coleções e serviços, pagamentos, autenticação, etc.

Definir essas cooperações é difícil, mas o desafio central é criar incentivos para
que BDs independentes participem de tais operações. Apesar de ser uma
característica desejada nos sistemas, a interoperabilidade plena dificilmente é atingida
– mesmo quando se trata de sistemas relativamente atuais [PACHECO 01].

4.3 Conjuntos de elementos de metadados

Os conjuntos de elementos de metadados foram desenvolvidos tendo em vista


proporcionar uma melhor descrição dos dados disponíveis em um determinado
domínio. Existem diversos conjuntos de elementos de metadados na literatura, e
dentre os principais, segundo William Arms [ARMS 02], estão Dublin Core, MARC e
RDF, que serão tratados nas subseções que seguem.
30

4.3.1 DC - Dublin Core1

O Dublin Metadata Core Element Set (ou Dublin Core, de forma abreviada) é
uma lista de treze elementos de metadados principais, criada pelos participantes do
OCLC/NCSA Metadata Workshop, realizado em março de 1995. Este foi um encontro
de especialistas provenientes de áreas como biblioteconomia, computação e,
especificamente, Processamento de Linguagem Natural.

O objetivo do grupo era criar uma ferramenta para descrição de metadados que
fosse fácil de ser utilizada, além de ajudar as pessoas a encontrar informações
eletrônicas de modo similar ao provido por um sistema de busca de uma biblioteca.

O DC reúne quinze categorias amplas em que frameworks descritivos, mais


complexos ou especializados, podem organizar-se. Tal conjunto de metadados é
necessário para funções como estrutura e navegação, administração de objetos
digitais, autenticação, certificação e procedência, termos e condições, confiabilidade2 e
qualidade, privacidade e longevidade [ALLOWAY 99].

Os principais elementos de metadados do Dublin Core são [DC 98]:

• Title – O título que um autor ou editor atribui a um trabalho.

• Subject – Assunto de que trata o trabalho; definido com palavras-chave ou


tópicos.

• Description – Uma breve descrição do trabalho, tal como um abstract.

• Author ou Creator– Autor ou autores responsáveis pelo conteúdo do


trabalho.

• Publisher – Um agente ou agência responsável pela disponibilização do


trabalho em sua forma atual; normalmente uma editora ou instituição
educacional.

• OtherAgent ou Contributor – Pessoas, além do(s) autor(es), que contribuíram


substancialmente para o trabalho (por exemplo, artistas e editores).

• Date – Data da disponibilização do trabalho em sua forma descrita.

1
http://dublincore.org/documents/1998/09/dces/#
2
Do inglês trust
31

• ObjectType – Tipo de objeto; como exemplo, podemos citar livros, poemas e


páginas Web.

• Form or Format – Formato que o trabalho assume: normalmente, um tipo de


arquivo, tal como PDF, HTML or JPG.

• Identifier – Uma cadeia de caracteres que identifica exclusivamente o objeto,


(exemplos: ISBN e URIs).

• Relation – Relacionamento, se existir algum, do trabalho com outros


trabalhos (normalmente descreve um trabalho como parte de um conjunto
maior).

• Source – Outras fontes (caso se aplique) das quais o trabalho se deriva.

• Language – O idioma usado no trabalho.

• Coverage – A área geográfica que o trabalho engloba, se aplicável.

• Rights – Direitos ou outras propriedades intelectuais especificando as


condições através das quais o trabalho pode ou não ser usado.

Title
Subject
Description
Author ou Creator
Publisher
OtherAgent ou Contributor
Date
ObjectType
Form or Format
Identifier
Relation
Source
Language
Coverage
Rights
Tabela 5 Resumo dos principais elementos de metadados do Dublin Core

Para Alexa Mccray e co-autores, em [MCCRAY 99], esse conjunto de elementos


do DC, resumidos na Tabela 5, provê simplicidade, interoperabilidade semântica (útil
32

através de domínios potencialmente muito diferentes), consenso internacional (pois a


Internet é um recurso global), extensibilidade e modularidade na Web (permitindo
coexistência de frameworks complementares em arquiteturas genéricas, tais como
RDF).

O DC é um padrão adotado mundialmente e tem sido utilizado em vários


projetos que buscam um entendimento entre diferentes comunidades de usuários. Ao
todo, são mais de 45 países utilizando este padrão. Alguns exemplos podem ser
encontrados em [ANDREONI 99], [BENNETT 02], [SOUZA 00].

4.3.2 MARC - MAchine-Readable Cataloging

MARC (MAchine-Readable Cataloging) define um formato de dados que emergiu


da Biblioteca do Congresso dos EUA, cuja iniciativa começou cerca de trinta anos
atrás, mais precisamente em 1968. MARC tornou-se USMARC nos anos 80 e
MARC21 no final dos anos 90. As informações aqui trazidas sobre esse formato são
provenientes de [MARC 02].

Um registro bibliográfico (cataloging record) MARC é um padrão para


representação e comunicação de informação bibliográfica relatada em forma legível
por máquina (machine-readable). A entrada de dados bibliográficos padronizados,
utilizando formatos MARC, garante a integridade do catálogo público online no
armazenamento e na RI.

Para explicitar a definição, é importante o entendimento dos termos machine-


readable e cataloging record. O primeiro, significa que um tipo particular de máquina,
um computador, pode ler e interpretar o dado em um catálogo de registros. Cataloging
record é um registro bibliográfico, ou informação tradicionalmente apresentada em um
catálogo. Isso inclui, ao menos (não necessariamente nesta ordem):

• uma descrição do item, tal como título, descrição física, edição, etc.

• entrada principal e entradas adicionais: pontos de acesso para recuperação


de determinado item.
33

• cabeçalhos1: identificação de um item de forma a garantir que todos os itens


de um assunto particular estejam sob o mesmo cabeçalho e, portanto, no
mesmo local no catálogo.

• a classificação ou identificador: o propósito do identificador é colocar os livros


de um mesmo assunto agrupados na mesma “estante”, em uma BD.

Diante da necessidade de adapatar-se ao eminente padrão de marcação XML


na Internet, a Biblioteca do Congresso e o MARC Standards Office estão
desenvolvendo um framework (ver Figura 1) para funcionar com dados no padrão
MARC em um ambiente XML. Este framework deve ser flexível e extensível, de modo
a facilitar uma customização dos dados que utilizam o padrão MARC, conforme as
necessidades dos clientes.

Através da conversão entre MARC 21 (2709) e MARC 21 (XML), conforme


ilustrado na Figura 1, atividades como a transformação de etiquetas, geração de
outros formatos de dados e validação de registros MARC, entre outras, poderão ser
realizadas.

Figura 1 Conversão MARC 21 (2709) de/para MARC 21 (XML) [MARC 02]

Por um framework flexível entende-se permitir aos usuários trabalharem com


dados MARC de uma forma específica que atenda suas necessidades. O framework
conterá muitos componentes tais como esquemas, folhas de estilo e ferramentas de
software desenvolvidas e mantidas pela Biblioteca do Congresso Americano.

1
Do inglês subject headings
34

Os clientes dos registros MARC XML serão beneficiados através de


transformação, apresentação e análise de dados:

• Transformação é a conversão entre MARC XML e outros formatos de


metadados.

• Apresentação é a exibição e/ou remarcação de dados MARC em alguma


outra forma legível.

• Análise é o processamento de dados MARC para produzir saída analítica, tal


como validação.

A utilização do padrão MARC21 abrange algumas bibliotecas, a saber: Biblioteca


Nacional do Canadá, Biblioteca Nacional da África do Sul e a Biblioteca Nacional da
Escócia, entre outras.

4.3.3 RDF - Resource Description Framework

O RDF (Resource Description Framework), recomendado pelo W3C, é uma base


para o processamento de metadados que usa notação XML como sintaxe de
codificação para descrição de metadados. Os elementos construtivos do XML são
usados para descrever o modelo de dados do RDF. Isso permite que as descrições
sejam analisadas sintaticamente por analisadores sintáticos XML, e passadas para
aplicativos que reconheçam o XML.

Segundo Natanya Pitts-Moultis e Cheryl Kirk, em [PITTS-MOULTIS 00], o


principal objetivo do RDF é facilitar o intercâmbio de informações (que podem ser
interpretadas por máquinas) entre aplicativos via Web. Dieter Fensel, em [FENSEL
00], acrescenta mais um objetivo ao RDF que é prover semântica formal para a Web.
Um dos atributos importantes do RDF é sua habilidade de automatizar o
processamento de recursos Web. Essa automatização refere-se ao fato de recursos
Web tais como URLs e URIs, entre outros, estarem formalmente descritos em RDF.

O RDF funciona com todos os tipos de dados eletrônicos, e possui uma


variedade de aplicações, entre as quais podemos destacar: a identificação consistente
de direitos autorais, marcas registradas e outras informações de propriedade
intelectual em recursos da Web; a catalogação avançada de recursos e seus
relacionamentos dentro de um único sistema ou entre vários sistemas; e a pesquisa
35

mais especializada de arquivos de dados, pois os dados em si estão melhor


identificados [PITTS-MOULTIS 00].

Um exemplo de aplicação RDF é apresentado em [LAGOSE 98], que utilizou


grafos dirigidos RDF do conjunto de metadados DC como um método simples para
expressar critérios na coleção de documentos. Utilizando estes grafos é possível
expressar critérios, tais como “sujeito igual a Ciência da Computação”. Neste caso,
“Ciência da Computação” representa um recurso (uma URL, por exemplo) identificado
pelo metadado DC subject (ver Tabela 5).

O DC não possui uma sintaxe específica e não é um componente direto do RDF


(ver seção 4.3.3), porém é um dos primeiros frameworks testados com o RDF. Ele
isola muitos dos componentes metadados que o RDF utiliza em sua descrição de
recursos da Web.

Segundo a referência [W3C_RDF 97], RDF permitirá a aplicações diferentes


definirem propriedades de metadados que melhor servem a comunidades diferentes.

Outros conjuntos de elementos de metadados (padrões) menos utilizados são os


seguintes: LTSC (IMS) - Learning Technology Standards Committee1, ADL (SCORM) -
Advanced Distributed Learning (Sharable Content Object Reference Model)2, FGDC -
Content Standard for Digital Geospatial Metadata3 e GILS - Global Information Locator
Service4.

4.4 Considerações

De acordo com Mei Kobayashi e Koichi Takeda, em [KOBAYASHI 00], se o


público em geral adotar e usar um único padrão de metadados (tal como DC), a
precisão da RI pelas máquinas de busca melhorará substancialmente. Entretanto, a
ampla adoção de um padrão, pelos usuários internacionais, é difícil. Ao mesmo tempo,
sem uma ampla adoção de um padrão de metadados, as dificuldades encontradas
atualmente permanecerão, tanto na Web quanto nas BDs.

Com o conceito de interoperabilidade, procurou-se enfatizar a importância dos


metadados. A interoperabilidade entre BDs depende do compartilhamento efetivo de

1
http://ltsc.ieee.org/
2
http://www.adlnet.org/
3
http://www.fgdc.gov/metadata/contstan.html
4
http://www.gils.net/
36

metadados [BLANCHI 01]. Entretanto, ainda existe muita confusão sobre como o
metadado deve ser integrado aos sistemas de informação, devido a questões tais
como [DUVAL 02]: “Como ele é criado ou estendido? Quem o gerenciará? Como ele
pode ser usado ou "trocado"? De onde vem sua autorização? Diferentes padrões de
metadados podem ser usados juntos em um dado ambiente?” Outra questão que
ainda causa dúvida é: “Quais tipos de metadados são importantes para um
determinado ambiente?” Todas estas questões têm motivado o estudo sobre
metadados neste trabalho.

O sucesso da interoperabilidade está eminentemente relacionado à organização,


tanto das informações, quanto dos metadados disponíveis nas BDs. Por esta razão, o
próximo capítulo abordará a arquitetura de informações e a arquitetura de metadados.
37

5 ARQUITETURAS PARA BDS

5.1 Preâmbulo

Neste capítulo procurar-se-á discutir os principais tópicos relacionados às


arquiteturas de informação e de metadados, sendo apresentado um framework
[LAGOZE 96] para tratar diferentes padrões de metadados, tais como os padrões
MARC e DC introduzidos no capítulo 4.

5.2 Arquitetura de informações

Flexibilizar a organização da informação é um dos desafios "chave" no projeto de


qualquer BD [ARMS 97]. O propósito da arquitetura de informação é representar as
informações ricas e variadas de uma biblioteca. Essas informações referem-se à
livros, revistas, jornais, etc., que estão relacionados por assuntos, autores e/ou títulos.
As mesmas serão manipuladas por bibliotecários (no atendimento ao cliente, por
exemplo) e acessadas por usuários (na realização de uma consulta, por exemplo).
Para que essas operações sejam realizadas com sucesso, as informações nas BDs
devem estar organizadas efetivamente. Segundo William Arms, em [ARMS 97], as
principais discussões a respeito da estrutura das informações incluem
relacionamentos, formatos, direitos e permissões, redes e sistemas de computadores
e componentes. A seguir passamos a abordar cada um destes tópicos.

• Relacionamentos

Materiais digitais são freqüentemente vinculados a outros materiais por


relacionamentos tais como parte/todo e seqüência, entre outros. Por exemplo, um
texto pode consistir de páginas, índice, capítulos e assim por diante. Na Web, um item
típico pode incluir várias páginas de texto, com imagens incorporadas e links para
outras informações.
38

• Formatos

O mesmo item pode ser armazenado em diferentes formatos digitais. Algumas


vezes, esses formatos são equivalentes, e é possível realizar a conversão de um
formato para outro (por exemplo, uma imagem descompactada e a mesma imagem
armazenada compactada). Por outro lado, formatos diferentes contêm informações
diferentes (por exemplo, podemos citar representações de uma página de texto nos
formatos XML e PostScript ou livros eletrônicos, e-books, que atualmente utilizam
HTML, XML ou PDF como padrão [SNOWHILL 01]).

• Versões

Pela dinamicidade com que objetos digitais mudam, versões diferentes são
criadas continuamente (por exemplo, algumas empresas modificam suas home pages
várias vezes por mês). Versões podem diferir por um simples bit ou podem ser
bastante diferentes. Quando um material é convertido para a forma digital, o item físico
original pode ser convertido diversas vezes. Por exemplo, uma foto digitalizada pode
ter uma versão em alta resolução, outra em média resolução ou, ainda, ser
representada de forma minimizada, em baixa resolução.

• Direitos e permissões

Cada elemento da informação digital pode ter permissões e direitos diferentes


associados. Quais usuários podem acessar o objeto X? Eles podem ter acesso a todo
o conteúdo do objeto ou a apenas uma parte? Quais bibliotecários têm permissão para
criar/eliminar o objeto Y? Essas questões, entre outras, devem ser levadas em
consideração na construção da estrutura de informações.

• Redes e sistemas de computadores

O modo como o usuário deseja acessar o material pode depender das


características das redes e sistemas de computadores, e do tamanho do material (por
exemplo, um usuário conectado a uma BD através de uma rede de alta velocidade
pode ter um padrão de trabalho diferente de outro usuário conectado à mesma rede
usando uma linha discada).

• Componentes

O último aspecto de discussão sobre arquitetura de informações refere-se aos


componentes através dos quais uma BD é construída. Esses componentes serão
apresentados na próxima seção.
39

5.2.1 Objetos Digitais

De acordo com William Arms, em [ARMS 97], do ponto de vista da computação,


a BD é formada por objetos digitais. Um objeto digital1 corresponde ao modo de
estruturar a informação na forma digital. Isto pode ocorrer através de metadados (ver
seção 4) que podem ter um único identificador, o handle. O handle é independente da
localização onde o objeto digital está armazenado e pode permanecer válido por
períodos de tempo muito longos [ARMS 95]. A Figura 2 apresenta as partes de um
objeto digital conforme este autor, e é explicada ao longo da presente seção do
trabalho.

Handle

Propriedades
Log de
transação
Conteúdo
(bits)

Assinatura
(opcional)

Figura 2 Partes de um objeto digital [ARMS 95]

A informação armazenada em uma BD possui um certo grau de complexidade.


Um trabalho simples pode ter muitas partes, uma estrutura interna complexa e um ou
mais relacionamentos com outros trabalhos. Para representar a complexidade da
informação na BD, vários objetos digitais podem ser agrupados, formando assim um
conjunto de objetos digitais [ARMS 97].

Gerenciar um grande número de objetos digitais não é uma tarefa trivial


[FLECKER 00]. Para isso, certos metadados são necessários. Também pode-se
incluir, no objeto digital propriedades, tais como, métodos de direitos e acessos. Os
direitos determinam se um objeto digital é mutável, isto é, se ele pode ser alterado
após ser colocado em um repositório. O acesso é uma assinatura digital ou outro

1
Por objeto digital entenda-se informação armazenada em formato digital, por exemplo,
documento, música, filme, figura, etc.
40

método que sirva para garantir que um objeto não tenha sido trocado.
Freqüentemente, é útil manter um log de todas as transações associadas a cada
objeto digital.

Alexa McCray e Marie Gallagher, em [MCCRAY 01], afirmam que se deve levar
em consideração fatores como preservação e persistência dos objetos digitais na
construção de BDs. Preservação refere-se à longevidade e qualidade técnica de um
objeto; persistência implica um compromisso na manutenção do objeto, de modo que
ele continue existindo e acessível.

Um exemplo de troca de formato de dados para aumentar a longevidade de


objetos digitais pode ser encontrado na Lane Medical Library [MILLER 00], onde foi
utilizada a linguagem XML para converter e-mail e possivelmente outros documentos
eletrônicos que usavam formatos obsoletos.

William Arms, em [ARMS 97], sintetiza que a arquitetura de informação está


baseada em três conceitos: tipos de dados, structural metadata e meta-objetos. O tipo
de dado descreve as propriedades técnicas do dado, tal como formato ou método de
processamento. Structural metadata descreve os tipos, versões, relacionamentos e
outras características (por exemplo, as características apresentadas no capítulo 4) dos
materiais digitais. Um meta-objeto é um objeto que faz referências a um conjunto de
objetos digitais. Um exemplo de meta-objeto é um objeto digital que liste todas as
versões de um item físico específico.

A seguir será apresentada a arquitetura de metadados que é um modo de


suportar operações sobre metadados nas BDs.

5.3 Arquitetura de metadados

De acordo com Erik Duval, em [DUVAL 02], arquitetura de metadados pode ser
definida como uma coleção coerente de tecnologias, conjuntos de elementos e
padrões que coletivamente suportam a criação, gerenciamento e troca de metadados
interoperáveis.

Com o crescimento do número e da variedade de recursos disponíveis na


Internet, existe a necessidade de uma arquitetura para associar os diversos tipos de
metadados a esses recursos. Gerenciar os vários formatos de dados, especialmente
tendo em vista as mudanças de requisitos sobre o tempo de vida esperado de um
41

sistema, é um amplo desafio técnico [DANIEL 98]. Uma arquitetura de metadados,


para acomodar estes diferentes formatos de dados, é um desafio importante. Para
lidar com esta diversidade de tarefas específicas dos conjuntos de metadados
específicos de uma comunidade, surgiu o Warwick Framework (WF).

5.3.1 Warwick Framework (WF)

O WF originou-se de uma tentativa, no Second Invitational Metadata Workshop,


de definir um mecanismo de extensão para o DC, para prevenir o crescimento irrestrito
da complexidade do DC [DANIEL 98]. O framework, no caso, é um mecanismo para
agregar logicamente, ou talvez fisicamente, pacotes distintos de metadados [LAGOZE
96]. O WF preocupa-se com o problema da extensão agregando pacotes de
metadados “tipados” dentro de containers.

container

pacote
Dublin Core

pacote
registro MARC

pacote URI pacote


indireto termos e
condições

Figura 3 Exemplo de um container WF [LAGOZE 96]

O container na Figura 3 contém três pacotes lógicos de metadados. Os dois


primeiros, um registro Dublin Core e um registro MARC, estão contidos dentro do
container como um par de pacotes. O terceiro conjunto de metadados, que define os
termos e condições para acesso ao conteúdo do objeto, é referenciado indiretamente
(pacote indireto) via um URI (Uniform Resource Identifier) no container [LAGOZE 96].

O WF define três tipos de pacotes [DANIEL 98]:

• Container: Combinação de pacotes (conforme Figura 3).

• Pacotes Simples: São pacotes contendo metadados, tais como DC, registros
MARC, assinaturas digitais, etc. Esses pacotes utilizam sintaxe e modelos de
dados específicos de uma comunidade.
42

• Pacotes Indiretos: Pacotes não precisam ser incluídos no container, eles


podem ser acessados por referências, tais como URLs.

Segundo Carl Lagose, em [LAGOSE 96], WF é a modularização da questão


sobre metadados com um número de características notáveis, tais como:

• Permitir aos projetistas de conjuntos de metadados individuais concentrarem-


se nos seus requisitos específicos, sem se preocuparem com a
generalização para um escopo ilimitado.

• Permitir que a sintaxe dos conjuntos de metadados varie conforme os


requisitos semânticos, práticas da comunidade e requisitos funcionais para o
tipo de metadado em questão.

• Separar o gerenciamento e a responsabilidade dos conjuntos de metadados


específicos entre suas respectivas "comunidades de especialistas".

• Promover a interoperabilidade, ao permitir que ferramentas e agentes


acessem e manipulem seletivamente alguns pacotes individuais e ignorem
outros.

• Permitir que os diferentes conjuntos de metadados que estão relacionados


ao mesmo objeto sejam controlados separadamente.

• Flexibilizar a acomodação futura de conjuntos de metadados, não exigindo


mudanças nos conjuntos ou programas existentes que fazem uso deles.

Conforme Lorcan Dempsey e Stuart Weibel, em [DEMPSEY 96], esta arquitetura


permite misturar e combinar conjuntos de pacotes de metadados discretos, permitindo
um desenvolvimento racional de muitas descrições de modelos existentes e
emergentes. O framework é um conceito simples, mas ele tem importantes
implicações para interoperação, além de ser a base para sistemas de metadados que
tenham uma “longa vida”.

Para um melhor funcionamento do framework, algumas questões necessitam ser


respondidas:

• Em nível de container, qual a sintaxe para transferir conjuntos de pacotes?

• Como os dados estão codificados em nível de pacotes?

• Quais habilidades clientes e/ou agentes devem ter, para reconhecer e


processar a semântica dos diversos conjuntos de metadados?
43

BDs devem ser capazes de fazer inferência sobre o seu conteúdo para
reformular consultas, customizar serviços para a tarefa e o usuário, deduzir novas
relações entre trabalhos e assim por diante. Especificamente, os metadados devem
suportar inferência [WEINSTEIN 98] pois, em todos os contextos, metadados ajudam
as pessoas a (1) encontrar o que elas precisam, (2) verificar a autenticidade de um
objeto digital, (3) processar esses objetos em um formato apropriado [ALLOWAY 99].

Definição e manutenção de padrões de metadados através do tempo é um


processo social complexo requerendo negociação, construção de um consenso e
iteração. Aprender a gerenciar tais processos efetivamente, e coordenar as atividades
de muitas comunidades de interesses muito diferentes é claramente uma tarefa de
pesquisa a longo prazo envolvendo questões econômicas, técnicas e sociais
complexas [ALLOWAY 99].

De acordo com Ron Daniel Júnior, em [DANIEL 98], o Warwick Framework


influenciou fortemente o projeto do RDF. RDF e Warwick Framework diferem pelo fato
de o primeiro permitir uma combinação de elementos de diferentes frameworks e exigir
o uso de XML como uma linguagem padrão.

5.4 Considerações

A arquitetura de informação apresentou aspectos referentes à estrutura das


informações nas BDs. A arquitetura de metadados mostrou que deve existir uma
estrutura para suportar as operações sobre os metadados. Por fim, através do
Warwick Framework, foi possível visualizar a possibilidade de integração de diferentes
pacotes de metadados em um container.

No próximo capítulo serão comentados os tópicos desenvolvidos neste trabalho,


bem como as idéias para trabalho futuro, tendo em vista o aprendizado obtido por este
estudo.
44

6 CONCLUSÃO

6.1 Sobre este trabalho

Este trabalho permitiu um conhecimento abrangente sobre padrões na área de


BDs, uma vez que foi realizada uma ampla revisão bibliográfica possibilitando o
cruzamento de idéias apresentadas pelos principais autores em atividade.

Inicialmente, foi realizada uma abordagem dos conceitos de BDs sob diversos
pontos de vista. Alguns conceitos enfatizam algumas partes de uma BD mais do que
outras. Contudo, foi possível visualizar todos os componentes a serem levados em
consideração, na conceitualização de uma BD.

Através do estudo sobre os formatos e as linguagens de marcação mais


utilizadas em BDs, foram apresentados pontos positivos e negativos de cada formato e
linguagem. XML apresentou-se como uma linguagem capaz de prover facilidades tais
como aumento da funcionalidade no processo de busca de informação, exibição de
diferentes formatos para a mesma informação e, principalmente, identificação
semântica dos dados, entre outras. Através dessas facilidades percebe-se uma forte
tendência à adoção da linguagem XML como um padrão.

No capítulo sobre metadados, destacam-se a interoperabilidade e os principais


conjuntos de elementos de metadados utilizados nas BDs atualmente. Para ocorrer
interoperabilidade entre BDs, o compartilhamento efetivo de metadados é necessário.
Assim, o sucesso da interoperabilidade está eminentemente relacionado à
organização, tanto das informações, quanto dos metadados disponíveis nas BDs.

A seguir, devido à necessidade de trabalhar com informações de forma


estruturada, foi apresentada uma seção sobre arquitetura de informações. Aspectos
de relacionamentos entre objetos digitais, formatos, versões, direitos e permissões
foram descritos. A arquitetura de metadados mostrou que deve existir uma estrutura
para suportar as operações sobre os metadados. Tanto arquitetura de metadados
quanto arquitetura de informações, colaboram para a organização e a manutenção dos
conteúdos das BDs.
45

Diferentes formatos de metadados precisam de uma arquitetura para viabilizar a


troca de informações e de serviços, razão pela qual a arquitetura de metadados e o
Warwick Framework foram discutidos. Este último, propondo um container para
possibilitar aos diferentes conjuntos de metadados interoperarem.

Após concluído este estudo e identificado o estado da arte sobre BDs no ano de
2002, surgiram algumas idéias para trabalho futuro, as quais são apresentadas na
seção que segue.

6.2 Trabalho Futuro

Para Lynch [LYNCH 95], o grande desafio das BDs é a interoperabilidade


semântica. Segundo aquele autor, interoperabilidade semântica lida com a habilidade
de um usuário acessar, consistentemente e coerentemente, classes similares de
objetos e serviços digitais, distribuídas através de repositórios heterogêneos.

Pelo fato de existirem diversos padrões de metadados prontos e em


desenvolvimento, e dado o crescimento exponencial da Web, Andreas Paepcke e co-
autores, em [PAEPCKE 98], afirmam que a interoperabilidade é um problema
complexo e cuja solução está em desenvolvimento. Somado a essa afirmação Gene
Alloway e co-autores, em [ALLOWAY 99], sustentam que uma questão complexa, para
pesquisa, é como os diversos formatos de metadados co-existirão e serão
interoperados.

Assim, uma pesquisa mais profunda sobre a interoperabilidade semântica e a


comunicação entre os formatos de metadados é visualizada como trabalho futuro.
46

REFERÊNCIAS BIBLIOGRÁFICAS

[ADOBE 02] Site da Adobe. Webreferência disponível por URL:


http://www.adobe.es/products/acrobat/adobepdf.html. Acessado em
(11/07/2002).

[ALLOWAY 99] ALLOWAY, Gene et al. Metadata for Digital Libraries: a Research
Agenda. EU-NSF Working Group on Metadata. Webreferência
disponível por URL: http://www.iei.pi.cnr.it/DELOS/NSF/metadata.
html. Acessado em (13/06/2002).

[ANDREONI 99] ANDREONI, Antonella et al. The ERCIN Technical Reference Digital
Library. In D-Lib Magazine, dezembro de 1999, Vol. 5 Nrº. 12.

[ARMS 95] ARMS, W. Y. Key Concepts in the Architecture of the Digital Library. In D-
Lib Magazine, Julho de 1995.

[ARMS 97] ARMS, W. Y.; BLANCHI, C.; OVERLY, E. A. An Architecture for


Information in Digital Libraries. In D-Lib Magazine, fevereiro de 1997.

[ARMS 02] ARMS, W. Y. et al. A Spectrum of interoperability. In D-Lib Magazine,


janeiro de 2002, Vol. 8 Nrº. 1.

[BAEZA-YATES 99] BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Modern


information retrieval, New York, N.Y.: Addison-Wesley, 1999. 513
p.

[BALDONADO 97] BALDONADO, M. et al. Metadata for digital libraries:


architecture and design rationale. In Proc. of the 2nd. ACM
International Conference on Digital Libraries, pages 47-56,
Philadelphia, PA, USA, 1997.

[BARU 99] BARU, Chaitanya et al. XML-Based Information Mediation for Digital
Libraries, Proc. of ACM Conf. on Digital Libraries, Berldey, August,
1999.
47

[BAUER 01] BAUER, Michael G.; SPECHT, Gunther. Enhancing Digital Library
Documents by Aposteriori Cross Linking Using XSLT. Institut fur
Informatik, TU Munchen Lecture Notes in Computer Science, 2001.

[BENNETT 02] BENNETT, Nuala; SANDORE, Beth; PIANFETTI, Evangeline S.


Illinois Digital Cultural Heritage Community - Collaborative
Interactions among Libraries, Museums and Elementary Schools. In
D-Lib Magazine, janeiro de 2002, Vol. 8 Nrº. 1.

[BERNERS-LEE 01] BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The


Semantic Web. A new form of Web content that is meaningful to
computers will unleash a revolution of new possibilities. Scientific
American, Issue 01/05/2001.

[BIA 00] BIA, Alejandro; NIETO, Alfonso. Information Retrieval in Digital


Libraries: efficient catalog searches using tries. January 2000
(unpublished).

[BIRMINGHAM 00] BIRMINGHAM, Bill et al. EU-NFS Digital Library Working


Group on Interoperability between Digital Libraries. Position
Paper, 2000.

[BLANCHI 01] BLANCHI, Christophe; PETRONE, Jason. Distributed Interoperable


Metadata. In D-Lib Magazine, dezembro de 2001, Vol. 7 Nrº. 12.

[BORGMAN 96] BORGMAN, Christine L. et. al. Social Aspects of Digital Libraries.
UCLA-NSF Social Aspects of Digital Libraries Workshop, Los
Angeles, California, February 1996.

[BORGMAN 99] BORGMAN, Christine L. What are digital libraries? Competing


visions, In Information Processing and Management, Janeiro de
1999, Vol. 35, Nrº. 3, pp. 227-243.

[BRAY 00] BRAY, T. et al. Extensible Markup Language (XML) 1.0 (Second Edition)
W3C Recommendation (outubro 2000). Webreferência disponível
por URL: http://www.w3c.org/TR/REC-xml. Acessado em
(05/07/2002).
48

[CHRISTEL 01] CHRISTEL, Michael G.; MAHER, Bryan; BEGUN, Andrew. XSLT for
tailored access to a digital video library. JCDL 2001 - Proceedings of
the first ACM/IEEE-CS Joint Conference on Digital libraries,
2001, Roanoke, Virginia, United States, June 24-28.

[COLE 00] COLE, Timothy W.; Allen, PAT; SCHMITZ, John. Building an outreach
digital library collection. In Illinois ACRL Spring 2000 Conference,
13 de abril de 2000.

[CUNHA 97] CUNHA, Murilo Bastos da. Biblioteca Digital: bibliografia internacional
anotada. Ciência da Informação, Brasília, Vol. 26, Nrº. 2, p. 195-
213, 1997.

[DANIEL 98] DANIEL, Ron Jr.; LAGOZE, Carl; PAYETTE, Sandra D. A Metadata
Architecture for Digital Libraries. Proceedings of the Advances in
Digital Libraries Conference ADL98, IEEE, April 1998.

[DATE 91] DATE, C. J. Introdução a sistemas de bancos de dados. Rio de Janeiro:


Campus, 1991. 674 p.

[DC 98] Dublin Core Metadata Element Set, Version 1.0: Reference Description.
Webreferência disponível por URL: http://dublincore.org/documents/
1998/09/dces/# . Acessado em (06 junho 2002).

[DEMPSEY 96] DEMPSEY, Lorcan; WEIBEL, Stuart L. The Warwick Metadata


Workshop: A Framework for the Deployment of Resource
Description. In D-Lib Magazine, Julho/Agosto de 1996.

[DLF 99] Digital Library Federation. A Working Definition of Library. 21 de abril de


1999.

[DRABENSTOTT 94] DRABENSTOTT, Karen M. Analytical review of the library of


the future, Washington, DC: Council Library Resources, 1994.

[DLD 99] Digital Libraries Definitions. Webreferência disponível por URL:


http://web.simmons.edu/~schwartz/462-defs.html. Acessado em
(08/06/2002).
49

[DUVAL 02] DUVAL, Erik et al. Metadata Principles and Practicalities. In D-Lib
Magazine, abril de 2002, Vol. 8 Nrº. 4.

[EXNER 98] EXNER, Nina; TURNER, Linda F. Examining XML: New Concepts and
Possibilities in Web Authoring. Computers in Libraries 18.10
(Nov/Dec 1998). Webreferência disponível por URL: http://www-
diglib.stanford.edu/diglib/pub/reports/iita-dlw/main.html. Acessado em
(17/06/2002).

[FENSEL 00] FENSEL, Dieter. The semantic web and its languages. IEEE Intelligent
Systems 2000 (November/December 2000). Webreferência
disponível por URL: http://www.cs.man.ac.uk/~horrocks/Publications/
download/2000 /faqs-on-oil.pdf. Acessado em (05/07/2002).

[FLECKER 00] FLECKER, Dale. Harvard´s library Digital Initiative. Building a First
Generation Digital Library Infrastructure. In D-Lib Magazine,
novembro de 2000, Vol. 6 Nrº. 11.

[GILL 02] GILL, Tony; MILLER, Paul. Re-inventing the wheel? Standards,
Interoperability and Digital Cultural Content. In D-Lib Magazine,
janeiro de 2002, Vol. 8 Nrº. 1.

[HAIGH 98] HAIGH, Susan. A Glossary of Digital Library Standards, Protocols and
Formats. Webreferência disponível por URL: http://www.nlc-
bnc.ca/9/1/p1-253-e.html. Acessado em (08/07/2002).

[HAROLD 99] HAROLD, Elliotte Rusty. XML Bible. 1ª Ed., Chicago: IDG Books, 1999.

[HEARST 99] HEARST, Marti A. The use of categories and clusters for
organizing retrieval results. In Natural language information
retrieval: Text, Speech and Language Technology. Eds. Tomek
Strzalkowski. Dordrecht. Kluwer Academic, 1999. 384 p..

[HERWIJNEN 00] HERWIJNEN, Eric Van. The impact of XML on library procedures and
services. High Energy Physics Libraries Webzine, Issue 1, Março
2000.
50

[JONES 99] JONES, Michael L. W.; GAY G. K.; RIEGER R. H. Project Soup Comparing
evaluations of digital collection efforts. In D-Lib Magazine, Novembro
de 1999, Vol. 5 Nrº. 11.

[KOBAYASHI 00] KOBAYASHI, Mei; TAKEDA, Koichi. Information Retrieval on the


Web. ACM Computing Surveys, Vol. 32, Nrº. 2, Junho de 2000.

[LAGOZE 96] LAGOZE, Carl. The Warwick Framework. A Container Architecture


for Diverse Sets of Metadata. In D-Lib Magazine, Julho/Agosto de
1996.

[LAGOZE 98] LAGOZE, Carl; FIELDING, David. Defining Collections in Distributed


Digital Libraries. In D-Lib Magazine, Novembro de 1998.

[LYNCH 95] LYNCH, C.; MOLINA-GARCIA, H. Eds., Interoperability, Scaling, and


Digital Libraries Research Agenda. IITA Digital Libraries Workshop
August 22, 1995.

[MADNICK 01] MADNICK, Stuart E. The Misguided Silver Bullet: What XML Will and Will
NOT Do to Help Information Integration. Working Papers MIT,
August 2001. Webreferência disponível por URL: http://ebusiness.mit.
edu/research/papers-number.html. Acessado em (11/07/2002).

[MARC 02] MARC Standards. Webreferência disponível por URL: http://www.loc.gov/


marc/. Acessado em 10/06/2002.

[MARCHIONIINI 02] MARCHIONINI, Gary et al. (in press). The people in digital
libraries: multifaceted approaches to assessing needs and
impact. In A. Bishop et al. Digital library use: social practice in design
and evaluation. MIT Press forthcoming. Webreferência disponível:
http://ils.unc.edu/~march/revision.pdf. Acessado em (07/06/2002).

[MCCRAY 99] MCCRAY, A.; GALLAGHER, M.; FLANNICK, M. Extending the role of
metadata in a digital library system. In Proceedings of the IEEE
Forum on Research and Technology Advances in Digital
Libraries (Baltimore, May 19--21). IEEE Computer Society, Los
Alamitos, CA, 1999, 190--199.
51

[MCCRAY 01] MCCRAY, Alexa T.; GALLAGHER, Marie E. Principles for digital
library development. Communications of the ACM. Volume 44,
Issue 5 (May 2001).

[MILLER 00] MILLER; Dick R. XML: Libraries' Strategic Opportunity. In Library


Journal's Summer 2000 issue of the NetConnect Supplement.
Webreferência disponível por URL: http://xmlmarc.stanford.edu/LJ/.
Acessado em (02/07/2002).

[NURNBERG 95] NURNBERG, Peter J. et al. Digital Libraries: Issues and Architectures.
In Proceedings of The Second International Conference on the
Theory and Practice of Digital Libraries, pages 147--153, June
1995.

[PACHECO 01] PACHECO, Roberto Carlos Santos; KERN, Vinícius Medina. Uma
ontologia comum para a integração de bases de informações e
conhecimento sobre ciência e tecnologia. Ciência da Informação,
Brasília, Vol. 30, Nrº. 3, p. 56-63, 2001.

[PAEPCKE 98] PAEPCKE, A.; CHANG, C.; GARCIA-MOLINA, H.; WINOGRAD, T.


Interoperability for digital libraries worldwide. Special Issue on Digital
Libraries, Communications of the ACM, 41(4), April 1998.

[PITTS-MOULTIS 00] PITTS-MOULTIS, N.; KIRK, C. XML Black Book - Solução e


Poder. Makron Books, 2000. 627 p.

[POLLOCK 97] POLLOCK Annabel; HOCKLEY, Andrew. What'


s Wrong with Internet
Searching. In D-Lib Magazine, Março 1997.

[PSLRM 92] PostScript Language Reference Manual. Supplement For Version


2012. Adobe Systems Incorporated. November 25, 1992.
Webreferência disponível por URL: http://www-cdf.fnal.gov/offline/
PostScript/PLRM2.pdf. Acessado em (25/07/2002).

[RAABE 98] RAABE, André; FILHO, Omer Pohlmann. Estudo comparativo entre
sistemáticas de digitalização de documentos: formatos HTML e PDF.
Ciência da Informação, Brasília, Vol. 27, Nrº. 3, p. 300-310, 1998.
52

[RUSBRIDGE 98] RUSBRIDGE, Chris. Towards the Hybrid Library. In D-Lib Magazine,
Julho/agosto de 1998.

[SARACEVIC 01] SARACEVIC, Tefko. Digital Library Evaluation: Toward an Evolution


of Concepts. Library Trends, Vol. 49, Nrº. 8, Fall 2000, pp. 350-369.

[SCHATZ 99] SCHATZ, Bruce; CHEN, Hsinchun. Digital Libraries: Technological


Advances and Social Impacts. IEEE, fevereiro de 1999. p.45-50.

[SMITH 96] SMITH, Terence R. The Meta-Information Environment of Digital Libraries.


In D-Lib Magazine, July/August 1996. Webreferência disponível por
URL: http://www.dlib.org/dlib/july96/new/07smith.html. Acessado em
(21/06/2002).

[SNOWHILL 01] SNOWHILL, Lucia. E-books and Their Future in Academic Libraries.
In D-Lib Magazine, julho/agosto de 2001, Vol. 7 Nrº. 7/8.

[SOUZA 00] SOUZA, Marcia I. F. et al. Metadados para a descrição de recursos de


informação eletrônica: utilização do padrão Dublin Core. Ciência da
Informação, Brasília, Vol. 29, Nrº. 1, p. 93-102, 2000.

[SULEMAN 00] SULEMAN, Hussein; FOX, Edward A.; ABRAMS, M. Building Quality
into a Digital Library In Proceedings of the Fifth ACM Conference
on Digital Libraries, June, 2000.

[SULEMAN 01] SULEMAN, Hussein; FOX, Edward A. A Framework for Building


Open Digital Libraries. In D-Lib Magazine, dezembro de 2001, Vol.7
Nrº. 12.

[TENNANT 01] TENNANT, Roy. XML: The Digital Library Hammer. Library Journal,
3/15/2001.

[WEAVER 01] WEAVER, Mathew; DELCAMBRE, Lois; MAIER, David. A


Superimposed Architecture for Enhanced Metadata. Proceedings of
the Third DELOS Network of Excellence Workshop on
Interoperability and Mediation in Heterogeneous Digital
Libraries. Darmstadt, Germany, 8-9 September 2001.
53

[WEINSTEIN 98] WEINSTEIN, Peter C.; BIRMINGHAM, William P. Creating


Ontological metadata for Digital Content and Services. International
Journal on Digital Libraries 2(1): 19-36. Webreferência disponível
por http://reggae.rs.itd.umich.edu/~peterw/abstracts.html.

[W3C_HTML 02] HyperText Markup Language (HTML) Home Page. Webreferência


disponível por URL: http://www.w3.org/MarkUp. Acessado em
(10/07/2002).

[W3C_RDF 97] Public Draft of Resource Description Framework (RDF).


Webreferência disponível por URL: http://www.w3c.org/Press/RDF.
Acessado em (26/07/2002).
54

BIBLIOGRAFIA COMPLEMENTAR

[ARMS 00] ARMS, W. Y. Automated Digital Libraries. In D-Lib Magazine, julho/agosto


de 2000, Vol. 6 Nrº. 7/8.

[FREW 96] FREW, James et al. The Alexandria Digital Library Testbed. In D-Lib
Magazine, Julho/agosto de 1996.

[LAWRENCE 99] LAWRENCE, Steve; GILES, C. Lee; BOLLACKER, Kurt. Digital


Libraries and Autonomous Citation Indexing. IEEE Computer, Vol.
32, Nro. 6, 1999, pp. 67-71.

[MOEN 95] MOEN, William. ANSI/NISO Z39.50 Protocol: information retrieval in the
information infrastructure [on-line]. Webreferência disponível por:
http://www.cni.org/pub/NISO/docs/Z39.50-brochure/. Acessado em
(10/06/2002).

[ROSETTO 97] ROSETTO, Márcia. Uso do protocolo z39.50 para recuperação de


informação em redes eletrônicas. Ciência da Informação, Brasília,
Vol. 26, Nrº. 2, p. 136-139, 1997.

[SCHATZ 97] SCHATZ, Bruce R. Information Retrieval in Digital Libraries: Bringing


Search to the Net. Science, 17 January 1997, 327-334.
Webreferência disponível por URL: http://www.canis.uiuc.edu/
archive/papers/science-irdl-journal.pdf. Acessado em (11/06/2002).

[TODIRASCU 01] TODIRASCU Amalia; ROUSSELOT, Francois. Ontologies for


Information Retrieval. Traitement Automatique des Langues
Naturelles - TALN 2001, Tours, 2-5 Julho de 2001.

[WOLFF 00] WOLFF, J. E.; FLORKE, H.; CREMERS, A. B. Searching and browsing
collections of structural information. In Proc. of the IEEE Advances
in Digital Libraries, pages 141--150, USA, May 2000. 17.

Vous aimerez peut-être aussi