Vous êtes sur la page 1sur 31

2 Estruturao de Dados e Dados

Abertos Conectados
Introduo
Como descrevemos no Captulo 1, dados abertos so dados que podem ser livremente
utilizados, reutilizados e redistribudos por qualquer pessoa - sujeitos, no mximo,
exigncia de citar a fonte original e compartilhar com as mesmas licenas em que as
informaes foram inicialmente apresentadas. Vimos tambm no captulo anterior que
a disponibilizao destes dados classicada de acordo com o Sistema de 5 Estrelas:
quanto maior o nmero de estrelas, melhor a visibilidade, integrao e usabilidade
destes dados tanto por pessoas quanto por mquinas.
Neste captulo, estamos interessados em aprofundar os conhecimentos sobre os dados
abertos estruturados e conectados (ou Linked Data) seguindo o Sistema de 5 Estrelas.
Queremos assim, apresentar ao leitor alguns conhecimentos tcnicos para utilizar
modelos e padres que viabilizam o uso dos dados estruturados disponveis na Web
para busca e navegao de forma (semi-) automtica com o apoio de programas de
computador. Esses modelos e padres para disponibilizao dos Dados Conectados so
a base para se construir a Web de Dados e, por consequncia, prover um dos pilares
necessrios para consolidao da Web Semntica.
A Web de Dados tem como objetivo fazer um contraponto a Web de Documentos (vide
Captulo 1). Na Web de Documentos, os recursos como pginas web, guras e vdeos
esto conectados por meio de URIs 18 (footnotes.xhtml#footnote18). Essa conexo
fundamental para fazer associaes entre diferentes recursos disponveis na Web e
para consumo massivo da informao destes recursos por pessoas (agentes humanos).
Assim, podemos dizer que na Web de Documentos so os recursos, e no as
informaes contidas nestes recursos, que esto conectados. Porm, para que um
programa de computador possa utilizar as informaes contidas na Web, necessrio
que estejam disponveis para ele conhecimentos adicionais que caracterizem os
recursos, como eles se relacionam e quais dados esto contidos neles. Neste contexto,
surge a Web de dados, na qual os recursos esto conectados tambm por URIs, porm
informaes adicionais so disponibilizadas para permitir que as mquinas possam
compreender melhor os dados contidos nestes recursos e o signicado de
determinada relao entre dois ou mais recursos. Por exemplo, na Figura 2.1 (inspirada
no trabalho de (Chen, 2007)) temos em 2.1(a) a Web de Documentos na qual o
relacionamento entre pginas feito por meio de links (i.e. URIs) entre documentos. J
em 2.1(b) temos a Web de dados que apresenta links entre pginas e informaes
adicionais que deixam explcito a relao entre os dados contidos nos documentos.

Neste pequeno grafo de (b), os dados mais importantes desta pgina so apresentados
como vrtices (e.g. Braslia) enquanto o signicado das relaes entre estes dados
apresentado nas arestas (e.g. Capital-do).

(a)

(b)
As informaes adicionais que descrevem os dados contidos nos documentos so
chamadas de metadados, ou seja, dados sobre dados. Os metadados em conjunto com
mtodos de modelagem conceitual da informao, que sero apresentadas no prximo
captulo, so essenciais para publicao de dados conectados. Ao longo deste captulo
apresentaremos, por meio de exemplos, os conceitos tcnicos necessrios para criar e
trabalhar com metadados e a Web de dados. Estes conceitos permitiro que o leitor

tenha a capacidade de produzir dados abertos de alta qualidade utilizando uma das
19
tecnologias
recomendadas
pelo
W3C
conhecida
como
RDF
(footnotes.xhtml#footnote19) (Resource Description Framework).

2.2 Estruturao de Dados e Dados Abertos


Conectados
Os Dados Conectados como apresentados na seo anterior fazem da Web um banco
de dados global que podemos chamar de web de dados. A partir deste banco de dados
global, os desenvolvedores podem criar e executar consultas que buscam dados de
diferentes fontes e as combinar para prover algum tipo de informao til. Este tipo de
consulta impossvel (ou invivel) quando se pensa em tecnologias de gerenciamento
de bancos de dados tradicionais (Wood, et al., 2014).
Ao se observar a relao entre a estruturao de dados e os Dados Conectados (no
necessariamente Dados Abertos Conectados), conforme mostramos na Figura 1.10 (vide
Cap 1), podemos compreender que um dos problemas para a sustentabilidade da Web
de Dados so os Dados Estruturados. Frisamos, contudo, que neste captulo focaremos
somente nos conceitos relacionados estruturao dos dados da Web, que permitem a
representao de dados conectados abertos conforme mostra o bloco direita da
Figura 1.10.
Nesse contexto, podemos destacar diversos aspectos a partir deste ecossistema de
Dados Conectados e estruturados:
possvel utilizar diferentes formatos de estruturao de dados na Web;
Os Dados Conectados possuem uma estrutura de dados baseada em RDF;
Existem diferentes formatos RDF para estruturao de dados;
Os Dados Conectados podem ser considerados como um subconjunto da Web
Semntica.
importante salientar que no h como ter Dados Conectados sem fazer a utilizao do
modelo de dados RDF 20 (footnotes.xhtml#footnote20). No entanto, como vimos no
Captulo 1, h uma srie exigncias que precisam ser atendidas para que os dados
sejam estruturados no modelo RDF. No que tange os Dados Abertos Conectados, as 5
estrelas para Dados Abertos Conectados mostram que quanto mais aumentamos o
nmero de estrelas, melhor sero os dados abertos. Entretanto, s podemos
efetivamente considerar que os dados publicados so do tipo Dados Conectados
quando estes recebem pelo menos quatro estrelas. Assim, na seo seguinte faremos
uma explicao mais detalhada sobre o sistema 5 estrelas, por meio de exemplos.

2.2.1 Padres de Representao


A preparao dos dados para que os mesmos passem de Dados Abertos para Dados
Abertos Conectados pode ser feita por meio de uma srie de transformaes
intermedirias. Conforme vimos no Captulo 1, a Figura 2.2 apresenta o esquema de
distribuio 5 estrelas para Dados Abertos, proposto por Tim Berners-Lee, em 2010
(Berners-Lee, 2010).

Para exemplicar, vejamos o cenrio disponvel em (5 Start Open Data, 2012). Como
poderamos abrir os dados sobre a temperatura da cidade Irlandesa, Galway, conforme
Tabela 2.1.
TABELA 2.1
EXEMPLO PARA DEMOSTRAR ESQUEMA DE 5 ESTRELA DOS DADOS ABERTOS
Day

Lowest Temperature (C)

Saturday, 13 November 2010

Sunday, 14 November 2010

Monday, 15 November 2010

A abertura pode ocorrer de acordo com o esquema das 5 estrelas. De acordo com as
estrelas, a nica exigncia para que o dado seja considerado aberto que sejam
disponibilizados com licenas abertas. Mesmo um documento sendo publicado em PDF
ou PNG, se o mesmo utiliza uma licena aberta, ento ele pode ser considerado um
dado aberto.
Como exemplo para dados abertos com apenas uma estrela, veja o URI abaixo. Este URI
abre um arquivo PDF contendo dados de temperatura em Galway, na Irlanda. Ou seja,
s h a necessidade de disponibilizar o identicador para o recursos em formato PDF.
http://5stardata.info/gtd-1.pdf
importante enfatizar que hdiferentes licenas sendo utilizadas pela comunidade de
Dados Abertos. Como exemplos de licenas, citamos as licenas da Open Data
Commons (Open Data Commons, 2014), como:
Public
Domain
Dedication
(http://opendatacommons.org/licenses/pddl/));

and

License

(PDDL

Attribution License (ODC-By (http://opendatacommons.org/licenses/by/));


Open
Database
License
(ODC-ODbL
(http://opendatacommons.org/licenses/odbl/)).
Apesar do dado do exemplo apresentado ter sido publicado com licena aberta, o dado
est trancado em um documento PDF. Ou seja, ele no pode ser manipulado e
reutilizado facilmente em outros contextos e situaes. Isto faz com que o acesso ao
dado dentro do documento que bastante difcil, tornando complicado o seu uso e
acesso por mquinas (e at por pessoas dependendo da complexidade e quantidade
dos dados disponibilizados).
A segunda estrela considera que, alm do dado estar sob licena aberta, o mesmo
dever utilizar um formato de dado estruturado. No entanto, para que o dado possua
duas estrelas, pode-se disponibiliz-lo utilizando formatos proprietrios para
estruturao dos dados. Por exemplo, so considerados dados de duas estrelas aqueles
publicados com licena aberta e disponibilizados no formato de uma planilha Excel em
XLS, formato proprietrio cuja detentora de seus direitos a Microsoft. No URI abaixo
temos o exemplo de dados abertos publicados com duas estrelas para o nosso exemplo
sobre a disponibilizao de dados da temperatura de Galway:
http://5stardata.info/gtd-2.xls
Diferente da abertura dos dados com uma estrela, o dado disponvel em formato XLS
pode ser acessado por mquina de forma menos complicada. Isso permite que os
dados sejam utilizados mais facilmente tanto por pessoas, que podem utilizar, adaptar
e integrar estes dados com outros dados disponveis, quanto por mquinas que podem
ler estes dados e manipul-los mais livremente. Apesar do dado em formato XLS
facilitar o consumo dos dados, existem ainda dois problemas identicados: 1) os dados
continuam trancados em um documento; 2) o acesso ao dado dentro do documento
XLS necessita de software proprietrio.
A terceira estrela dos dados abertos alcanada quando se faz a utilizao de formatos
abertos e no proprietrios, como CSV (do ingls Comma-Separated Values, signicando
valores separados por vrgula). Atravs da publicao de dados em formato no
proprietrio, a manipulao dos dados ca muito mais simplicada e sem restries dos
softwares proprietrios. O exemplo da temperatura de Galway publicado em formato
trs estrelas est disponvel no link abaixo:
http://5stardata.info/gtd-3.csv
Os dados no documento CSV cam disponveis conforme explicitado abaixo.
Day,

Lowest Temperature (C)

Saturday, 13 November 2010,

Sunday, 14 November 2010,

Monday, 15 November 2010,

Como podemos observar, o arquivo CSV faz o armazenamento de dados tabulares em


um formato plain-text, ou sequncia de caracteres. Este tipo de documento nada mais
que um formato de dados delimitador, no qual as colunas de uma tabela so separadas
pelo caractere vrgula, enquanto os registros so separados por novas linhas do
arquivo. A IETF, do ingls Internet Engineering Task Force, o rgo responsvel pelo
desenvolvimento
e
melhoria
da
Internet,
disponibiliza
o
RFC
4180
(http://tools.ietf.org/html/rfc4180), uma especicao para a descrio de dados
tabulares em formato CSV.
A publicao em formato CSV apresenta um avano no esquema de distribuio de 5
Estrelas. Contudo, o formato CSV no possui a riqueza para representar detalhes
importantes e no permite que desenvolvedores possam criar programas de
computador mais inteligentes que extraiam mltiplos catlogos de dados, manipule-os,
visualize-os e os combine de maneira exvel. Apesar disso, a grande maioria dos dados
disponveis atualmente nos diversos bancos de dados pblicos (e.x. http://data.gov.br/)
esto neste formato. Devido a esse grande nmero de dados abertos em formato CSV,
o W3C criou um grupo de trabalho (CSV on the Web (http://www.w3.org/2013/05/lcsvcharter)) com o objetivo de denir um vocabulrio para metadados em CSV e mtodos
padronizados para:
(a) encontrar os metadados via protocolo HTTP;
(b) encontrar os dados descritos pelos metadados atravs de uma API; e
(c) mecanismos de mapeamento de CSV para outros formatos como RDF e JSON.
A quarta estrela est relacionada com a utilizao de URIs para identicar os recursos
na Web. A grande vantagem da utilizao de URIs que eles podem ser encontrados e
consumidos por outras pessoas e mquinas de forma muito mais simplicada do que a
disponibilizao em CSV. Ou seja, o URI nos permite compartilhar cada dado que
estamos publicando. H diversos formatos para representao destes dados (e.x. Atom
e RSS), mas o tipo de formato que estamos interessados o RDF. O link com o exemplo
da temperatura contendo 4 estrelas est disponvel em:
http://5stardata.info/gtd-4.html
Aps ver este documento, voc pode estar se perguntando: no apenas mais uma
pgina em HTML? Qual a novidade desta pgina? Por que a extenso do documento
est em HTML e no em RDF como aconteceu com os outros formatos? Isto acontece
porque documentos em formato RDF podem ser serializados e disponibilizados de
diferentes formas. Uma delas o RDFa (Resource Description File in Attributes) que
adiciona uma srie de atributos s tags HTML. Desta forma, ao invs de disponibilizar
um arquivo com a extenso RDF, pode-se disponibilizar um arquivo HTML possuindo
vrios atributos de um documento RDF. Neste contexto, as informaes sobre os dados
cam separadas das informaes sobre como apresentar os dados. O cdigo HTML
contendo os atributos RDF so apresentados abaixo.

Fazendo uma leitura do cdigo HTML da Figura 2.3, observamos na 6 linha que h trs
atributos sendo utilizados na tag < tr>, sendo eles rel, resource e class (este atributo
global no est trazendo nenhuma informao adicional para a descrio das
temperaturas). Uma lista de atributos utilizados em RDFa est disponvel aqui
(http://www.w3.org/TR/2013/REC-rdfa-core-20130822/#s_syntax). Observando assim os
dois atributos da tag (<tr rel =quot; meteo:forecast " resource =" #forecast20101113 ">),
temos:
<tr> uma tag HTML que representa uma linha da tabela; rel um atributo que
dene um relacionamento entre dois recursos. Neste exemplo, rel est sendo utilizado
para indicar que esta linha possui um relacionamento com meteo:forecast. A utilizao
deste atributo no apresenta novas informaes para apresentar um recurso no
navegador, por exemplo, formatao de interface, no entanto fornece informaes
adicionais para mquinas poderem identicar e manipular um recurso; meteo:forecast
um alias, nome curto ou pseudnimo, para descrever um recurso disponvel no
endereo http://purl.org/ns/meteo#forecast. Este alias criado para que, ao invs de
toda vez repetirmos o endereo web completo para cada identicador de documentos,
seja possvel denir um nome simples que reduz a complexidade do cdigo e facilita a
leitura. Neste caso em particular, o nome meteo a abreviao do termo em ingls
meteorology utilizado pelos criadores do documento. Se clicar com o boto direito no
link http://5stardata.info/gtd-4.html e pedir para exibir o cdigo fonte
(http://5stardata.info/en/examples/gtd-4/), encontrar a tag HTML com a identicao
de meteo, conforme a ltima linha da Figura 2.4.

resource utilizado para identicar o recurso do relacionamento. importante


frisar que o relacionamento denido atravs deste atributo no fornecer um link
apresentado na pgina, mas sim um objeto que poder ser utilizado por
mquinas, neste caso #forecast20101113;
#forecast20101113 o objeto no qual identica um determinado recurso. Ou seja,
atravs de consultas a este recurso, os valores das colunas Day e Lowest
Temperature C identicadas pelas tag <TD> podem ser buscados.
importante frisarmos que esta estrutura de descrio est disponvel em todo o
documento do exemplo acima, no qual outros atributos e recursos podem ser
identicados, como about, meteo:temperature, xsd:dateTime, meteo:celsius, e assim
por diante.
Toda esta descrio teve como objetivo apresentar ao leitor como podemos descrever e
publicar nossos dados com 4 estrelas. Atravs deste tipo de publicao, os dados mais
importantes do documento tero um URI que poder ser utilizado por buscadores com
diferentes propsitos. Atravs da disponibilizao deste URI, possvel:
a) conectar e combinar estes dados com outros dados;
b) reusar estes dados em outros contextos;
c) melhorar a busca e a compreenso dos dados apresentados;
d) possibilitar inferncia atravs de dados parciais;
e) permitir navegao entre documentos; entre outros.
Como acabamos de descrever, esta abordagem permite que os dados possam ser
conectados e combinados com outros dados para melhorar ainda mais a identicao e
compreenso dos mesmos. Fazer este tipo de conexo equivale a disponibilizar os seus

dados com 5 estrelas. A nica diferena dos dados abertos com 4 e 5 estrelas que
neste ltimo os seus dados estaro conectados com dados de outras fontes. Segundo o
mesmo exemplo, os dados de temperatura da cidade Irlandesa, Galway, com 5 estrelas
podem ser identicados no link abaixo:
http://5stardata.info/gtd-5.html (http://5stardata.info/gtd-5.html)
Um tipo de dado que poderia ser til a apresentar seriam informaes sobre a cidade
de Galway, na Irlanda ou at mesmo sobre o pas. Observemos a seguir um trecho do
cdigo HTML em 5 estrelas.

No cdigo da Figura 2.5, no h nenhum tipo de atributo adicional com relao ao


cdigo com 4 estrelas. Porm, ao se observar os valores que esto sendo descritos nos
atributos, podemos ver que h diferena. Cada um deles apresentado a seguir:
owl:sameAs uma propriedade pertencente linguagem OWL (do Ingls Web
Ontology Language ) que descreve que um recurso igual a outro recurso. Neste
caso, o cdigo informa que meteo:Place#Galway (identicado pela linha <div
id="data" about="#Galway>" typeof="meteo:Place">) o mesmo que Galway
identicado
no
link
http://dbpedia.org/resource/Galway;
(http://dbpedia.org/resource/Galway)
(http://dbpedia.org/resource/Galway)
(http://dbpedia.org/resource/Galway)http://dbpedia.org/resource/Galway
(http://dbpedia.org/resource/Galway) o recurso que foi identicado pela
propriedade owl:sameAs;
rdfs:seeAlso uma propriedade do RDF-S (Resource Description Framework
Schema) que tem por objetivo fornecer informao adicional ao que se est
descrevendo no documento. Neste exemplo, a propriedade rdfs:seeAlso possui o
valor http://en.wikipedia.org/wiki/Temperature, indicando assim que informaes
adicionais sobre o conceito de temperatura podem ser encontradas na Wikipedia
atravs deste link;
http://dbpedia.org/resource/Celsius est sendo utilizado neste documento da
mesma forma que http://dbpedia.org/resource/Galway. Ou seja, est sendo
utilizado
para
dizer
que
C

a
mesma
coisa
que
http://dbpedia.org/resource/Celsius.
Voc pode estar se perguntando qual o real benefcio que esta descrio adicional
trouxe para o documento. Caso voc queira acessar os links da DBPedia para Galway,
ver que muitos dados adicionais so fornecidos sobre a cidade de Galway, que antes
no poderiam ser acessados automaticamente. Por meio desta identicao, possvel

que mquinas possam, por exemplo, apresentar uma descrio da cidade, ou fotos
tursticas da cidade, ou at mesmo disponibilizar um mapa com a localizao exata da
cidade.
Gostaramos de salientar ao leitor que os exemplos apresentados no formato 4 e 5
estrelas requerem conhecimentos um pouco mais avanados sobre publicao de
pginas Web, como HTML e tambm RDF. No se preocupe caso no tenha
acompanhado todas as mincias do cdigo, principalmente com relao ao RDF, pois
essa foi sua primeira exposio a este contedo. Apesar de termos apresentado nesta
subseo algumas das propriedades presentes no modelo RDF e tambm termos
apresentado o formato de serializao RDFa, o modelo RDF apresenta muito mais
riqueza e vale a pena conhec-lo em mais detalhes. isto que faremos na prxima
subseo.

2.3
Representao
de
Dados
Conectados com o Modelo RDF
O RDF (Resource Description Framework) equivale a uma linguagem de representao
de informao na Web, permitindo que recursos possam ser descritos formalmente e
sejam acessveis por mquinas. Segundo (Shadbolt, et al., 2006), o objetivo do RDF
prover uma representao minimalista do conhecimento da Web.
A verso RDF 1.1 foi publicada em Fevereiro de 2014 e estendeu a verso 1.0 proposta
em 2004. Esta nova verso j est disponvel (Schreiber, et al., 2014). Nesta seo,
abordaremos algumas das caractersticas presentes no RDF 1.1, como o modelo RDF, o
seu vocabulrio e suas formas de serializao. Esse conhecimento importante para
compreender a riqueza de expressividade que o RDF proporciona para descrever e
representar a informao disponvel na Web. Esse framework tambm fundamental
para entender os mecanismos necessrios para criao de dados conectados de
qualidade.

2.3.1 Modelo RDF


O primeiro aspecto a destacar do modelo RDF que ele foi projetado para descrever
recursos na Web. No entanto, importante lembrar que a Web um espao de
informao no qual os itens de interesse precisam ser identicados. Assim, cada
recurso possui um identicador nico e global (chamado de URI) para que o mesmo
possa ser identicado na WWW. Na Figura 2.6 apresentamos um exemplo de como o
recurso
Oaxaca
Weather
Report

identicado
pelo
URI
http://weather.example.com/oaxaca
(http://weather.example.com/oaxaca).
Para
entender o exemplo, preciso entender a arquitetura da Web composta por trs bases
fundamentais, como descritas a seguir (Jacobs, et al., 2004):
1. Recurso nico: como explicado anteriormente, os identicadores so utilizados para
identicar os recursos. No exemplo abaixo o identicador o URI que prov uma
maneira simples e nica de identicar recursos na Web, sendo caracterizado por trs
aspectos:

a) Uniformidade: utilizao de recursos tanto no mesmo contexto quanto em contextos


diferenciados;
b) Recurso: qualquer coisa que pode ser identicado por um URI, como um vdeo,
imagem, servio, documento, entre outros; e
c) Identicador: informao requerida para identicar e diferenciar um determinado
recurso de qualquer outro.
Alm disso, um URI (http://www.w3.org/2001/tag/doc/identify) pode ser classicado
como:
i) URL (Uniform Resource Locator), onde basicamente dene um localizador/endereo
para um determinado recurso atravs de um protocolo existente e
ii) URN (Unied Resource Name) representa um nome para um determinado recurso,
garantindo unicidade e persistncia de forma global mesmo quando o recurso no est
disponvel. Finalmente, destacamos tambm o IRI (International Resource Identier) que
uma generalizao do URI. Diferente do URI que baseado os caracteres ASCII, do
ingls, American Standard Code for Information Interchange, o IRI amplia o nmero de
caracteres Chineses (kanji) e Japoneses (hiragana e katakana), bem como os caracteres
Cirlicos e Coreanos possam ser utilizados.
2. Interao: a Web possui uma arquitetura cliente-servidor. A comunicao na Web
acontece atravs de protocolos padres que permitem a troca de mensagens entre um
Servidor web que implementa este protocolo e um Browser Cliente que envia a
solicitao para o servidor. O Protocolo padro utilizado na Web o HTTP (Hypertext
Transfer Protocol), e como o prprio acrnimo diz, um protocolo de transferncia de
documentos hipertextos (e.x. HTML). Por exemplo, ao utilizarmos um browser
(navegador),
podemos
digitar
o
URI
http://weather.example.com
(http://weather.example.com), apresentado na Figura 2.6, com isso o navegador envia
uma requisio do tipo HTTP GET para o Servidor web e o mesmo retorna uma
mensagem contendo a representa o do recurso.
3. Formatos: na comunicao cliente-servidor, o servidor ir retornar para o cliente
(navegador) uma representao em um determinado formato. Cada formato de
representao retornado para o cliente conter informao de Metadados e Dados. Os
metadados so os campos de cabealhos utilizados para identicar o formato de
representao. No exemplo da Figura 2.6, o formato de representao XHTML, que
identicado pelo Content-Type: application/xhtml+xml. Veremos mais a seguir que em
RDF o valor do Content-Type ser diferente, pois no modelo RDF temos diferentes
formas de representao/serializao, como por exemplo Turtle (que possui ContentType: text/turtle) ou JSON-LD (que possui Content-Type: application/ld+json).

Com este esclarecimento feito acerca das bases fundamentais da arquitetura da Web,
apresentamos a Figura 2.7 que caracteriza o RDF
Podemos observar que um recurso pode ser descrito por uma coleo de
propriedades denominada descrio RDF
Cada propriedade dentro da descrio RDF possui um tipo (property type) e um
valor (value). Assim, qualquer recurso pode ser descrito com RDF e ser identicado
por um URI. Inversamente, podemos pensar que um URI possui uma descrio em
RDF que caracteriza um recurso disponvel na Web (Iannella, 1998)
A relao RDF com URI um conceito chave para referenciar e descrever um
recurso de forma nica e no ambgua.

DescrioRDF
Propriedade
Tipode
Propriedade

Valor

URI

Recurso

Alm de auxiliar na descrio dos recursos disponveis na Web de maneira mais precisa
(descrio sinttica), o RDF tambm oferece a possibilidade de descrever a relao e
signicados entre diversos recursos (descrio semntica). Assim, na prxima seo
apresentaremos o conceito de triplas RDF que permite explicitar rela es entre
recursos.

1.1 Triplas
Como destacamos anteriormente, o modelo RDF permite a descrio dos recursos. Para
descrever a relao entre recursos o RDF oferece uma estrutura de triplas do tipo
<sujeito> <predicado> <objeto> (Cyganiak, et al., 2014) . O conjunto destas estruturas
em tripla chamado de Grafo RDF. Este grafo RDF pode ser visualizado como na Figura
2.8.

Pre dicado
Sujeit o

Objet o

Esta Figura apresenta um grafo dirigido e acclico, onde cada tripla representada como
n-arco-n. Desta forma, um grafo RDF normalmente possui mltiplas triplas que iro
compor um documento RDF. Como exemplo de mltiplas triplas que so
disponibilizadas num documento RDF, temos a Figura 2.9. Neste exemplo existem 6
triplas que representam a relao entre conceitos/recursos (i.e. vrtices do grafo como
Bob, Person, etc). Na relao <sujeito> <predicado> <objeto>, o sujeito e o objeto
representam dois recursos que so relacionados por um predicado. Por exemplo,
<Bob> < amigo da> <Alice>, <Bob> representa um sujeito, que um recurso, <Alice>
representa o objeto que outro recurso e < amigo da> representa uma propriedade

que relaciona <Bob> <Alice>. Da mesma forma <A Mona Lisa> <foi criada por>
<Leonardo Da Vinci> representa a relao entre o sujeito <A Mona Lisa> e seu criador, o
objeto <Leonardo Da Vinci>, por meio da relao/propriedade <foi criada por>. A
riqueza desta representao permite que um computador possa interpretar os dados
representados por estas triplas. Contudo, para que isso seja completamente realizado
precisamos garantir que cada um dos elementos do grafo sejam representados e
referenciados de maneira nica. E isso pode ser realizado utilizando os IRI.

LeonardoDaVinci

a
Is dof
en
fri

cr w
ea as
te
d
by

Alice

isinteresedin

TheMonaLisa

is
ab
ou
t

Is
a

n
o
rn
bo
is

BOB

Person

14July1990
LaJoconde
Washington

1.2 IRIs
O Identicador de Recurso Internacional (ou IRI) o responsvel por identicar de
maneira nica um recurso na Web. Como um RDF um Framework, onde todo recurso
preferencialmente deve possuir um URI/IRI, ento o IRI pode representar um <sujeito>,
<predicado> ou <objeto>. Por exemplo, na Figura 2.9 a tripla <Bob> < amigo da>
<Alice> poderia ser representado utilizando IRIs como:
Sujeito: <http://example.com/Bob>
Predicado: <http://example.com/is_a_friend_of>
Objeto: < http://example.com/Alice>
importante destacarmos que, da mesma forma como apresentado na Seo anterior,
os dados aqui apresentados podem ser disponibilizados com 5 estrelas fazendo com
que determinado dado seja conectado com outro dado. Ou seja, poderamos reutilizar
padres e denies previamente desenvolvidos e consolidados. Assim, no exemplo,
poderamos
fazer
uso
do
vocabulrio
FOAF
(Friend
of
a
Friend)

[http://xmlns.com/foaf/spec/], que tem por objetivo descrever relacionamento entre


pessoas e informa es na Web. Neste caso, o exemplo <Bob> < amigo da> <Alice>
poderia ser descrito da seguinte forma:
Sujeito: <http://example.com/Bob>
Predicado: < http://xmlns.com/foaf/0.1/knows>
Objeto: < http://example.com/Alice>
O mesmo poderia ocorrer para os diversos recursos da Figura 2.9, como apresentado
na Tabela 2.2. A ttulo de exemplo, de acordo com a tabela abaixo, podemos ver o reuso
33
de
trs
vocabulrios,
sendo
eles
presentes
na
FOAF,
DBPedia
(footnotes.xhtml#footnote33) e a prpria especicao do RDF.
TABELA 2.2
RECURSOS EM UM DOCUMENTO RDF E RECURSOS CANDIDATOS AO REUSO
Recurso da Figura 2.9

IRI (que podem ser reusados)

<Person>

http://xmlns.com/foaf/0.1/Person

<is a>

http://www.w3.org/1999/02/22-rdf-syntax-ns#type

<The Mona Lisa>

http://dbpedia.org/page/Mona_Lisa

<Leonardo da Vinci>

http://dbpedia.org/page/Leonardo_da_Vinci

<is about>

http://www.w3.org/1999/02/22-rdf-syntax-ns#about

Outro
vocabulrio
que
poderia
ser
utilizado

o
Dublin
Core
(http://dublincore.org/documents/2012/06/14/dcmi-terms/), que tem por objetivo
descrever metadados, sendo bastante empregado para publicaes cientcas. Por
exemplo, o recurso <foi criada por> est sendo utilizado para indicar que a obra Mona
Lisa foi criada por Leonardo da Vinci. Neste contexto, o vocabulrio Dublin Core possui
o termo <http://purl.org/dc/terms/created> que poderia ser utilizado para indicar que
Leonardo da Vinci criou Mona Lisa (relao inversa a inicialmente proposta, mas que
possui o mesmo signicado). Neste caso, toda a tripla seria construda atravs de IRI
que foram reusadas. Essa reutilizao d maior robustez aos dados publicados na Web,
reduzindo problemas de ambiguidade e de interpretao errnea.
Com as informaes apresentadas nesta seo, conseguimos utilizar IRI para descrever
recursos em triplas RDF, contudo, existem recursos/informaes que no so
associadas com uma IRI. Neste caso o RDF permite utilizar literais e tipos de dados para
descrever uma informao.
1.3 Literais e Tipos de Dados
Os literais (usados em conjunto com os tipos de dados) podem ser compreendidos
como todos os valores identicados num grafo RDF que no possuem um IRI associado.
De acordo com a Figura 2.9, podemos identicar um literal que a data 14 July 1990.
Este tipo de literal um tipo de dado conhecido como date. Podemos tambm associar
a expresso La Joconde Washington a um literal que representa um texto e seu tipo
de dado conhecido como string.

Reforamos novamente aqui que uma das vantagens incorporadas com o IRI a
ampliao dos caracteres alm da tabela ASCII. Ou seja, podemos ento denir que La
Joconde Washington um literal relacionado a um vdeo sobre a Monalisa descrito
utilizando-se o idioma Francs (i.e. fr), enquanto um literal
relacionado ao mesmo vdeo, porm utilizando o idioma Japons (ex. jp). importante
frisar que os literais esto associados a tipos de dados. Como o RDF foi construdo
como uma camada acima do XML (vide Figura 1.7 ou Figura 1.8), todos os tipos de
dados disponveis em XML podem ser reusados em RDF. A lista de tipos de dados
disponveis em XML apresentada na Figura 2.10. No RDF, um novo tipo de dado foi
adicionado para descrever HTML, que o rdf:HTML.
No entanto, no podemos esquecer que os literais s podem ser aplicados a objetos, ou
seja, nunca podem descrever sujeitos ou predicados. Veremos em captulos
subsequentes que uma das recomendaes para Dados Abertos Conectados utilizar
URIs para nomear as coisas (Berners-Lee, 2006) ao invs de aplicar Literais. Este tipo de
viso uma boa prtica recomendada para Dados Abertos que estendeu a ideia de
RDF, qualicando ainda mais os dados que esto sendo representados.

Como resultado do reuso de diversos vocabulrios, bem como dos literais, temos como
Grafo RDF resultante da Figura 2.9, o grafo apresentado na Figura 2.11. Observemos
que em La Joconde Washington foi reutilizado um recurso do catlogo de dados
publicado pela Europeana 35 (footnotes.xhtml#footnote35), enquanto que o literal de
data permaneceu. Alm disso, o literal de data para representar a data de nascimento

de Bob, apareceu aps a data ^^xsd:date. O delimitador ^^ caracteriza que


estsendo descrito um literal, enquanto que o xsd o alias (pseudnimo) criado que faz
refer ncia ao XML Schema (vide Figura 2.4). Finalmente, date equivale ao tipo de dado
que est sendo denido. Outro vocabulrio reusado foi o Schema.org, que provuma
srie de esquemas e tem sido usado por engines de buscas de empresas como Google,
Microsoft, Yahoo! e outros.
LeonardoDaVinci

Alice

http://dbpedia.org/resource/
Leonardo_da_Vinci

f:k
fo a

dc
ter
m
s:c
re
ato
r

http://example.org/alice#me

no
ws

foaf:topic_interest

dcterms:title

t
jec

f:t
yp
rd

TheMonaLisa

ub

te
Da

Person
foaf:Person

h
irt

http://example.org/bob#me

s:s
m
ter
dc

BOB

a:b
m
he
sc

MonaLisa

http://www.wikidata.org/entity/q12418

"19900704 "xsd:date

LaJocondeWashington
http://data.europeana.eu/item/04802/243FA
8618938F4117025F17A8B813C5F9AA4D619

1.4 Mltiplos Grafos


Outro conceito importante que foi adicionado nova verso do RDF o conceito de
Mltiplos Grafos. Ao se criar um documento RDF, pode-se adicionar outros grafos que
se conectam ao grafo original, proporcionando assim catlogos de dados (do Ingls
Datasets) conectados. O mais importante que os mltiplos grafos podem ser
acessados por um nico IRI.
Ao observarmos o exemplo da Figura 2.9, referente pessoa Bob, podemos ver que
pela Figura 2.11, todos os dados relacionados Mona Lisa esto sendo reutilizados. Isto
quer dizer que o Grafo da Mona Lisa poderia ser acessado de maneira independente
por um nico IRI, como o disponvel em Wikidata, com o IRI
https://www.wikidata.org/wiki/Special:EntityData/Q12418. Com isso, teramos dois
grafos conectados, sendo um para descrever Bob (http:// example.org/bob) e outro
para Mona Lisa, como apresentado na Figura 2.12.

https://www.wikidata.org/wiki
Special:EntityData/Q12418

http://example.org/bob
Alice

LeonardoDaVinci

http://example.org/alice#me

dc
t

er
m

s
ow
kn

s: c

re
a

f:
foa

to
r

http://dbpedia.org/resource/Leonardo_da_Vinci

dcterms:title

foaf:topic_interest

t
dc

BOB

m
er

rt
bi

ct

a:

TheMonaLisa

je
ub

m
he

s: s

sc

http://example.org/bob#me

at
hD

rdf
:ty
pe

MonaLisa

http://www.wikidata.org/entity/q12418

Person
foaf:Person

"19900704"xsd:date
LaJocondeWashington
http://data.europeana.eu/item/04802/243FA
8618938F4117025F17A8B813C5F9AA4D619

A partir do momento que podemos conectar 2 grafos RDF, podemos fazer a conexo de
mltiplos grafos e termos a atribuio de um nico IRI. Isso facilita a reutilizao de
grandes quantidades de dados presentes em grafos RDF sem a necessidade de um
usurio ter o conhecimento completo dos mesmos. Alm disso, facilita a extenso de
grafos de maneira mais simples. Por exemplo, o grafo da Figura 2.12 poderia ser
facilmente estendido e incrementado adicionando qual a licena aplicada aos dados de
Bob e quem publicou os dados, como apresentado na Figura 2.13.

De acordo com as Figuras 2.12 e 2.13, podemos observar 3 grafos associados, sendo
um que descreve a pessoa Bob, outro para descrever Mona Lisa, outro para informar a
licena relacionada pessoa Bob e quem publicou. O grafo base 36
(footnotes.xhtml#footnote36) equivale ao primeiro grafo que conecta com os grafos
subsequentes, sendo neste caso <http://example.org/bob>. Desta forma, pelo IRI
<http://example.org/bob>, podemos acessar os mltiplos grafos supracitados. O cdigo
resultante deste exemplo apresentado na Figura 2.14 em TriG 37
(footnotes.xhtml#footnote37).

2.3.2 Esquema RDF (RDF-S)


Esta subseo tem por objetivo apresentar o esquema RDF que uma extenso do RDF,
conhecido como RDF Schema ou RDF-S, que possibilita descrio semntica. O RDF-S
um vocabulrio para modelagem de dados que amplia a expressividade do RDF para
prover mecanismos de descrio de taxonomias entre recursos e suas propriedades.
Ou seja, o RDF-S permite descrever grupos de recursos (tambm conhecidos como
classes) e suas relaes utilizando o conceito de triplas apresentado na seo anterior.
A Figura 2.15 apresenta os principais elementos do RDF-S. Apesar da Figura 2.15 ter
sido extrada da especicao do RDF 1.0, que foi recomendao do W3C em Maro de
2000 (Brickley, et al., 2000), os elementos descritos na Figura tambm esto presentes
na verso .1 de Fevereiro de 2014 (Brickley, et al., 2014).

Da mesma forma que o XML Schema baseado no XML, o mesmo ocorre com o RDF
Schema, que baseado no RDF. Isto implica que o RDF-S possui um IRI para cada
recurso e que tambm possui uma estrutura de triplas <sujeito> <predicado> <objeto>.
Gostaramos de destacar dois conceitos bsicos presentes em RDF-S:
Classe: este conceito utilizado para descrever recursos em um documento RDF.
Quando temos interesse em descrever recursos, podemos simplesmente utilizar o
rdfs:Resource, que uma instncia de rdfs:Class. Outros dois tipos de classes
importantes so rdfs:Literal e rdfs:DateType para denir tipos primitivos e derivativos.
Toda classe RDF possui um IRI associado e podemos denir propriedades para as
classes RDF.
Propriedade: o papel de uma propriedade denir relaes entre sujeitos e objetos.
Um tipo de propriedade importante equivale ao rdf:type. Ao dizermos que uma <Classe
A> uma instncia da <Classe B>, usamos o rdf:type. Ou seja, <Classe A> rdf:type
<Classe B>. Por exemplo, na Figura 2.12 para indicar que Bob do tipo Pessoa, do
vocabulrio FOAF, fazemos:
Bob rdf:type foaf:Person
Outros dois tipos de propriedades bastante usadas so rdfs:domain (responsvel por
indicar o sujeito da relao) e rdfs:range (responsvel por indicar o objeto da relao).
Quando dizemos <Propriedade P1> rdfs:domain <Classe C1>, quer dizer que o sujeito
da relao a classe C. O mesmo ocorre para indicar o objeto, como <Propriedade P2>
rdfs:range <Classe C2>.Por exemplo, na Figura 2.12, onde temos a relao Bob
foaf:knows Alice, estamos abstratamente dizendo que uma pessoa conhece outra
pessoa. Neste caso, temos que a propriedade foaf:knows possui tanto o domnio (i.e.
rdfs:domain) quanto a imagem (i.e. rdfs:range) como foaf:Person.

Ressaltamos a importncia do RDF-S que usado para representao e modelagem de


conceitos. No prximo captulo iremos tratar sobre modelagem utilizando os diversos
conceitos j apresentados at o momento.

2.3.3 Os Formatos de Serializao em RDF 1.1


At o momento abordamos caractersticas importantes do Modelo RDF, bem como
conceitos fundamentais do RDF Schema, que determina a semntica por trs do
Modelo RDF. Outro aspecto fundamental para RDF so as formas que eles podem ser
apresentados ou serializados. Esta de fato uma grande diferena presente no RDF 1.0
e em sua evoluo para o RDF 1.1, pois o nmero de formatos de serializao foi
bastante ampliado, como pode ser visto na Figura 2.16 (Wood, 2014) .

RDF1.0

RDF1.1
SuportaMltiplos
Grafos

NTriples

RDFa

Turtle

RDF/XML

esten
dido
por

RDF/XML

NTriples

e st
en
did
op
or

sim ilara

JSONLD

TriG

NQuads

Apesar de termos abordado o RDFa e o Turtle em sees anteriores, nas prximas


subsees iremos brevemente abordar cada um dos formatos de serializao.

3.1 RDFa
O RDFa (Resource Description Framework in Attributes) tem por objetivo embutir cdigo
RDF em estruturas HTML e XML (Herman, 2015).Isto feito atravs da incluso de
signicado via atributos dos elementos. por esta razo que RDFa considerada o RDF
em Atributos. A grande vantagem de utilizao do RDFa que mquinas de buscas
podem melhorar seus resultados aumentando a preciso sobre o real signicado de
determinado documento. Ou seja, as mquinas de buscas podem agregar os dados de
um documento com dados de outro documento, enriquecendo assim os resultados de
buscas. Na Figura 2.17 podemos ver um cdigo HTML com atributos RDF embutidos
que representa o grafo apresentado na Figura 2.12.

Podemos observar que no cdigo HTML aparecem quatro atributos com o objetivo de
descrever cdigo RDF, sendo eles:
prex, que tem por objetivo descrever os vocabulrios que esto sendo reusados no
documento HTML. Neste caso, temos o reuso de trs vocabulrios bastante conhecidos
por prossionais da rea (FOAF, Schema.org e Dublin Core);
resource, cujo objetivo descrever um determinado recurso, da mesma forma que foi
explicado no RDF Esquema, para a classe rdfs:Resource . Por exemplo, na linha 4 temos
a descrio do recurso http://example.org/bob#me;
property, cujo objetivo descrever uma propriedade. Semelhante ao atributo
resource, o atributo property similar propriedade rdf:Property. Como explicamos
anteriormente (vide Subseo 1.3.2), uma propriedade tem o objetivo de relacionar dois
elementos, ou seja relacionar um sujeito a um objeto. Isto quer dizer que uma
propriedade ir relacionar dois recursos. Podemos observar que como consequncia a
isto, todas as propriedades apresentadas no cdigo da Figura 2.17 aparecem dentro da
estrutura de um elemento <div>. Isto quer dizer, por exemplo, que das linhas 4 a 13, h
3 triplas relacionadas Bob
http://example.org/bob#me foaf:knows Alice
http://example.org/bob#me schema:birthDate 1990-07-04
http://example.org/bob#me foaf:topic_interest the Mona Lisa
typeof, que equivale ao atributo para representar o elemento rdf:type (i.e. tem o
mesmo objetivo do rdf:type). Por exemplo, na linha 04 temos
http://example.org/bob#me rdf:type foaf:Person

3.2 RDF/XML

3.2 RDF/XML

RDF/XML (Gandon; Schreiber, 2014) foi a primeira serializao feita para RDF e pode ser
claramente reconhecida pelo bolo de noiva (i.e. arquitetura em camadas) apresentado
na Figura 1.7. Este formato possui uma sintaxe XML para os grafos RDF. A gura 2.18
apresenta o mesmo cdigo RDFa, porm em RDF/XML.

Podemos observar que a primeira linha do cdigo da Figura 2.18 j apresenta o


elemento <?xml>. Diferente do RDFa, que tem todo os seus elementos dentro da
estrutura do HTML, o RDF/XML possui toda a sua estrutura dentro do XML e da tag
<rdf:RDF>. J o elemento rdf:Description utilizado para identicar sujeitos. Ao
observarmos o cdigo da Figura 2.18, o primeiro sujeito apresentado (vide Linha 07)
possui quatro sub-elementos. Isto quer dizer que cada sub-elemento apresentado entre
as linhas 08 e 11 representam uma tripla combinada com o sujeito descrito na linha 07.
Outra caracterstica importante que apresentamos no RDF/XML que o sujeito, apesar
de ser identicado pelo elemento rdf:Description, descrito pelo rdf:about.
Diferentemente do cdigo em RDFa, os tipos de dados reusados do esquema XML
foram explicitamente denidos para identicar a semntica do schema:birthDate.

3.3 JSON-LD
JSON-LD (Sporny, et al., 2014) um dos mais recentes formatos de serializao e surgiu
como uma extenso da proposta do JSON, com o objetivo de transformar cdigo JSON
para RDF com o mnimo de esforo possvel. Este formato bastante intuitivo para
programadores j familiarizados com a sintaxe JSON. A Figura 2.19 apresenta um cdigo
em JSON-LD.

Podemos observar que o cdigo da Figura 2.19 descreve o recurso Bob, identicado
pelo IRI http://example.org/bob#me, atravs da chave @id, descrita na linha 03 e o tipo
de recurso sendo descrito na linha 04. As linhas 05, 06 e 07 denem objetos que o
sujeito Bob se relaciona. Da mesma forma que os outros formatos de serializao,
podemos identicar as triplas no JSON-LD, como exemplicadas abaixo
http://example.org/bob#me birthDate 1990-07-04
http://example.org/bob#me knows http://example.org/alice#me
http://example.org/bob#me interest http://www.wikidata.org/entity/Q12418
Dois pontos que devemos destacar deste cdigo JSON-LD que
i) na linha 07 podemos identicar outro recurso no qual o sujeito Bob se relaciona, onde
este recurso equivale a outro grafo, contendo uma estrutura prpria e sendo
identicado pelo IRI descrito na linha 08; e
ii) no possvel identicar o esquema e a semntica dos recursos. Isto acontece por
que o contexto no qual os recursos esto inseridos cam em outro documento. Este
contexto identicado pelo objeto @context, descrito na linha 02. Logo, o cdigo que
descreve o contexto apresentado na Figura 2.20.
atravs deste contexto que possvel fazer o mapeamento do cdigo JSON-LD
descrito na Figura 2.19 no grafo apresentado na Figura 2.12.

3.4 N-Triples
N-Triples faz parte da famlia de formatos Turtle. N-Triples o formato de serializao
mais simples e intuitivo que existe (Carothers, et al., 2014). Como a principal
caracterstica do RDF possuir uma estrutura em triplas <sujeito> <predicado>
<objeto>, N-Triples simplesmente estrutura o cdigo em forma de triplas (vide Figura
2.21). Isto quer dizer que cada linha de um cdigo N-Triples equivale a uma tripla. Por
exemplo, o cdigo da Figura 2.21 possui 07 linhas, representando assim 07 triplas.
Podemos ver que ao nal de cada linha h um ponto (.), sendo usado exatamente para
identicar o m de uma linha. Outros aspectos a observarmos que todos os IRIs so
absolutos, ou seja, possui a identicao do recurso completo. Devido a sua
simplicidade, no possvel denir prexos e usar IRIs relativos 38
(footnotes.xhtml#footnote38).

3.5 Turtle

3.5 Turtle
Com o objetivo de ampliar as possibilidades de descrio de um documento N-Triples, o
formato Turtle foi criado, podendo assim descrever prexos e IRIs relativos na estrutura
do documento (Prud'hommeaux, et al., 2014). Da mesma forma que N-Triples, o
formato Turtle bastante simples e ainda mais fcil de ler. O c digo da Figura 2.22
apresenta a estrutura em Turtle.
As seis primeiras linhas do cdigo mostram os IRIs que podem ser denidos como
prexos e IRI base do documento, caracterstica esta no permitida no N-Triples.
Podemos ainda observar que as linhas 08, 14 e 18 apresentam sujeitos com seus
predicados e objetos logo abaixo deles. Este tipo de organizao e endentao torna
bastante intuitiva a leitura do documento, facilitando assim a identicao das triplas
RDF.
Objetivando ainda mais a simplicao da leitura de documentos RDF, a linha 09
apresenta mais uma caracterstica do formato Turtle. A primeira tripla descrita para Bob
bob#me a foaf:Person. O elemento que responsvel por relacionar o sujeito ao
predicado deste exemplo o token a. Este token a possui a mesma semntica da
propriedade rdf:type e usada para dizer que bob#me do tipo foaf:Person. Voc pode
estar se perguntando por que o a. A letra a representa um artigo da lngua inglesa,
sendo traduzido para portugus como um ou uma. Ou seja, ao lermos a tripla
descrita acima na linha inglesa seria Bob is a person (no portugus: Bob uma pessoa).
Logo, o token a foi adicionado para tornar o formato Turtle ainda mais intuitivo para o
ser humano.

3.6 TriG
O formato TriG uma extenso do formato Turtle, ou seja, herda a mesma simplicidade
e facilidade de leitura (Carothers, et al., 2014). Este formato foi criado para representar
mltiplos grafos, que foi adicionado a partir da especicao 1.1 do RDF. Um exemplo
de cdigo TriG para representao de mltiplos grafos foi apresentado na Figura 2.14.
Observemos que a nica diferena entre o cdigo Turtle e o cdigo TriG que os
sujeitos descritos so encapsulados dentro de uma palavra-chave chamada GRAPH. Isto
quer dizer que o conjunto de triplas dentro do elemento GRAPH representa um
catlogo de dados (ou dataset). No cdigo da Figura 2.14, so descritos trs grafos,
sendo dois grafos com a identicao (named graph) e um sem (aplicando blank nodes).
Na estrutura da linguagem 39 (footnotes.xhtml#footnote39), obrigatria a descrio
de pelo menos dois grafos, sendo um necessariamente descrito como blank node, ou
seja, sem IRI para identicar o grafo. importante destacar que um documento Turtle
tambm considerado um documento TriG.

3.7 N-Quads
Finalmente, o formato N-Quads utilizado para permitir o intercmbio de catlogo de
dados (Carothers, 2014). Como voc pode ver no cdigo da Figura 2.23, ele uma
extenso da N-Triples e possui em cada linha a identicao de uma tripla.

Na Tabela 2.3 apresentamos um resumo dos formatos de serializao, bem como a


estrutura do cdigo para cada formato e o propsito de uso de cada um deles.
TABELA 2.3
FORMATOS DE SERIALIZAO E SUAS CARACTERSTICAS E USO
Serializao
RDF
Tipo de Cdigo

Quando usar

RDFa

Cdigo RDF embutido em SEO


HTML

RDF/XML

Cdigo RDF com estrutura Aplicaes que usam estruturas em XML


em XML

JSON-LD

Cdigo RDF com estrutura Aplicaes que usam JSON


JSON

N-Triples

Cdigo RDF com estrutura Processamento e intercmbio de Big Data


de Triplas
em RDF.

Turtle

Cdigo RDF para facilitar a Processamento e intercmbio de Big Data


leitura humana
em RDF

TriG

Cdigo com estrutura Turtle Representao de Mltiplos grafos

N-Quads

Cdigo RDF com estrutura Processamento e Intercmbio de grandes


de Triplas
catlogos de dados.

2.4 Exemplos de Sucesso de Dados


Conectados
Nesta seo, iremos apresentar 5 casos de sucesso de utilizao de Dados Abertos
Conectados, sendo 3 deles relacionados a aplicaes empresariais e 2 com aplicaes
governamentais.

2.4.1 Tornando a Web de Dados Possvel:


DBPedia
Apesar deste exemplo ser mais um caso mais tcnico, consideramos de fundamental
importncia dissertarmos sobre ele, dado o impacto da DBPedia na evoluo da Web
em direo a Web de Dados.
Este caso de sucesso sem dvida o responsvel pela ampliao na fora tarefa que
estabeleceu as bases para o advento da Web de Dados. A DBPedia possui uma
estrutura em RDF/OWL que equivale ao n central da Web de Dados, como
apresentamos na Figura 1.13. Foi por meio da comunidade de Web Semntica e da base
de dados da DBPedia que a Web de Dados comeou a virar uma realidade. Projeto
iniciado em 2007 (The Linked Open Data Project), a DBPedia hoje possui atualmente
mais de 30 milhes de recursos descritos, em 120 idiomas. S na lngua inglesa,

descreve 832 mil pessoas, 639 mil lugares, 372 mil trabalhos criativos (i.e. msicas,
lmes, jogos), 209 mil organizaes, 226 mil espcies e 5.6 mil doenas. Na lngua
portuguesa, a DBPedia descreve 736 mil recursos, sendo uma das 12 lnguas mais
povoadas na ontologia da DBPedia. Alm disso, DBPedia reusa recursos de quase 40
diferentes catlogos de dados e foi conectada atravs de mais de 40 milhes de links a
uma centena de catlogos de dados (Lehmann, et al., 2014) .
A Figura 2.24 apresenta a arquitetura atual da DBPedia. Como podemos observar, a
arquitetura d suporte a trs tipos de atores diferentes, sendo dois deles para consumo
utilizando diretamente as tecnologias e padres para Dados Conectados. Para cada tipo
de usurio, faz-se uso de uma tecnologia diferente. Ou seja, usurios podem acessar via
HTML, via RDF (por exemplo, Open Link Data Explorer 40 (footnotes.xhtml#footnote40))
e via SPARQL Endpoint 41 (footnotes.xhtml#footnote41). Toda a comunicao clienteservidor ocorre, pelo lado cliente atravs dos mecanismos supracitados, e do lado
servidor atravs do servidor Virtuoso 42 (footnotes.xhtml#footnote42).

2.4.2 Consumindo Dados Ecientemente: BBC


Considerado um dos exemplos de Dados Conectados mais famoso, a BBC est na Web
desde 1994 e vem trabalhando com enriquecimento de pginas web a mais de 10 anos,
inicialmente com a programao de rdio e depois expandindo para TV, msica,
gastronomia, entre outros. Por volta de meia dcada, a BBC comeou a publicar dados
sobre as notcias de msica, reusando o vocabulrio da MusicBrainz 43
(footnotes.xhtml#footnote43). Atualmente, a BBC faz o reuso de diversos vocabulrios e
catlogo de dados.
A arquitetura de Dados Conectados da BBC pode ser vista na Figura 2.25. A BBC possui
o seu contedo armazenado utilizando uma TipleStore (ex. OWLIM 44
(footnotes.xhtml#footnote44)) e possuindo uma API para cada contedo com Dados
Conectados.
A ttulo de exemplo sobre o funcionamento da soluo de Dados Abertos da BBC,
apresentamos o caso a seguir. Ao entrarmos na pgina que oferece informaes sobre
o cantor do Pink Floyd, Roger Waters 45 (footnotes.xhtml#footnote45), podemos
visualizar a pgina conforme mostra a Figura 2.26. Esta pgina criada (semi-)
automaticamente por meio do uso de dados abertos e tecnologias da Web Semntica,
fazendo reuso do contedo tanto da Wikipedia (caso voc abra a pgina do Roger
Waters na Wikipedia, encontrar o mesmo contedo) quanto do MusicBranz. De acordo
com a Figura 2.26, o retngulo vermelho indica o trecho recuperado automaticamente
da Wikipedia e o retngulo verde, o trecho recuperado do MusicBranz.
Outro exemplo da prpria BBC a parte de programao da Rdio e TV. Esta parte faz
uso de uma ontologia chamada Programme Ontology (Raimond, et al., 2009) e reusa
diversas outras ontologias. Esta ontologia da BBC est disponvel na Figura 2.27.
Diferente da categoria de msica, que s serializa em JSON e XML, a parte de
programao da BBC serializa tambm em RDF 46 (footnotes.xhtml#footnote46).

2.4.3 Um Caso Brasileiro: Globo.com

A Globo.com um caso brasileiro que est fazendo uso de ontologias no somente


para a publicao de contedo, mas tambm para decidir que tipo de gadget
disponibilizado numa pgina de notcias. A Globo possui um grupo de prossionais da
Web Semntica dedicado a organizar e distribuir todo o contedo produzido pelas
organizaes Globo. Atualmente a Globo.com possui uma ontologia de base que
conecta e distribui dados de diferentes portais de informaes da Globo (G1, Globo
Esporte, Ego e TVG). Um exemplo apresentado na Figura 2.28, onde a notcia sobre o
Barcelona foi gerada com especicaes de tags que apoiam na descrio semntica
das pginas e, por consequncia, os gadgets (por exemplo, na parte direita da pgina,
em leia mais sobre) so gerados e conectados a outras notcias automaticamente
(Medeiros, 2013). Observe que na Figura 2.28, tanto a notcia quanto os gadgets esto
relacionados com o time de futebol Barcelona e no com a cidade espanhola de
Barcelona. Isto possvel exatamente por causa da anotao semntica das notcias,
que permite diferenciar que Barcelona est relacionado ao time de futebol e no
necessariamente cidade de Barcelona.
FIGURA 2.28
EXEMPLO DE USO DE SEMNTICA NO GLOBO ESPORTE
Isto possvel graas denio de uma ontologia base para conectar as notcias
publicadas em diferentes portais da globo e a nova arquitetura baseada em Dados
Conectados que faz uso de uma API Restful, chamada Brainiak, como mostrada na
Figura 2.29.

2.4.4 Governo Conectado: Data.gov.uk


O Portal de Dados do Governo Britnico uma das grandes iniciativas governamentais
de abertura de Dados Conectados. O data.gov.uk possui em sua base quase 19 mil
catlogo de dados disponveis e os mesmos so categorizados de diferentes formas
para facilitar a busca e descoberta de catlogos. Uma das formas que o Portal
disponibiliza atravs do esquema de classicao de Dados Abertos das 5 Estrelas
(vide Figura 2.2), de acordo com a Tabela 2.4.
TABELA 2.3
CLASSIFICAO DOS CATLOGOS DO PORTAL BRITNICO DE COM O ESQUEMA 5
ESTRELAS.
Nmero de Estrelas

Quantidade de Catlogos

13.965

281

1.145

2.345

168

Podemos observar que de acordo com a Tabela 2.3, ainda h muitos catlogos de
dados para os quais no foi dena uma licena e no podem ser considerados abertos.
Alguns destes catlogos possuem formatos de dados abertos, como XML e CSV, no
entanto no deniram ainda uma licena.
Um exemplo de catlogo de dados com 5 estrelas o Land Registry Price Paid Data (ou
Dados dos Registros de Preos Pagos por Terra) sobre a Inglaterra e Pas de Gales.
Atravs deste dataset, possvel ter acesso a uma srie temporal disponvel em
diferentes formatos (inclusive RDF) sobre o preo de cada venda de terra nestas duas
regies.
Outro cenrio possvel que a maioria dos catlogos com formatos RDF disponveis
sobre organogramas, fornecendo informaes dos prossionais de cada organizao e
nvel hierrquico nesta mesma organizao. Um tipo de aplicao, que pode ser
construda utilizando-se dos dados dos diversos organogramas, a que verica
acmulo de cargos pblicos e horas de trabalhos semanais.

2.4.5 Nova York Conectada pelo povo e para o


povo
A cidade de Nova York possui uma proposta de abertura de Dados Conectados,
integrada com a sociedade civil. A cidade no somente abre os dados do governo, como
estimulam a sociedade a desenvolver aplicaes utilizando estes dados, criando assim
uma cidade conectada pelo povo e para o povo.
Uma das polticas do Portal de Dados Abertos da Cidade de Nova York que os dados
so abertos por padro. No entanto, alguns dos dados que so considerados
condenciais no so publicados, de acordo com o relatrio de Polticas de Segurana
da
Informao
da
Cidade
de
Nova
York
[http://www.nyc.gov/html/doitt/downloads/pdf/data_classication.pdf] A arquitetura
lgica do Portal de Dados Abertos da Cidade de Nova apresentada na Figura 2.30.
Observa-se que o Portal faz uso de uma camada de servios de integrao, tanto de
dados geogrcos, quanto de servios de monitoramento. O Portal possui mais de 1000
catlogos de dados disponveis em vrios formatos, inclusive RDF. Por meio da
plataforma utilizada, possvel tanto fazer a publicao dos dados abertos de forma
simplicada e sistemtica, quanto exportar os dados para diferentes formatos. Alm
disso, a plataforma disponibiliza uma API onde a sociedade civil pode consumir estes
dados. o que vem acontecendo atravs da iniciativa chamada BetaNYC 47
(footnotes.xhtml#footnote47), que possui mais de 1500 desenvolvedores cadastrados e
responsvel por organizar Hackathons para promover o desenvolvimento de solues
utilizando Dados Conectados.
Como um exemplo deste tipo de iniciativa, citamos a WayCount, que uma soluo
para Cidades Inteligentes. O objetivo do WayCount prover um hardware que possa
medir em tempo real dados sobre o trco de bicicletas e automveis. Diferentes das
solues concorrentes, o WayCount possui dois princpios essenciais: baixo custo e
dados abertos. Ou seja, atravs de uso de tecnologias de open source, o WayCount

coleta dados em tempo real e disponibilizam como dados abertos, criando assim um
rico repositrio de dados abertos do trco para proporcionar a criao de cidades
mais inteligentes.
Outro exemplo o Data Explorer for US Politics (Explorador de Dados para a Poltica
Americana), que um plugin para o Chrome que disponibiliza dados sobre
contribuies de campanhas. O Data Explorer est integrado DBPedia, onde os dados
so extrados automaticamente (vide Figura 2.31).

2.5 Consideraes Finais


O principal objetivo deste captulo foi oferecer ao leitor uma viso geral sobre como a
estruturao de dados feita na Web e como esta estrutura pode ser utilizada para
representar Dados Abertos Conectados. Este captulo foi organizado por meio de
exemplos visuais com o intuito de trazer para o leitor, pouco acostumado com o
conceito de estruturao de dados na Web, uma perspectiva incremental de
estruturao de dados abertos. Foi tambm inteno deste captulo dissertar sobre o
modelo RDF, apresentando suas caractersticas principais, a semntica por trs do RDF
e as principais formas de serializao de documentos RDF. Por m, foram apresentados
casos de sucesso da utilizao de Dados Conectados, sob as perspectivas acadmicas,
governamentais e empresariais.
Esperamos que as seguintes mensagens tenham sido passadas:
Compreenso sobre estruturao de dados na Web de Documentos e na Web de
Dados;
Conhecimento sobre como estruturar dados segundo o esquema de 5 estrelas para
abertura de dados;
Entendimento sobre a importncia do modelo RDF, bem como suas principais
caractersticas;
Aprendizado sobre alguns conceitos fundamentais para a semntica de documentos
RDF;
Compreenso sobre os diversos modelos de serializao de documentos RDF e suas
aplicaes;
Visualizao de casos de sucesso sendo aplicados nos contextos empresarial,
governamental e acadmico.

Vous aimerez peut-être aussi