Vous êtes sur la page 1sur 71

France Télécom R&D/TECH/SENSE

Web des données,


données ouvertes

People Rank

Janvier 2010
Executive Summary

Executive Summary

Le web entre dans une nouvelle phase de son existence, dont l’une des caractéristiques
est le saut tant quantitatif que qualitatif des données qui y sont placées. Les sources de
données se diversifient : pouvoirs publics, entreprises, individus, et demain ce sera au
tour des objets de publier, partager, et mettre en circulation de plus en plus de données à
travers la toile.

Au cours des deux dernières années, des voix se sont élevées pour promouvoir une
circulation plus libre de ces données. Portabilité des données, données ouvertes,
données libres… les discours se mêlent dans une certaine confusion. Confusion quant à
la nature, l’origine et le statut des données concernées d’abord. Confusion quant aux
conditions techniques et juridiques de leur circulation de l’autre.

Cette étude s’attache dans un premier temps à comprendre d’où vient le mouvement
d’ouverture des données et qui en sont les principaux protagonistes. Puis à clarifier les
différents concepts qui circulent autour des données ouvertes. Après avoir analysé les
initiatives qui tentent de structurer le paysage des données ouvertes, tant sur le plan
juridique que technique, l’étude dessine les premiers contours de la chaîne de valeur de
ce nouveau secteur, puis s’attarde à décrire plus en détail cinq acteurs investis dans cette
nouvelle forme d’activité.

Cette étude a été réalisée dans le cadre du projet People Rank du Laboratoire
Tech/Sense de France Télécom R&D, qui mène une réflexion plus large sur l’évolution du
Web et de ses communautés.

Web des données,


données ouvertes 2
© Sofrecom pour FT R&D - Janvier 2010 - v-
Sofrecom accompagne chaque acteur des télécoms tout au long de son développement,
avec une expertise et des solutions transverses en conseil stratégique et marketing,
ingénierie réseaux et systèmes d’information.

Riche de ses expériences dans plus de 100 pays, d’une véritable culture opérateur et de
la force du Groupe France Telecom, Sofrecom associe à sa parfaite connaissance du
métier d’opérateur une expertise pointue sur l’ensemble des enjeux technologiques de
l’information et de la communication.

Sofrecom SA Sofrecom à l’international


24, avenue du Petit Parc • Sofrecom Algérie, Alger
F-94307 VINCENNES • Sofrecom Argentine, Buenos Aires
T : +33 (0) 1 43 98 55 55 • Sofrecom Indonésie, Jakarta
F : +33 (0) 1 43 98 57 96 • Sofrecom Maroc, Rabat
www.sofrecom.com • Sofrecom Pologne, Varsovie
marketing@sofrecom.com

Mentions légales
• © Sofrecom - Tous droits réservés
• Les informations contenues dans ce document sont la propriété de Sofrecom S.A. et sont
strictement confidentielles. Ces informations ne peuvent être divulguées, reproduites ou
diffusées, en tout ou partie, sans l’autorisation écrite de Sofrecom S.A.
• Il est expressément interdit de reproduire, présenter ou dupliquer sur quelque support que ce
soit et de quelque manière que ce soit, tout ou partie de ce document sans l'autorisation
écrite de Sofrecom S.A.

Web des données,


données ouvertes 3
© Sofrecom pour FT R&D - Janvier 2010 - v-
Contacts

Contacts

Valérie Peugeot, Julien Duprat et Damien Tramblay


Sofrecom / Direction SATM
24 avenue du Petit Parc
94307 Vincennes – France
Tél : +33 (0)1 43 98 55 55

Courriels :
valerie.peugeot@sofrecom.com
julien.duprat@sofrecom.com
damien.tramblay@sofrecom.com

Web des données,


données ouvertes 4
© Sofrecom pour FT R&D - Janvier 2010 - v-
Table des matières

Table des matières

Executive Summary ............................................................................................. 2

Contacts ................................................................................................................ 4

1 Sources .......................................................................................................... 7

2 Paysage des données ouvertes : historique et clarification du concept . 8

2.1 Définition................................................................................................................... 8

2.2 Historique : une dynamique en tache d’huile ............................................................. 8


2.2.1 Un concept né dans le monde des sciences.............................................................................. 8

2.2.2 …qui croise le monde des données publiques en général… ..................................................... 9

2.2.3 …que s’approprie le monde du web… ..................................................................................... 17

2.2.4 …encouragé par les utilisateurs............................................................................................... 22

2.3 Arrêt sur image : les discours des figures du Web....................................................23

2.4 Confusions autour du concept : essais de clarifications ...........................................24


2.4.1 Où commencent et où s’arrêtent les données ?....................................................................... 25

2.4.2 De quelles données parle-t-on ? .............................................................................................. 27

2.4.3 Une tentative de définition pour les données publiques ouvertes ............................................ 32

2.4.4 Que met-on derrière le terme « open » (ouvert) ?.................................................................... 33

2.4.5 Données du monde réel et données du web............................................................................ 34

2.4.6 Concepts connexes.................................................................................................................. 36

3 Vers une structuration de l’écosystème des données ouvertes............. 38

3.1 Lever les obstacles juridiques : l’émergence de licences ouvertes pour les données
38

3.2 Lever les obstacles techniques : un début de structuration des formats et des
initiatives de standardisation des ontologies ....................................................................42
3.2.1 Formats de données ................................................................................................................ 43

3.2.2 Producteurs de sémantique et d’association............................................................................ 45

3.2.3 Catalogues de données ........................................................................................................... 48

3.2.4 Limites actuelles de la standardisation des données ............................................................... 49

3.2.5 Poids des différentes initiatives ................................................................................................ 50

Web des données,


données ouvertes 5
© Sofrecom pour FT R&D - Janvier 2010 - v-
Table des matières

3.3 Organisation des acteurs impliqués dans les données ouvertes ..............................50
3.3.1 Manipulation des données ....................................................................................................... 52

3.3.2 Hébergement des données...................................................................................................... 52

3.3.3 Exploitation de données........................................................................................................... 52

4 Zoom sur quelques initiatives d’ouverture des données ........................ 53

4.1 TALIS.......................................................................................................................54

4.2 Ouverture des données de transport public..............................................................58

4.3 Backtype ..................................................................................................................63

4.4 Pachube...................................................................................................................67

4.5 ENRON....................................................................................................................71

Web des données,


données ouvertes 6
© Sofrecom pour FT R&D - Janvier 2010 - v-
Sources

1 Sources

L’ensemble des documents en ligne repérés par les trois consultants mobilisés pour
réaliser ce travail ont été regroupés à l’intérieur d’un outil collaboratif en ligne intitulé
« FriendFeed » http://friendfeed.com

Le salon dédié est intitulé « donnees_communes » : ce salon est fermé, une autorisation
doit être demandée à son créateur pour y accéder.

Pour pouvoir consulter les sources, il vous suffit :

- de vous créer un compte sur FriendFeed

- de chercher le salon http://friendfeed.com/donneescommunes

- puis de demander l’accès au créateur du salon

Web des données,


données ouvertes 7
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

2 Paysage des données ouvertes : historique et


clarification du concept

2.1 Définition
« Les “données ouvertes” sont à la fois une philosophie et une pratique, qui exige que
certaines données soient mises à disposition de chacun librement (freely en anglais),
sans restrictions liées à des droits d’auteur, de brevets ou tout autre mécanisme de
contrôle. »1

Si cette définition proposée par Wikipedia (En) semble faire accord, le consensus s’arrête
là : de quel type de données parle-t-on ? En quoi consiste cette libre circulation ? Quel en
est l’intérêt ? Autant de questions autour desquelles les avis divergent à la lecture des
prises de position des personnalités du Web.

Un bref détour par l’historique du concept permet de comprendre en partie les sources de
dissensus.

2.2 Historique : une dynamique en tache d’huile


2.2.1 Un concept né dans le monde des sciences...
Avant que le terme ne fasse son apparition, la philosophie qui le sous-tend était défendue
par des chercheurs, comme le sociologue Robert K. Merton, à l’origine de la théorie dite
« CUDOS », acronyme derrière lequel il décrit les conditions idéales de l’innovation
scientifique (Communalism, Universalism, Disinterestedness et Organized Skepticism).
Par communalisme, il entend le fait que les découvertes scientifiques sont l’objet d’une
propriété commune et que les scientifiques renoncent à leur propriété intellectuelle en
échange de la reconnaissance et de l’estime de leurs pairs.

Le terme « données ouvertes » proprement dit a fait son apparition en 1995. LE GCDIS
(le comité sur les données géophysiques et environnementales du Conseil National de la
Recherche aux États-Unis) publie un document intitulé « de l’échange complet et ouvert
des données scientifiques ». Dans ce document, il est expliqué que l’atmosphère, la
biosphère et les océans forment un ensemble intégré qui transcende les frontières et qui
ne peut être étudié que par une recherche coopérative internationale, s’appuyant sur des
données croisées provenant des différentes sources nationales. Et de conclure : « les
programmes internationaux de recherche sur le changement globale et la surveillance
environnementale dépendent du principe d’un échange complet et ouvert des données
(i.e. les données et les informations sont rendues disponibles sans restriction, sur une
base non discriminatoire, pour un coût réduit à celui des besoins de reproduction et de
distribution). »

1
Source : http://en.wikipedia.org/wiki/Open_Data

Web des données,


données ouvertes 8
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Au cours des quinze dernières années, non seulement le terme s’est répandu dans le
monde scientifique, mais il a fait l’objet de différentes initiatives proactives et constitue
l’une des pierres d’un mouvement intitulé « open access » ; il vise à permettre aux
résultats de la science en général (et pas seulement aux données) de circuler en
s’appuyant sur des dispositifs techniques, juridiques et économiques innovants (parmi les
autres initiatives : open archives, publications scientifiques en ligne en accès libre…).

Quelques exemples de ces initiatives en matière de données ouvertes, issues du monde


scientifique :

 L’engagement de scientifiques pour des données du génome ouvertes2 en 2002

 Un consortium pour les données géo-spatiales ouvertes3 en 2003

 « A manifesto for Open Chemistry »4 en 2004

 Pétition pour des données ouvertes en Cristallographie5 en 2005

Progressivement, ces initiatives se sont élargies à de nouveaux champs scientifiques


et/ou à des informations statistiques publiques. Ex :

 The Open Data Foundation (ODaF)6, créée en 2006, se définit comme « un


organisme à but non lucratif qui promeut l’adoption de standards internationaux de
métadonnées et le développement de solutions open source pour la gestion et
l’usage de données statistiques. Nous nous consacrons à améliorer l’accès aux
données et métadonnées ainsi que leur qualité, en soutien à la recherche, la prise
de décision et la transparence dans les champs des SBE (sciences sociales,
économiques et du comportement) ».

2.2.2 …qui croise le monde des données publiques en général…


Deux des arguments forts avancés en faveur de la libre circulation des données
scientifiques sont :

 la nature de leur financement : la recherche des universités et centres de


recherches publics est financée pour l’essentiel sur fonds public (même si cela est
de moins en moins vrai, ces instituts étant poussés à chercher des financements
privés, ce qui constitue une partie du problème). Il est donc logique que le
contribuable puisse bénéficier librement des fruits de ce financement.

 Puisqu’ils sont financés publiquement, ils participent d’un bien commun, dont nul
ne peut revendiquer l’appropriation à des fins exclusives, quelles qu’elles soient.

2
http://www.oreillynet.com/pub/a/network/2002/04/05/kent.html
3
http://www.opendataconsortium.org/
4
http://groups.lis.illinois.edu/guest_lectures/Murray-Rust/communal/manifesto.html
5
http://www.crystallography.net/
6
http://www.opendatafoundation.org/?

Web des données,


données ouvertes 9
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Ce raisonnement appliqué aux données scientifiques est également défendu pour


l’ensemble des données dites publiques, dont les premières ne constituent qu’une sous-
catégorie.

Les données publiques sont les données de toute nature, sous forme numérique ou non,
collectées, produites et mises à disposition par une personne publique (État, collectivités
territoriales, établissements publics) pour des tiers, dans le cadre d'une mission de
service public.

Des acteurs qui promeuvent la mise à disposition des données publiques

Deux catégories d’acteurs, poreuses, incitent à une exposition de ces données sur le
Web :

 des opérateurs privés qui considèrent que « le secteur de l’information publique


reste un large gisement sous-exploité à l’heure actuelle : pour le développement
de l’industrie et du marché de l’information, il est nécessaire de promouvoir la
diffusion des données publiques. »7.

 des groupes de citoyens, des élus, qui constatent


que les administrations gardent trop souvent les
données par devers elles, alors que leur mise à
disposition pourrait constituer un moteur
d’accroissement du bien commun, socle sur lequel
de nouvelles initiatives et services pourraient être
lancés. (cf. encadré 1, initiative française). Au
Royaume-Uni, une campagne en ligne intitulée
« mash the state » demande aux pouvoirs publics
en général et aux municipalités en particulier, de
mettre leurs données à disposition du public.
Constatant que seulement 26% des municipalités
disposent d’un fil RSS, ils invitent les 74% restant à
en faire autant avant Noël 2009.

7
http://www.gfii.asso.fr/rubrique.php3?id_rubrique=60
Web des données,
données ouvertes 10
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Encadré 1

Extrait du texte d’appel pour la création d’un groupe de travail pour des données
ouvertes et mises en commun en France :

Bien que financés par l’argent public, nombre de sites de collectivités territoriales,
d’études, de données publiques, de productions des acteurs des services publics sont
mis en ligne avec un "copyright" qui n’en permet pas une réutilisation : pourtant la
plupart des informations sur ces sites sont de nature publique ; leur réutilisation telle
quelle, et avec la signature dans une autre publication, ne peut qu’augmenter la
diffusion de l’information publiée. L’extension des biens communs et l’accès partagé de
tous aux biens informationnels publics est un enjeu de société face à la concentration
des services sur quelques moteurs de recherche, l’envahissement de la publicité et la
collecte des données personnelles privatisées sans que nous en connaissions l’usage.
La société a beaucoup à gagner à mettre en biens communs des données publiques,
qu’elles soient d’intérêt général (comme les recensements, les données
cartographiques et les études thématiques) ou plus locales, sur le « vivre ensemble »
et la connaissance partagée d’un territoire.

• si les données de l’IGN étaient réutilisables, on n’aurait pas la contrainte de se


tourner vers les "google map" ;

• donner à voir les études commanditées favorise le débat public et constitue


un facteur de démocratie ;

• en permettant la réutilisation de ces études, on ne favorise plus le financement


de simples couper-coller, mais la création de réelles valeurs ajoutées par les
consultants ;

• donner à voir les réponses apportées à une enquête ou un questionnaire


augmente la qualité des déclarations soumises à un regard critique public ;

• rendre accessible un projet d’école, de centre social, favorise les synergies


locales entre acteurs du quartier ;

• publier les projets soutenus par une collectivité rend visible les « bonnes »
pratiques et favorise le partage d’expériences ;

• permettre la réutilisation des photos et documents d’archive ouvre de multiples


créations dans l’éducation, la mise en valeur des territoires ; ...

Source : http://www.a-brest.net/Www.a-brest.net/article3782.html

Union Européenne : Un cadre juridique au milieu du gué

La question de la disponibilité des données publiques n’est pas nouvelle. De longue date,
les entreprises revendiquent l’utilisation de l’information publique en général (publications,
données…), sur laquelle elles peuvent s’appuyer pour innover, améliorer leurs offres et
construire de nouvelles activités.
Web des données,
données ouvertes 11
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Cette mise à disposition de l’information publique est encadrée à l’échelle européenne par
une directive en date du 17 Novembre 2003 et transposée en droit français le 7 juin 2005
par ordonnance. Préexistait en France une loi de 1978 sur l’accès aux documents
administratifs.

Bien que le sens général de ces textes aille vers une mise à disposition large de ces
données, on notera toutefois plusieurs limites :

 la mise à disposition n’est pas nécessairement gratuite, c’est même l’exception. Elle
peut faire l’objet d’une redevance, que la réutilisation soit à usage commercial ou
non, redevance dont le montant peut inclure les coûts supportés par l’administration
productrice ou détentrice des informations, et notamment les coûts de mise à
disposition et d’éventuelle anonymisation des informations.

 plusieurs exceptions sont listées, en particulier :

 les données produites par des EPIC (Établissements Publics Industriels et


Commerciaux) et par des organismes privés chargés de services publics

 les informations des établissements culturels [musées, ...] ou d’enseignement


suivent quant à elles un régime particulier, laissé à la libre appréciation des
établissements en cause

 point essentiel, l’ordonnance n’impose aucune mise en ligne. Un document de l’État


est considéré comme « mis à disposition » dès sa publication dans le journal officiel
(ou dans les recueils des actes administratifs lorsqu’il s’agit d’un document produit
par une collectivité territoriale).

Dès lors, on voit bien que la question centrale est déplacée : l’obstacle à une réutilisation
des données publiques n’est ni leur statut, ni leur confidentialité, mais le support de leur
mise à disposition, le vecteur de l’exposition.

En Mai 2009, la directive a fait l’objet d’un réexamen, démarche qui permet de mesurer
l’impact de la mise en œuvre de la directive, les obstacles rencontrés et les éventuels
correctifs à prendre8. La Commission appelle à « la suppression des accords d'exclusivité,
l'application de modèles d'octroi de licences et de tarification qui facilitent la réutilisation
des ISP (Informations du Secteur Publique), la garantie de conditions de licences
équitables pour les organismes du secteur public qui réutilisent leurs propres documents
comme pour les autres réutilisateurs, et la promotion de mécanismes de résolution des
conflits rapides et peu onéreux ».

Elle souligne que « les organismes du secteur public sont encouragés à identifier leurs
ressources d'information et à les rendre facilement et rapidement disponibles sous des
formats stables. À cet égard, les inventaires de ressources d'information et les portails
ISP nationaux sont des outils importants ». Pour autant, elle ne fait pas de la mise en
ligne un passage obligé et ne privilégie aucun format, sémantique ou autre.

La Slovénie et le Royaume-Uni sont mis en avant dans ce rapport comme étant les deux
pays les plus avancés en matière de portails web relatifs aux ISP.

8
http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:52009DC0212:EN:NOT

Web des données,


données ouvertes 12
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Un travail de fond du côté de la commission européenne

Par ailleurs, la Commission européenne soutient la plateforme ePSIplus (European Public


Sector Information (PSI) Platform)9, qui se présente comme la « Europe's One-Stop Shop
on Public Sector Information (PSI) Re-use ». On y trouve, entre autres, une série
d’exemples de services construits par des entreprises à partir d’informations publiques au
sens large (pas uniquement des données brutes). Ainsi, l'entreprise suédoise Navtech10
développe des solutions logicielles pour les vols aériens et des outils pour l'industrie
commerciale aéronautique ; pour ce faire, elle utilise les données météorologiques
fournies par l'office météo britannique afin d’offrir des outils de planification de vols. Dans
le domaine de l'agriculture, l'entreprise autrichienne PROGIS Software GmbH11 offre des
outils de gestion de l'espace rural, intégrant différents flux de données : agricoles, météo,
environnement, législation européenne...

Point essentiel, ce portail ne rassemble pas spécifiquement des données pleinement


ouvertes, au sens où elles seraient mises à disposition gratuitement. Nombre de ces
informations sont mises à disposition moyennant achat d’une licence, dans le cadre de la
directive mentionnée précédemment.

Le membre français de cette plate-forme est le GFII – Groupement Français de l’Industrie


de l’Information12, association des acteurs publics et privés de l’information numérique
professionnelle, qui rassemble des producteurs, éditeurs, prestataires, éditeurs de
logiciels, grands comptes acheteurs d’information…

En 2006, une décision a été adoptée, qui impose à la Commission d’aller au-delà des
principes de la directive pour ses propres données. Les tarifs ne dépassent pas les coûts
marginaux et l’ensemble de ses documents sont réutilisables. Les études, la base de
données juridique EUR-Lex, les mémoires de traduction sont mis à disposition, la plupart
dans 22 ou 23 langues… L’ensemble des statistiques d’Eurostat sont accessibles sur le
site dédié et les données peuvent être téléchargées en format tableur.13 Cependant, le
pas d’une mise à disposition sous forme d’API ouverte n’a pas encore été franchi.

A noter que le centre de recherche privé autrichien Joanneum Research s’est attelé à
convertir l’ensemble des 3 milliards de données d’Eurostat pour l’année 2008, au format
RDF.

Des administrations françaises réticentes et / ou lentes

Dans les faits, certaines administrations, locales comme nationales, restent très réticentes
à diffuser leurs données, à la fois pour des raisons historiques (culture du secret d’État
dont elles ont du mal à se défaire), politiques (volonté consciente de conserver par devers

9
http://www.epsiplus.net/
10
http://www.navtech.aero/company_information/company_facts.html et
http://www.epsiplatform.eu/examples/directory/aeronautics/notam
11
http://www.progis.com/en/?id=kontakt\unternehmen.html et
http://www.epsiplatform.eu/examples/directory/agriculture/agroffice
12
http://www.gfii.asso.fr/rubrique.php3?id_rubrique=30
13
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

Web des données,


données ouvertes 13
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

elles des informations considérées comme délicates et qui pourraient les desservir),
anthropologiques (elles ont le sentiment, réel ou perçu, de perdre une partie de leur
pouvoir en partageant les données), économiques et techniques (toutes les
administrations ne disposent pas des budgets et compétences techniques pour une
exposition optimum de leurs données).

Sans même parler de mise en ligne, elles peinent à répondre à trois impératifs de la loi :
- l’élaboration de licences types fixant les conditions de circulation et d’usage de ces
données,
- l’établissement d’un répertoire des informations publiques permettant à chacun de savoir
quelles sont les données disponibles,
- la définition de principes tarifaires.

Le plan de développement de l’économie numérique, www.francenumerique2012.fr,


présenté par le Gouvernement français en octobre 2008, prévoit la création d’un portail
unique d’accès aux données publiques. Cette mission a été confiée de manière
opérationnelle à l’APIE.

L’Agence pour le Patrimoine Immatériel de l’État14, créée en Avril 2009, placée sous la
tutelle du Ministère des Finances, est chargée de mesurer, gérer, faire fructifier, évoluer le
patrimoine immatériel de l’État (les brevets, les licences, les fréquences, les marques, les
savoir-faire publics, les bases de données, les droits d’accès ou les images publiques).

Comme l’indique le site web de l’APIE, la mission de création d’un portail unique est
envisagée avant tout d’un point de vue économique :

« Les données publiques couvrent un vaste champ de secteurs ; bon nombre d’entre elles
sont encore peu exploitées. Il s’agit de les faire émerger pour favoriser le développement
de nouveaux produits et services et contribuer ainsi à la croissance économique.

L’Agence pour le Patrimoine Immatériel de l’État (APIE), chargée de la conception de ce


portail a lancé, le 7 mai, un groupe de travail interministériel qui définira les contours de
celui-ci au regard des besoins de ses différents types d’utilisateurs, qu’il s’agisse des
opérateurs économiques, du grand public ou encore des administrations elles-mêmes.
Assisté d’experts, bénéficiant de l’expertise d’une mission IGF-CGIET et d’une assistance
à maîtrise d’ouvrage, il devrait rendre ses conclusions au début de l’automne pour
démarrer la phase de mise en œuvre en vue d’une ouverture du portail à la fin de l’année
2010. ».

A date, ce portail n’a pas été lancé et est désormais annoncé pour 2011. Les informations
disponibles semblent indiquer qu’il s’agirait d’un simple agrégateur de liens, renvoyant
vers des sources de données déjà existantes, et non d’un portail « one stop » sur le
modèle britannique ou états-unien.

Le Ministère de la Justice a pris de l’avance en lançant le portail « Répertoire des


informations publiques du Ministère de la Justice »15 qui contient, entre autres, des
statistiques par juridiction et des informations cartographiques.16

14
http://www.minefi.gouv.fr/directions_services/apie/index.htm
15
http://www.rip.justice.fr/
16
N.B. : pendant toute la durée de l’étude, les pages comprenant ces statistiques ont été inaccessibles.
Web des données,
données ouvertes 14
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

La secrétaire d'État à la prospective et au développement de l'économie numérique


Nathalie Kosciusko-Morizet, semble vouloir accélérer le pas sur le sujet ainsi que le laisse
entendre l’ouvrage qu’elle a fait paraître fin octobre 200917 : « Mettre à la disposition de
tous, sur des sites Internet dédiés et dans des formats homogènes, l’ensemble des
données publiques (et non personnelles) dont l’État dispose et qui n’étaient auparavant
accessibles que séparément, au prix de démarches individuelles fastidieuses. Des
données économiques, fiscales, démographiques ou statistiques, qui jusqu’ici étaient
collectées par les différentes administrations de l’État sans être accessibles ni surtout
réunies.»

Un changement de cap aux États-Unis

Le président Obama en a fait l’un des axes


forts de sa politique de gouvernance
La bibliothèque du Congrès américain, transparente : toutes les statistiques et
l’une des nombreuses sources données publiques de l’État fédéral des
d’information fédérale, détient plus de États-Unis ont vocation à être mises en
300 terabytes de données ligne, à disposition de tous.

Pour ce faire, Vivek Kundra, « Chief


Information officer » du président Obama,
a lancé le site Data.gov, portail unique
pour trouver, trier, télécharger et manipuler
les données publiques. Libre au secteur
privé d’imaginer des usages et services
innovants à partir de ces gigantesques
bases de
Library of Congress Digital Archive données.
Source: Library of Congress (via Wired)

Le principe technique qui sous-tend cette politique est


que l’information doit être lisible par une machine
(machine-readable) de manière à ce que non seulement
l’information puisse être consultée mais également que
des applications soient construites autour de ces
données (de type mash ups).

Lancé début Juin 2009, le site contient environ un millier de bases de données, qui
peuvent être triées par source ou par thème. Les données sont téléchargeables en
différents formats (Cf. Section 3.2)

… précédés ou rejoints pas d’autres pays.

Le sujet n’est pas récent au Royaume-Uni. En mars 2006, sous le titre « rendez nous les
joyaux de la couronne », deux journalistes du Guardian appelaient à une libération des
données publiques, puisqu’elles sont financées avec les impôts des contribuables et

17
Nathalie Kosciusko-Morizet : Tu viens ? Ed. Gallimard.
Web des données,
données ouvertes 15
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

qu’elles n’ont pas à être revendues… parfois à d’autres entités de service public !18 En
Juin 2009, le gouvernement britannique semble avoir entendu l’appel, et mandate
officiellement Tim Berners-Lee « pour l’aider à ouvrir l’accès ou données du
gouvernement » en créant un site unique, équivalent du data.gov états-unien19. L’OPSI –
Office of Public Sector Information – a été chargé de rentre accessible les PSI (Public
Sector Information). Son site propose notamment une rubrique où les usagers peuvent
demander à ce que des données publiques soient « débloquées »20. Le portail
data.gov.uk21 a été lancé fin janvier 2010 et propose une galerie d’applications.22

Au Danemark, la plate-forme Digitaliser.dk, mise en place par l’Agence nationale des


télécommunications et des technologies de l’information, un espace ouvert aux
contributions externes, permet de lister et de pointer vers les sources de données
ouvertes. Plus généralement, la plate-forme se veut « un nouveau modèle de partenariat
entre la communauté tech et le gouvernement, condition d’un dialogue plus direct entre le
secteur public, les citoyens et les entreprises… ».

La Finlande apparaît comme un pays particulièrement dynamique sur le sujet : le


gouvernement met à disposition ses catalogues de données ouvertes sur son site
http://www.suomi.fi (uniquement dans la version finlandaise). En 2009, un concours
intitulé « Apps for democracy Finland » a été lancé, invitant les développeurs à proposer
les meilleurs mash ups à partir des API et des données ouvertes du gouvernement
disponible sur suomi.fi. Le site du concours invite les concurrents à demander l’ouverture
de nouvelles bases de données qui leur seraient nécessaires pour innover. L’initiative est
portée par un consortium dans lequel figurent SOMUS (Social media for citizens and
public sector collaboration), un projet de recherche de l’Université de Finlande et du
Ministère des finances23.

En Australie, des données agrégées sur la santé des populations sont mises à
disposition.

Les collectivités locales et les services publics s’y mettent aussi

Le mouvement semble gagner en granularité, poussé par les usagers de service public.

La ville de Vancouver a mis en place un catalogue de données ouvertes qui contient 18


bases de données – écoles, bibliothèques, éclairages publiques, maisons de quartier,
résultats des élections municipales… –, malheureusement avec des formats non
standardisés24.

Le district de Columbia à Washington (États-Unis) met à disposition 410 bases de


données provenant de ses différentes agences : permis de construire, données sur la
criminalité juvénile, font partie des téléchargements populaires. Les données sont

18
http://www.guardian.co.uk/technology/2006/mar/09/education.epublic
19
http://www.number10.gov.uk/Page20595
20
http://www.opsi.gov.uk/unlocking-service/OPSIpage.aspx?page=UnlockIndex
21
http://data.gov.uk/home
22
Pour une comparaison du portail britannique et du portail états-unien, cf. :
http://flowingdata.com/2010/02/04/data-gov-uk-versus-data-gov-which-wins/
23
http://www.mindtrek.org/2009/democracy_finland
24
http://data.vancouver.ca/datacatalogue/index.htm
Web des données,
données ouvertes 16
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

notamment accessibles en RSS et XML25. A noter la qualité des métadonnées


accompagnant chaque base de données.

La société de transport public TriMet à Portland a été précurseur dans la mise à


disposition de ses données (horaires, arrivées effectives, détournements, tracés,
programmation d’un déplacement…) via 4 web services. Son site dispose d’une galerie
où sont exposées les applications, gratuites ou payantes, développées à partir de ses
web services.26 Les compagnies de transport de Boston27 et San Francisco28 ont suivi
l’exemple de Portland.

Des associations d’habitants, des entreprises militent pour que les données de transport
de leur ville soient mises à disposition, à l’image de TOPP « The Open Planning Project »,
entreprise sociale qui, entre autres, développe des applications en logiciel libre pour les
collectivités locales, et milite pour un usage du Web au service d’une société plus ouverte
et engagée29. TOPP a lancé un site appelant à l’ouverture des données de transport de
New York.30

En Europe, la ville de Londres a ouvert en janvier 2010 son « datastore »31, contenant
200 « paquets de données » et une galerie d’applications réalisées à partir de ces
données. En France, la ville de Rennes ouvre le chemin et lance son initiative en Février
2010.

Un mouvement lent mais irréversible

Le partage et la diffusion des données publiques semblent aujourd’hui constituer un


mouvement de fond certes lent, mais irréversible, car la prise de conscience des intérêts
multiples qui en découlent n’est plus discutée. En revanche, les données venues des
nouveaux services de l’immatériel et en particulier du web s’engouffrent dans la tendance
des données ouvertes, sur un mode que l’on peut qualifier de désordonné.

2.2.3 …que s’approprie le monde du web…


Comme indiqué précédemment, les entreprises traditionnelles revendiquent depuis
longtemps de pouvoir accéder à l’information publique, quitte à la payer au prix fort.

Mais les entreprises du Web se sont emparées de la problématique des données en ligne
ouvertes avec une vigueur et une approche qui leur est spécifique.

25
http://data.octo.dc.gov/
26
http://trimet.org/apps/index.htm
27
http://www.boston.com/news/local/breaking_news/2009/08/coming_soon_iph.html
28
http://www.bart.gov/schedules/developers/appcenter.aspx
29
http://openplans.org/about/
30
http://nytransitdata.org/index.html
31
http://data.london.gov.uk/datastore/data-packages-launch

Web des données,


données ouvertes 17
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Trois éléments principaux sont venus nourrir leur intérêt pour la question :

 Le traitement d’une information en croissance exponentielle : au fur et à mesure que la


masse d’information mise à disposition en ligne croît, il devient de plus en plus difficile d’y
trouver ce que l’on cherche. Afin que les machines puissent lire, traiter, ordonner, relier,
exposer correctement les informations du web, il leur faut non seulement avoir accès aux
sources, mais aussi disposer d’une compréhension sémantique. Les données ouvertes,
respectant des standards de format, permettent cette utilisation du Web dans toute sa
profondeur. Les tenants de cet argument considèrent qu’il s’agit d’une condition sine qua
non d’un véritable web des connaissances.

 Les entreprises du Web expérimentent depuis plusieurs années ce que nous pourrions
qualifier de « demi-ouverture », dans la mesure où ces bases ne sont pas
téléchargeables : en ouvrant gratuitement certaines de leurs API, ou en proposant un
modèle économique de co-construction de la valeur assorti de partage de revenus, c'est-
à-dire en laissant des tiers construire des services en mobilisant leurs bases de données,
elles ont pu constater à quel point ceci était générateur de nouveaux services et créateur
de valeur dans une logique écosystémique. Amazon qui a été l’entreprise pionnière en la
matière n’a jamais regretté son choix, l’ouverture de son catalogue de biens culturels lui
assurant un retour financier substantiel. Quand aux données cartographiques de Google
maps, mises à disposition gratuitement (jusqu’à 50 000 géocodes par jour), leur succès
n’est plus à démontrer. Les services qui s’appuient sur les Google maps ont explosé, au
point que ces dernières représentent plus de 40% des mash ups réalisés sur le Web
selon programmableweb32 ; agences immobilières, circuits touristiques, services météos,
cartes électorales, bons coins de pêche… les exemples d’usages sont pléthore. Résultat
des courses, les services en ligne francophones utilisent les cartes de Google et non
celles de l’IGN – Institut Géographique National !

 le phénomène de fatigue des utilisateurs : les usagers du Web et en particulier des


medias sociaux s’épuisent à se réinscrire, à recréer leur profil, à uploader à nouveau des
données, chaque fois qu’ils découvrent un nouveau service ou qu’ils décident de changer
de prestataire de service. En libérant les données personnelles de l’utilisateur, on lui
restitue le droit de les transporter avec lui d’un service à un autre, ce qu’on appelle la
portabilité des données. Dans une certaine confusion conceptuelle (f. infra 2.4), certains
considèrent que données ouvertes et données portables participent d’une même
philosophie du Web.

Si les acteurs privés engagés dans des démarches de données ouvertes ou semi-
ouvertes ne sont pas encore très nombreux, le mouvement est réel. Les initiatives se
multiplient dans :

 les medias traditionnels et/où en ligne :

- Le New York Times33 qui fête ses 150 ans, tient à jour depuis 1913 un index
de l’ensemble des articles, sujets et noms cités dans ses colonnes. Le
vénérable quotidien a décidé en 2009 de mettre sa base de données à
disposition de tout un chacun, sous forme de données ouvertes (Linked data).

32
http://www.programmableweb.com/apis
33
http://data.nytimes.com/
Web des données,
données ouvertes 18
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

A fin janvier 2010, il affichait environ 10 000 entrées en format RDF (mais
aussi html), sous licence Creative Commons By, autorisant ainsi toutes les
réutilisations, même commerciales. Le New York Times fournit d’autres APIs
aux développeurs : The Article Search API, The Best Sellers API, The
Campaign Finance API, The Community API, The Congress API, The Movie
Reviews API, The NY State Legislature API, The Real Estate API, The Times
Newswire API, The TimesPeople API, The TimesTags API.

- Le groupe mondial de l’information professionnelle, financière et juridique


Thomson Reuters s’est investi à deux titres dans le monde des « Linked
data »34. Il est à l’origine de l’initiative Open Calais (cf. 3.2.2.1), qui vise à
unifier les métadonnées relatives à tout texte publié sur internet. De plus
l’agence, au titre de contribution de départ à la base pervasive OpenCalais, a
versé des milliers d’informations en format Linked data concernant des
entreprises (descriptions, actionnariat, dirigeants…).

- CNET, le journal en ligne, filiale de CBS Interactive, a rejoint Thomson


Reuters dans Open Calais et publie en format « Linked data »35. Il utilise Open
Calais dans une double perspective : tout d’abord, cela lui permet de relier
automatiquement des pages sur un thème donné à travers ses différentes
publications comme avec les publications d’autres contributeurs d’Open
Calais (ex : dans un article sur Zune, un lien derrière ce mot clé permettra
d’afficher une agrégation d’articles, billets de blogs, vidéos, références… qui
s’y rapportent). Jusqu’alors, ce travail était fait en mode semi manuel avec du
RSS. Par ailleurs, CNET publie en données ouvertes certaines de ses
informations commerciales, contribuant ainsi au nuage « linked data ».

- TechCrunch36, le blog états-unien sur l'actualité du Web 2.0 a lancé sa


CrunchBase, un annuaire des startups
innovantes qui rassemble des
informations sur des entreprises,
personnes et investisseurs du secteur
des technologies. Cette base de données
est accessible via une API gratuite, qui
ne requiert pas d’enregistrement
préalable. Les données sont en contrat
Creative Commons Attribution License
[CC-BY], et sont initialement fournies au
format JSON Une surcouche sémantique
a été développée par Benjamin Nowack : Semantic Crunchbase

 la culture :

- Last.fm (également propriété du groupe CBS), ancêtre des sites de


musique streamée, a ouvert une API qui permet à tout un chacun de construire
sa propre programmation musicale en utilisant sa base de données, à diffuser

34
http://thomsonreuters.com/content/press_room/media/2009_01_14_Calais_40_Release
35
http://www.readwriteweb.com/archives/cnet_partners_with_thomson_reuters_on_linked_data.php
36
http://www.crunchbase.com/

Web des données,


données ouvertes 19
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

sur le web, sur un PC ou un mobile. Là encore l’accès est gratuit. Des services
sémantiques ont été construits en surcouche : http://lastfm.rdfize.com/ permet
de faire des requêtes « avancées » et d’exploiter les bases de données de
last.fm ; http://dbtune.org/last-fm/ fournit une représentaiton RDF des 10
derniers morceaux soumis sur « l’AudioScrobbler » de Last.fm…

- Music Brainz est une base de données musicale communautaire ouverte.


Le système référence des enregistrements d'œuvres, et non des œuvres en
elles-mêmes. On y trouve 5 types de métadonnées : les albums (ou releases),
c'est-à-dire les descriptifs d'enregistrements ; les artistes, interprètes comme
compositeurs ; les labels ; les pistes (titre, durée, numéro d’ordre…) , les
relations entre ces données – entre artistes (ex : membre d’un même groupe),
entre artistes et albums, artistes et pistes etc. Le « contrat social »37 de Music
Brainz spécifie bien que les données brutes sont dans le domaine public et
que les contenus qui ne sont pas des données sont sous licence Creative
Commons. L’ensemble est accessible gratuitement.

- Netflix, le service nord américain de location à domicile de DVD et de


streaming de films et séries a ouvert plusieurs API. Outre son catalogue, il a
livré un gigantesque jeu de données d’attention et de consommation de ses
clients, et a organisé un concours de développeurs, « the one million dollar
contest » qui visait à faire développer par des services tiers des algorithmes de
recommandation qui augmenteraient de plus de 10% la pertinence des
recommandations de contenus vidéos au sein du service Netflix.

- Linked Movie Database se présente comme une base de données


sémantique ouverte, dédiée à l’information cinématographique. La base
contient à la fois des référencements en format RDF et des liens vers d’autres
sources RDF externes dans le nuage sémantique (comme IMDB, Rotten
Tomatoes, ou Freebase – cf. infra), qui se comptent par millions.

Métadonnées sémantiques permettant la recherche


dans la base de données Linked data

 la cartographie

- Open Street Map est un fonds cartographique libre, qui utilise les données
GPS collectées par la communauté de ses contributeurs ainsi que des
données dans le domaine public. Open Street Map a récemment fait la

37
http://musicbrainz.org/doc/SocialContract
Web des données,
données ouvertes 20
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

démonstration de son efficacité à l’occasion du tremblement de terre à Haïti :


dans les jours qui ont suivi l’évènement, les contributeurs ont nourri la carte de
Port-au-Prince, y notant l’emplacement des camps de réfugiés et des
immeubles effondrés. Cette carte a été utilisée par les Nations Unies pour
organiser les secours38.

 la finance

- La bourse de New York - New York stock exchange – fournit un accès libre
à ses données historiques39.

 le commerce en ligne :

- la grande distribution : Tesco, acteur majeur de la grande distribution au


Royaume-Uni, en Irlande et en Asie, a ouvert largement ses API aux
développeurs depuis l’été 2009 : catalogue de produits, informations détaillées
sur les produits (valeur nutritive…), produits favoris des clients… les
développeurs sont invités à proposer toutes sortes d’applications aux clients
de Tesco, y compris des comparateurs de prix, de qualité, des boutiques de
détail40… au point que Tesco donne l’impression de laisser le développeur
s’immiscer entre lui et son client. Le marketeur blogger Patricio Robles le
justifie ainsi : « By offering up a robust API to developer affiliates, Tesco is
almost certainly hoping to encourage far more investment in its affiliate
program. Developer affiliates are given a greater incentive to build attractive
user experiences that can attract loyal users (and in turn 'lifetime'
commissions) and customers get the choice to conduct business with Tesco
through a variety of user experiences that may be more desirable than those
currently offered by Tesco itself. In theory, it's a win-win-win. »41.

- BestBuy, qui représente 20% du marché états-unien de l’électronique


grand public lui a emboité le pas.

- Les informations produites par les consommateurs sur les produits :


ProducWiki est un site d’évaluation et de recommandation de produits, nourri
par la communauté d’internautes, ce qui en garantit la valeur. Les 20000
données de ProductWiki ont été converties au format Linked data durant l’été
2009.

 la qualification du Web : BackType (Voir 4.3)

Ce mouvement s’effectue dans une effervescence désordonnée : qui ouvre quoi et


jusqu’où pour qui ? Le débat est loin d’être tranché chez les acteurs du Web.

38
Voir l’article du site de Libération http://www.ecrans.fr/Haiti-Mobilisation-autour-d-une,8961.html
39
http://www.nyxdata.com/nysedata/default.aspx?tabid=115
40
http://techfortesco.blogspot.com/2009/07/tonight-i-have-written-to-our-150.html
41
http://econsultancy.com/blog/4268-tesco-opens-up-its-db-offers-affiliates-lifetime-commissions

Web des données,


données ouvertes 21
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

2.2.4 …encouragé par les utilisateurs.


Les utilisateurs ne sont pas en reste lorsqu’il s’agit de promouvoir les données ouvertes.

On peut classer leurs interventions en trois catégories :

 La revendication d’un accès aux données publiques (cf. supra 2.2.1 et 2.2.3).

 L’usage, voire le détournement des données publiques lorsque celles-ci sont


mises à disposition.
Ainsi, le site datamasher.org est un outil destiné à croiser (masher) plusieurs sources
de données publiques provenant de bases différentes. Libre à chacun de croiser le
montant des dépenses des États-Unis avec celui du niveau de prélèvement fiscal, ou
le niveau de criminalité avec le niveau de chômage…
Le site français nosdeputes.fr collecte et croise les données éditées sur le site de
l’assemblée nationale et au journal officiel pour effectuer une veille sur l’activité des
parlementaires (présence, prises de parole, questions orales…). Son homologue
britannique theyworkforyou.com permet un suivi parlement par parlement (écossais,
irlandais, anglais ou gallois), député par député, thème par thème.

 La production de données ouvertes.


De plus en plus d’utilisateurs du web sont prêts à mutualiser des données dont ils sont
les « émetteurs » ou à défaut les « collecteurs ».
Le site patientslikeme.com permet à tout un chacun de partager son profil de santé,
nourrissant ainsi des bases de données pour la recherche médicale, mais aussi
d’échanger entre malades. Partant de l’affirmation que « le manque d’ouverture dans
la médecine nous rend malades », la philosophie de la démarche est clairement
affichée sur le site “we need to do is let the data flow and the information become
meaningful. Our collective goal is to ensure that healthcare gets better, quality is
improved, and yes, treatments are developed faster. That is what we stand for and
that is what we are working to do”. Elle est accompagnée d’une “Déclaration des droits
sur les données de santé”.

Declaration of Health Data Rights

In an era when technology is allowing personal health information to be more easily stored, updated,
accessed and exchanged, the following rights should be self-evident and inalienable. We the people:

• Have the right to our own health data


• Have the right to know the source of each health data element
• Have the right to take possession of a complete copy of our individual health data, without delay, at
minimal or no cost; If data exist in computable form, they must be made available in that form
• Have the right to share our health data with others as we see fit

These principles express basic human rights as well as essential elements of health care that are
participatory, appropriate and in the interests of each patient. No law or policy should abridge these
rights.

Source : http://blog.patientslikeme.com/2009/06/22/patients_like_me_declare/

Web des données,


données ouvertes 22
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Les exemples cités précédemment de Music Brainz, Linked Movie database et Open
Street Map illustrent également cette approche UGC – User Generated Content – des
données ouvertes puisque ces trois bases sont également nourries par les utilisateurs, en
mode ouvert.

A côté des données déclaratives, d’autres utilisateurs choisissent de mutualiser leurs


traces. Sur le site Nokia sport tracker42, des coureurs de fonds dotés d’un Nokia équipé
de GPS et d’une application dédiée, partagent leurs parcours et leurs performances
sportives (durée des courses, vitesse, points les plus élevés du parcours…).

Le site saveoursounds.org, porté par BBC World, propose de dresser une carte
sonore du monde, à partir des sons postés par les utilisateurs. Écoutez le croassement de
la grenouille de Tasmania, les cris des vendeurs du marché de Yangon, ou les sirènes
des voitures de police à New York.

Enfin, prenant acte de la profusion croissante de capteurs dans notre environnement,


un site comme Pachube.com propose de mutualiser les données colletées de type
consommation énergétique des immeubles, informations météo, données de transports
ou encore agricoles… construisant ainsi un fonds cartographique exploitable par tous.

2.3 Arrêt sur image : les discours des figures du Web


L’analyse des discours des personnalités du web témoignent essentiellement d’un flou
conceptuel, tant autour des termes utilisés à propos des données du Web dites ouvertes,
que des qualités que l’on accorde à ces dernières.

Cette approximation est symptomatique d’un champ d’innovation dans lequel le rythme de
lancement des services s’accorde mal à celui d’un travail plus théorique.

Côté américain, nous avons analysé essentiellement les discours de :

• Tim Berners-Lee, dont sa fameuse intervention à TED43

• Tim O’Reilly, des éditions O’Reilly et co-inventeur du concept web 2.0 et John Battelle,
journaliste, auteur de La révolution Google, à travers leur texte de référence « Web
Squared: Web 2.0 Five Years On »44

• Vivek Kundra, chief information officer du Gouvernement Obama

• ainsi que des articles des principaux éditorialistes des publications en ligne de
référence comme Wired ou ReadWriteWeb… (Cf. Sources)

42
http://sportstracker.nokia.com/nts/main/index.do

43
http://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html

44
http://www.web2summit.com/web2009/public/schedule/detail/10194

Web des données,


données ouvertes 23
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Côté français, nous nous référons entre autres aux articles de Hubert Guillaud « critiques
du web » et de Frédéric Cavazza « Web Squared, transition vers le web 3.0 ou nouveau
paradigme ? »

Les points principaux qui ressortent de leurs discours :

 Une conviction forte que les données, quoi qu’il arrive, vont s’ouvrir (O’Reilly et
Battelle).

 Une volonté de convaincre que les données doivent s’ouvrir – approche


« évangéliste » (Tim Bernars Lee, Alexander Korth).

 Les données réelles et les données du web sont amenées à se croiser (O’Reilly et
Battelle).

 Les données sont belles (Andrew Vande Moere). La dimension esthétique des
données et de leurs usages sous-tend un mouvement qui croise le monde du
design, de l’art45 et de la publicité (ex : Sprint46).

 Les données constituent une ressource économique forte : « Les entreprises doivent
apprendre à exploiter des données temps réel comme des signaux essentiels qui
alimentent une boucle de rétroaction beaucoup plus efficace pour le développement
de produits, le service à la clientèle, et l’allocation des ressources » (O’Reilly et
Battelle). Les données ouvertes permettent de « fabriquer des applications qui
créent de la valeur et des opportunités économiques » (Vivek Kundra).

 Les données ouvertes sont la base d’une intelligence collective croissante (O’Reilly
et Battelle).

 Les données libérées et reliées sont indispensables à la recherche scientifique, à


l’innovation et doivent permettre de faire face aux grands défis de l’humanité (Tim
Bernars Lee).

 Elles permettent de rendre la gestion du monde meilleure (Tim Bernars Lee).

2.4 Confusions autour du concept : essais de


clarifications
A travers ce survol, on sent pointer différentes confusions ou approximations autour des
données ouvertes que nous tentons ici d’éclaircir :

45
http://infosthetics.com/

46
http://now.sprint.com/widget/

Web des données,


données ouvertes 24
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

2.4.1 Où commencent et où s’arrêtent les données ?


Comme souvent avec les buzz words, ils ont tendance à « avaler » leur environnement, à
jeter dans l’ombre des concepts connexes. Ainsi, la mode est au « web des données »,
qui tend à éclipser le document numérique.

La littérature semble entretenir une confusion entre 4 concepts :

- les métadonnées

- les données

- les contenus

- les documents numériques

Cette confusion découle de plusieurs évolutions du monde numérique :

 Si historiquement les documents numériques désignaient plutôt des documents


écrits, et les contenus faisaient référence au multimédia (images, vidéos, sons),
cette frontière a depuis longtemps disparu, « document numérique » devenant le
terme générique, « contenus » étant utilisé comme synonyme.

 Certains, à l’image de Frédéric Cavazza, considèrent que le Web 1.0 était une
plateforme pour les documents, le Web 2.0 une plateforme pour les individus et le
Web 3.0, une plateforme pour les données. Même si cette structuration nous
semble simpliste, elle est éclairante sur le point qui nous occupe ici.

 Dès le début du Web, les industries culturelles se sont approprié le terme


« contenus numériques », ce qui explique que chez certains auteurs, ces derniers
réfèrent souvent à des contenus payants de type musique en ligne, ou VoD. Mais
d’autres univers lui conservent un sens plus neutre. Un cours universitaire en ligne
ou une information de santé est alors un contenu au même titre qu’une vidéo.

 Les métadonnées sont censées qualifier, donner du sens à un document (ou à un


contenu). Circulant avec ces derniers, elles ont tendance à être de plus en plus
confondues avec eux.

Du point de vue juridique, les catégories ne peuvent être confondues : les contenus ou
documents numériques sont protégés par le droit d’auteur (copyright aux États-Unis),
alors que les données brutes sont protégées par un droit sui generis en Europe et ne sont
pas protégées en droit américain, sauf à leur adjoindre un contrat (cf. infra 3.1).

Le projet politique de Tim Berners Lee porte clairement sur les deux premiers niveaux : il
faut libérer les données publiques brutes « free raw data » et il faut les relier « linked
data », ceci à travers les métadonnées associées ou via la structuration sémantique des
données (RDF). Le qualificatif « raw » (« brut », en français) est absolument essentiel
dans la compréhension de ce courant : il s’agit de données non traitées, non analysées47.
Il faut libérer les données brutes pour que d’autres puissent les exploiter et construire du
sens autour (à travers des services et des documents numériques).

47
Voir la définition proposée par Wikipedia : http://en.wikipedia.org/wiki/Raw_data
Web des données,
données ouvertes 25
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Mais le plus souvent, il n’apparaît pas clairement dans la plupart des textes si l’appel à
l’ouverture porte sur l’une ou/et l’autre de ces catégories. Certains considèrent par
extension qu’une photo (donc un document numérique) postée dans Flickr sous une
licence CC est une donnée ouverte.

Web des données,


données ouvertes 26
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

2.4.2 De quelles données parle-t-on ?


Nous pouvons distinguer trois grandes catégories de données sur le Web en fonction du
producteur de ces données, dont nous proposons les définitions suivantes :

Données brutes produites


par des individus
ex : âge, avatar, genre,
Données brutes produites commentaires
par des entités publiques
ex : statistiques
démographiques,
résultats scientifiques

Données brutes produites


par des entreprises
ex : catalogues, annuaires…

Les données produites par des individus : par défaut, ce sont des données
personnelles et en tant que telles protégées par la réglementation en matière de
protection de la vie privée et des données personnelles. Cependant, certaines données
produites par les utilisateurs appartiennent au service qui les héberge, selon ce qui est
indiqué dans les conditions d’usage.

Les données produites par des entreprises privées (site de e commerce) ou publiques
(IGN et ses données cartographiques) : elles peuvent être vendues (cas général) ou
mises à disposition gratuitement (ex : base de données de livres Amazon via l’API).

Les données produites par des acteurs publics (gouvernements, collectivités locales,
universités, centres de recherche, instituts statistiques, dans certains cas entreprises de
service public…) : leur collecte a été financée sur fonds publics.

Chaque catégorie de données a plus ou moins vocation à être ouverte, à devenir des
données de domaine public ou de bien commun. Par « bien commun », nous désignons
ici des données qui étaient au départ « privées », mais dont les propriétaires (individuels
ou collectifs) ont choisi de les « libérer » ou de les ouvrir afin d’en faciliter la circulation et
la réutilisation. Ce qui suppose un acte volontaire et manifeste de leur part, qui peut se
manifester par exemple à travers le choix d’une licence ad hoc (cf. section 3).

De façon simplifiée, on peut dire que les données produites par des entités publiques ont
par nature davantage vocation à devenir des données de bien public ou de bien commun.
En tout cas, c’est le point de vue que défendent les partisans en faveur des données
ouvertes.

Web des données,


données ouvertes 27
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Données ouvertes

Données brutes produites


par des entités publiques
ex : statistiques
démographiques,
résultats scientifiques

Mouvement open data

Données fermées

Pour les données produites par les individus, la situation est plus contrastée. On constate
un triple mouvement, en tension : d’une part les individus ont tendance à exposer de plus
en plus de données qui les concernent directement et dont ils sont producteurs, brouillant
ainsi les frontières entre l’intime et le public. De fait, les données dites personnelles le
sont de moins en moins dans la représentation des internautes. Simultanément, les
débats sur la protection de la vie privée et des données personnelles s’amplifient, y
compris du côté des institutions, comme la Commission Européenne qui en a fait un enjeu
majeur pour 2010. Enfin comme décrit précédemment, les données UGC volontairement
partagées se multiplient sur le Web. La ligne de partage entre données à protéger (et
donc à fermer) et données à faire circuler est aujourd’hui totalement mouvante.

Données ouvertes

Données placées
en bien commun

Données brutes produites


par des individus
ex : âge, avatar, genre,
commentaires

Données « privatisées »
par les services qui les
Données personnelles hébergent
Données fermées ex : commentaire sur Facebook

Web des données,


données ouvertes 28
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Quand aux données produites par des entreprises, on doit distinguer trois types
d’entreprises :

 Les entreprises à but non lucratif : bien qu’elles constituent un cas marginal à
l’échelle de l’économie, elles doivent être mentionnées puisqu’elles sont au premier
chef productrices de données de bien commun. C’est le cas de Music Brainz,
mentionné précédemment.

 Les entreprises assumant des fonctions de service public (sans nécessairement en


avoir le statut) de type transport, énergie, communications… (« utilities », en
anglais). On peut penser que l’intérêt général justifie que des données qui, en droit,
sont privées (parce qu’elles sont collectées par des entreprises privées et ne
rentrent pas dans le cadre des obligations légales de l’information publique), soient
considérées comme ouvertes. Actuellement, plusieurs mouvements (cf. supra)
plaident en faveur de l’ouverture des données de transports collectifs, que ceux-ci
soient déployés par des entreprises privées ou publiques.

Au Royaume-Uni, ce sont les codes postaux qui font l’objet d’une polémique, à front
renversé : une petite entreprise privée (deux développeurs) intitulée
ernestmarples.com (du nom de l’inventeur des codes postaux) a ouvert une API
permettant à des sites tiers de construire des services autour de ces indications de
localisation, les plaçant ainsi de fait en statut de bien commun. Ce qui fut fait : JoB
Centre Pro Plus propose un service pour rechercher des emplois près de son
domicile, The Straight Choice permet de remplir des documents électoraux en
fonction du quartier etc. C’est la « Royal mail » qui a attaqué ernestmarples.com,
l’obligeant à fermer immédiatement son API, au prétexte qu’elle lui porte un
préjudice financier puisque Royal mail vend le même service, pour la modeste
somme de 4000 £ par an et par licence (4290 €).

A moyen terme, la question va également se poser pour les données collectées par
les machines. Les consommations d’électricité relevées par les compteurs équipés
de capteurs et reliés au réseau sont-elles, une fois agrégées (par quartier, par ville,
par zone de densité supérieure à un seuil…), des données privées ou des données
de bien commun, permettant de verser ces informations dans l’espace public a
minima pour débat, a maxima pour imaginer d’autres services ? La question est
d’autant plus discutable que le marché de l’électricité a été ouvert à la concurrence.

Pour l’heure, la pression monte en faveur de l’ouverture de données dans le


domaine des transports (Cf. 4.2). On retrouve ici la question de la mise en tension
avec la protection des données personnelles : quelles sont les données qui ont
vocation à être ouvertes et celles qui doivent demeurer fermées pour ne pas porter
atteinte à la vie privée ? Exemple : lorsqu’une entreprise en charge du réseau de
bus urbain met à disposition les horaires et retards de ses véhicules, elle ouvre
l’équivalent de son « catalogue ». Si elle décidait d’ouvrir les données de flux
(comme la fréquentation des lignes selon les horaires), elle utiliserait des données
produites par les utilisateurs lors de leur passage au contrôle. Mêmes agrégées et
anonymisées, ces données ne doivent-elles pas rester fermées ? le débat est
ouvert.

 Les entreprises commerciales classiques : comme évoqué plus haut, la logique


historique est de se situer dans le bas du schéma ci-dessous, entre données
fermées et données commercialisées. Cependant, avec l’ouverture des API, de plus
en plus d’entreprises du Web se proposent de placer tout ou partie de leurs bases
de données en bien commun.
Web des données,
données ouvertes 29
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Données ouvertes

Données de bien commun,


mises à disposition gratuitement
via une API ou en téléchargement

Données brutes produites


par des entreprises
ex : catalogues, annuaires… Données
commercialisées
(Licence, API payante)

Données cœur de valeur

Données fermées

Néanmoins, les entreprises du Web ont tendance à monétiser l’exploitation des données
produites par les utilisateurs. C’est évidemment le cas pour la publicité contextuelle et
surtout comportementale, qui recense les comportements en ligne des internautes pour
soumettre à son attention la publicité la mieux profilée possible.
En matière de données, on constate également l’apparition de services qui construisent
leur valeur sur l’agrégation de données produites par les utilisateurs. Ainsi, le service
Backtype (Cf. 4.3) agrège les commentaires des internautes et les fait circuler via une
API. Ou encore le service Tastonomics48 agrège les goûts culturels de ses utilisateurs en
puisant les données ouvertes par Netflix, Blockbuster, Hulu… De facto des données que
l’on pourrait considérer comme personnelles sont mises en circulation. Dans les deux cas,
ce partage est soumis au consentement préalable des utilisateurs, ce qui en principe évite
tout mésusage. Mais pour les raisons évoquées ci-dessus, la perception de l’exposition et
la valeur du consentement évoluent considérablement dans la période actuelle.

48
http://www.tastonomics.com/#guest

Web des données,


données ouvertes 30
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Données ouvertes

Données placées Données de bien commun,


en bien commun mises à disposition gratuitement
via une API ou en téléchargement

Données brutes produites s


par des individus v ice
Données brutes produites
er par des entreprises
ex : âge, avatar, genre, s
commentaires aux ex : catalogues, annuaires…
ve
ou Données
N
commercialisées
(Licence, API payante)

Données personnelles Données cœur de valeur

Données fermées

Au final, à qui appartiennent véritablement les recommandations, les commentaires, les


notations, les réseaux d’amis, les interactions entre utilisateurs ? Si les conditions
générales d’utilisation tranchent souvent en faveur d’une propriété du site qui les héberge,
ceci évoluera certainement sous la pression des utilisateurs.

A l’écoute du discours de Tim Bernars-Lee à la TED conference ou à la lecture de son


article « putting government data online »49 , on constate qu’il parle exclusivement de
données publiques, c'est-à-dire de données produites par des pouvoirs publics (États,
collectivités territoriales, services publics) et non de données produites par les utilisateurs
du Web.

Mais les articles qui reprennent cette intervention ne font pas cette distinction et se
contentent de parler de données en général, alors qu’à l’évidence le régime d’ouverture
comme sa justification ne peut être le même selon que l’on se situe dans l’une ou l’autre
catégorie.

Chez O’Reilly et Battelle, ce glissement est assumé et justifié : « Il y a une compétition


actuellement pour s’emparer du graphe social. Mais nous devons nous demander si ce
service est si essentiel qu’il doive être accessible à tous. » Autrement dit, après l’ère du
Web 2.0, vue « comme une course à l’acquisition et au contrôle de fonds de données », à
l’ère du Web squared de plus en plus de données « ont déjà toutes les caractéristiques de
services essentiels, d’infrastructures du système ».

On retrouve ici la philosophie qui sous-tend les « commons » : point n’est besoin de faire
décréter par une instance de puissance publique le recours à une qualité de service

49
http://www.w3.org/DesignIssues/GovData.html

Web des données,


données ouvertes 31
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

d’intérêt général. Libre à la communauté qui génère cette ressource (ici : la communauté
des acteurs du web social qui co-construisent le graphe social à partir des données des
utilisateurs) de la « communiser », autrement dit de la sortir du champ de la propriété
privée.

Or, le risque qui pointe ici est d’éroder nos libertés, la protection de notre vie privée, au
nom d’un intérêt dont on peut légitimement douter du caractère « général ».

2.4.3 Une tentative de définition pour les données publiques ouvertes


Sensibles au flou qui règne autour de la notion de données ouvertes, une trentaine de
figures du Web des États-Unis se sont réunies dès décembre 2007 à Sébastopol
(Californie) pour définir « les huit principes pour des données gouvernementales
ouvertes ». Parmi ces personnalités, outre Tim O’Reilly et Carl Malamud
(Public.Resource.Org), initiateurs de la réunion, on trouve Lawrence Lessig (Stanford
University), David Moore (Participatory Politics), Aaron Swartz (Open library) ou encore
J.L. Needham (Google).

Un travail équivalent semble nécessaire pour les données qui ne sont pas de source
publique. Certains principes semblent pouvoir être transposables, comme ceux de
l’accessibilité (les données sont rendues disponibles au plus grand nombre pour la plus
grande diversité d’usages possibles), la possibilité de traitement par les machines (les
données sont suffisamment structurées pour permettre un traitement automatisé), la non
discrimination (les données sont disponibles à quiconque, sans nécessité
d’enregistrement préalable).

Web des données,


données ouvertes 32
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Open Government Data Principles

Government data shall be considered open if they are made public in a way that
complies with the principles below:

1. Complete

All public data are made available. Public data are data that are not subject to
valid privacy, security or privilege limitations.

2. Primary

Data are collected at the source, with the finest possible level of granularity, not
in aggregate or modified forms.

3. Timely

Data are made available as quickly as necessary to preserve the value of the
data.

4. Accessible

Data are available to the widest range of users for the widest range of
purposes.

5. Machine processable

Data are reasonably structured to allow automated processing.

6. Non-discriminatory

Data are available to anyone, with no requirement of registration.

7. Non-proprietary

Data are available in a format over which no entity has exclusive control.

8. License-free

Data are not subject to any copyright, patent, trademark or trade secret
regulation. Reasonable privacy, security and privilege restrictions may be
allowed.

Compliance must be reviewable.

2.4.4 Que met-on derrière le terme « open » (ouvert) ?


Parmi les scientifiques à l’origine du terme, « open » se réfère à un courant de pensée
politique et d’action cohérent, dont le logiciel libre, ou logiciel open source est la référence
historique, mouvement qui milite plus largement en faveur de connaissances libres de
circuler (open knowledge).
Web des données,
données ouvertes 33
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

Si parmi les acteurs du web qui se sont emparés de la problématique des données
ouvertes, certains sont parfaitement conscients de cette consanguinité entre open data et
open source et en assurent même sa promotion (ex : O’Reilly ou Tim Berners-Lee),
d’autres manipulent le terme « open » sans en mesurer la portée.

On sait que dans le monde du mobile, « Open OS » ne se réfère pas à un OS en logiciel


libre, sous Linux par exemple, mais au fait que l’opérateur peut lui-même installer des
applications sans dépendre de l’équipementier. Autrement dit, l’OS est ouvert pour
l’opérateur mais fermé aux fournisseurs de service (cf. les récentes controverses autour
de la prise de position de la FCC en faveur d’une neutralité du net étendue au monde du
mobile).

On constate des glissements sémantiques équivalents lorsque l’on parle d’innovation


ouverte. Alors que l’innovation ouverte au sens fort du terme implique un partage de la
valeur incarnée par les droits de propriété intellectuelle, le terme open innovation est
utilisé de plus en plus souvent sur un mode galvaudé pour désigner toute forme
d’innovation qui n’est pas purement « in house » et qui associe des tiers (start ups avec
opération de capital risque par exemple).

Pour en revenir aux données dites ouvertes, le degré d’ouverture peut se mesurer à
l’aune de différents indicateurs :

 Degré et mode d’exposition. Ex : les informations du journal officiel ont toujours été
publiques, mais l’exposition n’est pas la même selon qu’on y accède via l’édition
papier ou via un site en ligne.

 Gratuité ou non de la mise à disposition.

 Capacité de réutilisation par un tiers. Il est essentiel de distinguer ici les données
réutilisables à travers une API ou un fil RSS de celles qui sont exportables hors de
la source (en Dump ou téléchargement). Dans le premier cas, les données restent
stockées dans le service d’origine et sont simplement exposées chez un tiers ;
dans le second, elles peuvent être stockées, manipulées, transformées et remises
en circulation par le tiers.

 Propriété intellectuelle des données/de la base de données (cf. section 3.1).

 Format des données. Les données peuvent être mises à disposition dans quantité
de formats plus ou moins propriétaires, plus ou moins standardisés, et plus ou
moins sémantiques. Ceci va conditionner non seulement leur capacité à circuler,
mais aussi la possibilité de les articuler entre elle, de les relier, de les croiser, et ce
faisant de les exploiter dans toute la profondeur possible des ontologies (cf. section
3.2).

 Unicité et/ou réplicabilité possible des données : les données mises à disposition
existent-elles par ailleurs et est-il possible de recréer ce jeu de données. Ce critère
semble important car l’accès possible d’un développeur à des données
équivalentes peut pousser un acteur à effectivement ouvrir ses données (cf.
section 4.2 et les données de transports).

2.4.5 Données du monde réel et données du web


Les acteurs du Web agglomèrent souvent dans leur discours les données qui sont nées
dans le monde réel (ex : le nombre de voitures qui passent dans une rue chaque jour ou
le nombre d’immigrés reconduits à la frontière) et les données qui sont produites dans le
Web des données,
données ouvertes 34
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

web directement (ex : les visites d’une page, les commentaires, les identités virtuelles
etc.).

La différence n’est pas neutre, ne serait-ce qu’en termes de coût de recueil de


l’information, de sa numérisation et de sa mise à disposition.

Elle est également essentielle en termes de propriété intellectuelle et de vie privée : la


donnée fournie par un capteur sur un poteau électrique ou la donnée fournie par un
utilisateur au cours de sa navigation n’auront évidemment pas les mêmes statuts.

Au contraire, Tim O’Reilly et John Battelle font de cette distinction la pierre angulaire de
leur Web Square. C’est bien parce qu’il y a désormais possibilité de croisement cumulatif
entre ces deux catégories de données que le web entre dans une nouvelle étape
structurante de son développement.

Monde réel Monde du web

Data produites par monde


Data produites par le web
réel

Fermées Fermées Debut du web

Fermées Ouvertes Fermées Ouverture du web

Fermées Ouvertes Ouvertes Fermées “Open data”

Fermées Services sur données


ouvertes
Fermées Web square

Web des données,


données ouvertes 35
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

2.4.6 Concepts connexes


Plusieurs termes connexes à celui d’open data circulent dans la littérature que nous
essayons de clarifier ici :

 Linked data

Il s’agit de groupes de données (data set) connectés entre eux. Chaque donnée enrichit
les autres et multiplie la valeur du tout. C’est certainement le concept le plus clair et le
plus structuré.

Il est porté par Tim Bernars Lee, fondateur du Web et directeur du W3C.

Ce concept n’est pas substitutif, mais complémentaire à celui d’open data : les données
sont considérées non pas tant du point de vue des stocks mais de celui des flux, en
considérant que la valeur d’usage se situe dans les liens que l’on établit entre les
données, dans la capacité à les relier. Il s’intéresse plus aux métadonnées qu’aux
données en général.

 Implied metadata

Ce terme, cité brièvement par O’Reilly et Battelle dans leur article, a été repris par Dion
Hinchcliffe50, puis explicité par Fred Cavazza51, dans leur analyse respective du Web
Square. Selon ce dernier, il s’agit de métadonnées générées automatiquement, sans que
les utilisateurs aient eu à les saisir, ce qui explique qu’elles soient « implicites », à l’image
des coordonnées GPS ajoutées par un appareil photo, ou du travail que propose la
plateforme Open Calais (cf. section 3.2.2.1).

 Data empowerment

Littéralement, des données « ayant repris le pouvoir sur elles-mêmes ».


Ce terme a été mis en avant par Peter Swire, un professeur de droit membre de l’équipe
de transition d’Obama et cité par le New York Times52, alors qu’il pointait les
contradictions entre le mouvement en faveur de la protection de la vie privée et celui du
Web 2.0, dans lequel les données sont « empowered ». Le premier a toujours prôné une
« minimisation des données » (moins on conserve d’information sur les individus, moins
celle-ci risque d’être exploitée par les gouvernements ou les entreprises). Dans le Web
2.0, les individus rassemblent et contrôlent des informations sur eux-mêmes à travers les
réseaux sociaux en ligne et autres medias sociaux. L’accès aux données peut créer des
mouvements politiques et sociaux, comme les volontaires qui se sont auto organisés
pendant la campagne Obama.

50

http://web2.socialcomputingjournal.com/the_evolving_web_in_2009_web_squared_emerges_as_web_20_mai
.htm
51
http://www.fredcavazza.net/2009/07/24/web-squared-transition-vers-le-web-30-ou-nouveau-paradigme/
52
http://bits.blogs.nytimes.com/2009/06/02/the-obama-adminstrations-silence-on-privacy/
Web des données,
données ouvertes 36
© Sofrecom pour FT R&D - Janvier 2010 - v-
Paysage des données ouvertes : historique et clarification du concept

 Actionable data

Littéralement, les données susceptibles d’être « actionnées », mobilisées, sollicitées.

C’est le terme mis en avant par Ken Fromm dans un article du Read Write web53 pour
désigner les données exposées et rendues accessibles, qu’il considère comme une
dimension fondamentale de ce qu’il intitule le « real-time web ». Il propose les
« actionable data » comme alternative aux « linked data », terme trop complexe selon lui
et attaché à une approche spécifique (RDF / W3C).

 Portable data

Les données portables désignent des données personnelles auxquelles on a donné les
moyens juridiques et techniques d’être transportées par leur propriétaire, d’un service web
à un autre. Ce sujet reste très controversé comme l’a montré récemment Google en
empêchant les utilisateurs de son réseau social Orkut d’utiliser la fonction d’export de
leurs données pour les empêcher de migrer vers Facebook en Inde54.

53
http://www.readwriteweb.com/archives/the_real-time_web_a_primer_part_3.php

54
http://www.techcrunch.com/2009/10/01/google-has-a-plan-to-stop-the-mass-exodus-from-orkut-no-friend-
exports-for-you/

Web des données,


données ouvertes 37
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

3 Vers une structuration de l’écosystème des


données ouvertes

Dans ce monde en émergence et effervescence, quelques initiatives voient le jour, qui


cherchent à lever les obstacles techniques et juridiques à la circulation des données.

Derrière ces initiatives commence à se dessiner un écosystème mouvant des données


ouvertes.

3.1 Lever les obstacles juridiques : l’émergence de


licences ouvertes pour les données

 Rappel sur le droit des bases de données en Europe et aux États-Unis

Une base de données est composée de 3 objets : le programme qui permet le


fonctionnement ainsi que l’utilisation de la base, et qui est soumis au droit d’auteur ; la
structure de la base ; et enfin les éléments de contenu de la base. Sur ces deux derniers
points, qui sont ceux qui nous intéressent pour l’heure, les réglementations diffèrent
considérablement entre les deux continents.

o En droit européen :

- La structure, c'est-à-dire l’architecture, le contenant, peut être protégée par le droit


d’auteur, sous réserve qu’il s’agisse d’un arrangement particulier, que le choix ou la
disposition du contenu de la base constitue une création intellectuelle. Il existe
quelques exceptions à cette protection pour des usages d’enseignements, de
recherche scientifique ou de sécurité publique.

- Les données, c'est-à-dire les contenus, peuvent avoir deux statuts : s’il s’agit
d’œuvres (photos, musiques…), elles sont protégées par le droit d’auteur ; s’il s’agit
d’informations brutes ou dénuées d’originalité, elles sont libres de parcours du point
de vue du droit d’auteur. En revanche, elles peuvent être à certaines conditions
couvertes par un droit sui generis, le droit spécial des bases de données ; il s’agit de
protéger les fabricants de base de données contre l’appropriation des résultats
obtenus et l’investissement financier consenti par celui qui a recherché et rassemblé
le contenu. Encore faut-il que ces derniers puissent apporter la preuve d’un
investissement substantiel. Dans l’hypothèse positive, le producteur de la base peut
s’opposer à l’extraction et à la réutilisation partielle ou totale de celle-ci, et ce
pendant une durée de 15 ans.

o En droit des États-Unis :

- La base de données, en tant que compilation, constitue une œuvre réalisée à


partir de la collecte et l’assemblage de matières préexistantes. Sous réserve que cet
assemblage constitue une œuvre originale du point de vue de l’arrangement des
données, elle est protégée par le droit d’auteur. Le travail industrieux (« the sweat of
the brow ») a pendant un temps justifié la protection, mais après un retournement de
jurisprudence, il ne suffit plus à justifier de l’originalité, au nom du fait que « l’objectif
Web des données,
données ouvertes 38
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

premier du copyright n’est pas de rémunérer le travail des auteurs, mais de


promouvoir le progrès de la science et des arts utiles » (Arrêt Feist).

- Les contenus eux ne sont pas protégeables.

- Il existe d’autres dispositifs subsidiaires de protection des bases de données,


notamment le contrat (le producteur associe une licence à l’usage de sa base de
données).

Au final, si les deux régimes s’accordent sur la protection de la structure par le droit
d’auteur, ils divergent quant à la protection des contenus de types « données brutes ».
Les producteurs bénéficient en Europe du droit sui generis, alors qu’aux États-Unis ils font
appel au droit contractuel.

 Les deux principales difficultés juridiques auxquelles les promoteurs de


données ouvertes doivent faire face :

o Vérifier que les données ne soient pas protégées

Que ce soit au regard du droit européen sui generis, ou d’une licence liée au droit des
contrats des Etats-Unis, la vérification que les données ne sont soumises à aucune forme
de protection au regard de la propriété intellectuelle est extrêmement difficile, en
particulier pour des non juristes.

o Trouver un régime de protection intermédiaire

Ce problème est spécifique aux États-Unis, en raison de l’absence de droit sui generis. Le
domaine public, s’il semble adapté aux données d’origine publique, n’est pas forcément
satisfaisant pour des données d’origine privée, pour lesquelles les créateurs veulent
pouvoir conserver leur paternité ou d’autres dimensions du copyright. En effet, le domaine
public à la fois « libère », au sens où il autorise une circulation totale des créations de
l’esprit (œuvres, données…) qui y sont placées, mais dépouille simultanément les auteurs
de tout droit de regard sur celles-ci. Par exemple, une entreprise qui met en circulation
des données ouvertes, peut voir son concurrent les utiliser sans pour autant remettre à
disposition le travail qui en a été dérivé sous un régime équivalent.

Depuis plusieurs années ont émergé du monde du numérique des régimes contractuels
autoproduits par les communautés d’intérêt, qui permettent de placer les œuvres dans un
espace intermédiaire, à la fois conforme au droit d’auteur, mais répondant à des besoins
de circulation conditionnelle des œuvres (par exemple : utilisation uniquement pour des
usages non marchands) : chaque auteur accepte volontairement de se placer sous un
régime moins protecteur que le droit d’auteur mais plus protecteur que le domaine public.
La licence la plus connue est le contrat Creative Commons. Mais ces licences ne
répondent pas à la spécificité des données qui, n’étant pas des œuvres originales, ne
sont pas couvertes par le droit d’auteur.

Aussi récemment, plusieurs types d’initiatives ont vu le jour et tentent de répondre à l’une
ou/et l’autre des difficultés soulevées :

Web des données,


données ouvertes 39
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

 Science Commons Database Protocol55

Ce protocole, qui répond à la première difficulté, a été élaboré pour permettre


l’interopérabilité des bases de données scientifiques. Constatant que les chercheurs sont
amenés en permanence à croiser des bases de données et qu’ils se heurtent à la
multiplicité des licences sous lesquelles ces bases sont placées, le protocole vise à leur
simplifier la vie. Il ne se substitue pas aux licences mais intervient comme un dispositif qui
permet de lever les obstacles à la circulation des données.

Avant de pouvoir se revendiquer du Protocole (application du logo, implémentation des


métadonnées…), il faut être certain que toutes les restrictions sur les bases de données
(droit d’auteur, brevets…) sont entièrement levées, et que le fournisseur des données ne
les réclamera pas ultérieurement. C’est ce que les promoteurs du protocole appellent
« reconstruire le domaine public ».

Les auteurs du protocole insistent longuement sur le fait qu’il s’agit d’un protocole de
domaine public, et non d’une licence de type Creative Commons By SA (paternité,
reproduction à l’identique), le justifiant à la fois par un souci de simplicité et par
l’impossibilité de vérifier que des données soient réutilisées en respectant de telles
contraintes. Autrement dit, ce qui est possible avec des contenus de type photos, vidéos,
ou documents écrits, n’est pas pratiquement envisageable avec des données.

Ce protocole est mis en place par Sciences Commons, une des quatre grandes initiatives
portées par Creative Commons et lancée en 2005. L’objectif de Sciences Commons est
de constituer un vecteur d’ouverture et de partage dans le monde scientifique. Cette
initiative porte de nombreux projets (Scholars Copyright Program, Biological Materials
Transfer Project, Neurocommons, HealthCommons). Sciences Commons est dirigé par le
bureau de Creative commons qui comprend Hal Abelson (professeur de sciences de
l’information au MIT), James Boyle, Lawrence Lessig, Michael Carroll (juristes experts en
propriété intellectuelle), Eric Saltzman (documentariste), John Wilbanks (Entrepreneur de
bioinformatique et expert en métadonnées).

 ODbL : Open Database Licence56

Cette licence est le fruit de l’initiative de deux personnes, Jodran Hatcher et Charlotte
Waelde, soutenus par l’entreprise Talis (cf. Section 4.1). Le projet est aujourd’hui porté
par la Open Knowledge Foundation57, qui gère la licence au quotidien, sous la
surveillance d’un Comité Consultatif. Organisme à but non lucratif créé en 2004, la
Fondation cherche à « promouvoir les savoirs ouverts (open knowledge) et toute sorte
d’information - des sonnets aux statistiques, des gênes aux données géographiques – qui
peuvent être librement utilisées, réutilisées et redistribuées ». La Licence ODbL a été
publiée le 29 Juin 2009.

55
http://sciencecommons.org/projects/publishing/open-access-data-protocol/

56
http://www.opendatacommons.org/licenses/odbl/

57
http://www.okfn.org/

Web des données,


données ouvertes 40
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

Cette licence vient répondre à la seconde difficulté évoquée. A notre connaissance,


aucune base de données n’a adopté aujourd’hui l’ODbL, mais Open Street Map travaille
activement à passer de la CC à l’ODbL. Ce passage devrait être achevé pour la fin de
l’année58.

 PDDL : Public Domain Dedication and Licence59.

Également portée par Open Knowledge Foundation, cette initiative place les œuvres dans
le domaine public. Elle répond à la première des deux difficultés.

 CC0 : Creative communs zero60

Il s’agit d’une option Creative Commons (et non d’une licence), qui permet là aussi
d’abandonner l’ensemble de ses droits d’auteurs sur des œuvres ou des données. Une
fois la licence appliquée, l’œuvre n’appartient plus en rien à l’auteur et n’importe qui peut
l’utiliser pour n’importe quel usage. Il s’agit d’une option « aucun droit réservé ». Là
encore, l’œuvre tombe dans le domaine public.

 Relations entre les différentes initiatives

L’Open Knowledge Foundation considère que la PDDL est l’équivalent de la CC0 et que
l’une et l’autre sont compatibles avec la Science Commons Database Protocol61.

Cette affirmation semble unilatérale :

 le Science Commons Database Protocol considère qu’il n’est compatible avec


aucune licence, y compris la CC0 pourtant née au même berceau. C’est la notion
même de licence appliquée à une base de données qui est réfutée.

 Le site de la CC0 répond clairement NON à la question « CC0 et PPDL sont-ils la


même chose ? ». Et le justifie ainsi : la PDDL poursuit deux objectifs : permettre à
des auteurs de placer leur œuvre dans le domaine public et permettre à des
personnes de certifier qu’une œuvre est bien dans le domaine public. Cette dualité
d’objectif est source de confusion selon CC0. A l’inverse CC0 poursuit uniquement
le premier objectif et surtout se prétend juridiquement plus robuste, de portée
universelle alors que la PPDL n’est valable qu’au regard du droit des États-Unis.

Le chapitre français de Creative Commons ne prévoit pas de transposer la CC0, jugeant


qu’elle est inutile au regard du droit français.

58
http://wiki.openstreetmap.org/wiki/Open_Data_License/Implementation_Plan

59
http://www.opendatacommons.org/licenses/pddl/

60
http://wiki.creativecommons.org/CC0

61
http://www.opendatacommons.org/faq/

Web des données,


données ouvertes 41
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

3.2 Lever les obstacles techniques : un début de


structuration des formats et des initiatives de
standardisation des ontologies
L’ouverture d’une multitude de bases de données jusqu’alors fermées permet à chacun
de développer de nouvelles applications, construites autour de ces données. Néanmoins,
les développeurs construisant de nouveaux services en agrégeant ou croisant différentes
bases de données sont souvent confrontés à la diversité des formats. Jongler entre
différents formats de données et de protocoles devient vite un casse-tête : fichiers Excel,
APIs, requêtes SparQL. Les données sont pourtant parfois de même nature.

C’est face à ce besoin d’homogénéisation que des initiatives se mettent en place, avec
pour objectif de fédérer un ensemble de données relatives à un même sujet, ou d’une
même nature, voire à imposer un standard universel. Leur travail consiste à définir et à
faire accepter un format unique dans lequel toutes les données seront rendues
accessibles.

Nombreuses sont les initiatives qui se proclament fédératrices de données sur internet.
Linked Data s’affiche comme la solution face aux limites du web actuel. Freebase déclare
construire la plus grande base de connaissance sémantique. Le gouvernement des États-
Unis ouvre ses données à travers un portail unique : data.gov. Pour comprendre ce que
sont ces initiatives et où elles se positionnent, il est important de distinguer trois grands
types d’acteurs, en fonction de leur rôle quant aux données qu’ils mettent à disposition :

• Les producteurs de formats

• Les producteurs de sens et d’association

• Les producteurs de catalogues

Les premiers, producteurs de formats, sont indispensables car indépendants de toute


donnée manipulée. Ils produisent des formats qui sont ensuite réutilisés
systématiquement par les acteurs produisant ou enrichissant des données.

Les seconds sont les seuls à intervenir véritablement sur les données. Récupérant les
données de différentes sources, en les enrichissant de liens sémantiques, ils produisent
véritablement ce que Tim Berners Lee et d’autres défendent comme l’avenir du web des
data, à savoir un réseau décentralisé et entremêlé de description des choses, et de
l’ensemble des données associées.

Les derniers, simples références de données mises en ligne, sont souvent très
intéressants dans la masse de données qu’ils rendent accessible, mais ne manipulent pas
les données, et ce faisant ne les enrichissent pas. Leur valeur réside donc dans le volume
de contenu accessible à partir d’un seul endroit, ainsi que dans la qualité de l’indexation
des bases de données ouvertes. Dans la mesure où les standards d’ouverture donneront
probablement aux données des outils de navigation de plus en plus évolués, on peut
s’interroger sur la pérennité de ce type d’acteurs. Il est probable que les catalogues de
données disparaissent peu à peu, au profit de moteurs de recherche du web, dans la
même dynamique que ce qu’a connu le web à ses débuts (faisant disparaître les
catalogues de sites web au profit de l’indexation systématique de toutes les pages
HTML).

Web des données,


données ouvertes 42
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

3.2.1 Formats de données


Le concept d’Open Data implique de repenser la manière de présenter les données sur
internet. Cela se fait à travers l’émergence de nouveaux formats de données, mais aussi
le retour de certains formats jusqu’alors peu utilisés.

Parmi les formats de données présentés ci-dessous, il est important de distinguer deux
catégories. Une première catégorie est composée des formats de représentation des
données, c'est-à-dire les standards utilisés par les différentes machines connectées sur le
web des data pour communiquer entre elles. Ces standards sont indispensables dans la
mesure où les machines souhaitant communiquer doivent s’accorder sur un langage
commun.

La seconde catégorie, relative au stockage des données, peut sembler moins importante,
dans la mesure où chaque serveur peut organiser le stockage de ses données comme il
le souhaite. C’est pourtant dans cette catégorie qu’émergent actuellement des initiatives
jeunes mais prometteuses, devant la nécessité de stocker un grand nombre de données
de façon structurée, sans que la structure ne soit figée. Des communautés de
développeurs s’organisent pour permettre à de nouveaux standards de s’imposer peu à
peu, face au manque de souplesse des bases de données relationnelles.

3.2.1.1 La représentation des données


 RDF

Le langage HTML est aujourd’hui omniprésent sur le web. Il a pour but de décrire très
simplement la mise en page de documents à destination de lecteurs humains. Cette
description de mise en page a comme principale caractéristique de n’être constituée que
de texte, ce qui rend possible son exploration par des machines (et permet donc aux
robots comme ceux de Google d’explorer le web très facilement). A l’opposé, par
exemple, le langage de programmation Flash permet aussi de décrire des interfaces,
mais sa compilation rend son exploration très complexe pour des robots, raison pour
laquelle les sites en flash ne sont que pauvrement indexés par les moteurs.

Le standard HTML a ensuite évolué et a été séparé de la mise en forme pure (confiée aux
CSS, Cascading Style Sheets), pour tendre vers une description plus aboutie de la
structure des documents, par des blocs, des titres, des paragraphes déclarés de façon
plus précise. Néanmoins, le langage n’intègre aucune description de la nature des blocs,
ce qui a poussé la montée en puissance du langage RDF.

RDF (Resource Description Framework) est un standard du W3C offrant la possibilité de


modéliser tout type d’information et de donnée. Chaque « documents » RDF est identifié
par une URI stable permettant d’y accéder via le protocole HTTP. Ainsi, des robots
peuvent aisément explorer un document RDF, puis explorer les données de façon très
précise, puisque le document contient non seulement les données, mais la description de
ce qu’elles sont. Par exemple, un document RDF présentant une ville associera les
données de population à des métadonnées sémantiques, afin d’indiquer que les données
présentées sont effectivement la population, et par exemple d’en donner la source, la
date, etc.

RDF est souvent associé au langage SparQL, qui permet de construire des requêtes
structurées dans des données formatées en RDF.

Web des données,


données ouvertes 43
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

 Linked Data

Linked Data bénéficie d’une forte visibilité sur internet depuis plusieurs mois, en partie
grâce aux interventions répétées de Tim Berners Lee, bénéficiant grâce à son statut de
« créateur du web » d’une forte crédibilité lorsqu’il évoque le futur du web.

Le concept de Linked Data est en réalité assez simple pour qui connaît les principes de
RDF. En effet, le principe de Linked Data pourrait se résumer à utiliser RDF
systématiquement, et pour tout type d’information.

Là où RDF propose de modéliser chaque document par une URI, Linked Data étend le
principe à chaque « objet ». Le principe devient très intéressant, dans la mesure où
chaque métadonnée devient par elle-même une URI.

Si on reprend l’exemple de la ville et de la population, une description en RDF nous dirait


que le champ population de la ville http://serveur/villes/paris est égal à 2 181 371.

En Linked data, nous obtiendrions une description légèrement différente. La métadonnée


population serait aussi représentée par une URI : http://serveur/proprietes/population, et
sa valeur serait aussi représentée par une URI : http://serveur/villes/paris/population

Ainsi, la valeur http://serveur/proprietes/population de http://serveur/villes/paris serait


égale à http://serveur/villes/paris/population. Cette dernière page pourrait alors contenir
les données de population de Paris par année, par exemple.

Dans l’idéal de Linked Data, chaque propriété doit être représentée par une URI stable, et
unique. On comprend alors l’enjeu qu’il y a autour de ces standards. Par exemple, quelle
URI représentera le titre d’un film ? Imaginons qu’IMDB et Allocine proposent des
ontologies différentes, chacune proposant une URI pour la propriété titre.
http://imdb.com/properties/title ? http://allocine.com/champs/title ? Imaginons maintenant
que sur mon site, je souhaite publier des critiques de films en Linked Data, et donc
mentionner les films en question ainsi qu’éventuellement leur titre. Utiliserai-je l’ontologie
d’IMDB ou celle d’Allocine ? Ou peut-être un acteur tiers universel comme Freebase ?

Il est évident que cette dynamique Linked Data représente un mouvement important dans
la dynamique du web, et génère avec elle des jeux stratégiques forts pour les sociétés qui
en comprennent les enjeux. Cependant, il ne se dessine actuellement aucun modèle
économique autour de la structuration de la connaissance humaine.

3.2.1.2 Le stockage des documents sémantiques


 Le mouvement NOSQL

Le mouvement NOSQL (Not Only SQL) défend depuis 2009 une nouvelle approche du
stockage des documents et des données, en proposant notamment de s'extraire de la
structuration formelle qu'imposent les outils actuels (représentés principalement par le
langage SQL, utilisé par la plupart des bases de données, de MySQL à Oracle).

La pauvreté de la structuration des documents actuellement disponibles sur le web est en


partie liée à la rigidité des bases de données relationnelles utilisées pour les stocker. En
effet, les bases de données relationnelles (majoritairement utilisées sur le web) rendent
très difficile l’évolution de la structure d’une table de données lorsqu’un site est déjà en
Web des données,
données ouvertes 44
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

production. Dans la mesure où il est rarement possible de prévoir à l’avance l’ensemble


des champs potentiellement utilisés, la structuration sémantique des documents est
souvent limitée à de simples tags, pour optimiser les performances et éviter les
contraintes lors des évolutions du service.

L'une des initiatives les plus visibles liées au mouvement NOSQL est CouchDB
(http://couchdb.apache.org/), porté par la fondation Apache1, pour permettre de stocker
des bases de données comportant un grand nombre de champs et nécessitant une
grande souplesse dans les ajouts et suppressions de champs.

Encore récente, l’application est peu utilisée pour le moment, mais répond à un besoin
croissant, étant donné le nombre de services fondés sur des documents structurés,
évolutifs, distribués, etc. CouchDB permet en outre de stocker de façon souple des bases
de données pouvant être très facilement restituées en RDF.

Relaxed, société dont l’activité est étroitement liée à CouchDB, a levé fin 2009 la somme
de 2 millions de dollars, ce qui donne à la technologie CouchDB une longueur d’avance
sur les autres initiatives de bases de données non-relationnelles. Cette levée de fonds
stimulera très certainement une adoption croissante par les entreprises, à travers une
meilleure prise en compte des besoins professionnels, ainsi qu’un support technique
capable de répondre aux attentes des développeurs en entreprise.

 D2R Server

D2R est un outil permettant de mettre à disposition sur internet en RDF/Linked Data des
données stockées dans une base de données relationnelle. Par la mise en place d’un
mapping des champs de la base, le serveur D2R génère les « rendus » utiles pour la
navigation dans les données : accès HTML pour les humains, RDF et SparQL pour les
robots.

Le serveur D2R est actuellement utilisé par Linked Movie Database.

3.2.2 Producteurs de sémantique et d’association

3.2.2.1 Open Calais


 Objectif

Les articles publiés sur internet sont le plus souvent des textes bruts peu structurés. Leur
structuration permet de distinguer le titre du corps, la date de création du message, etc.
mais n’intègre que rarement des éléments sémantiques relatifs au contenu du texte. Dans
le meilleur des cas, chaque site possède une liste de tags uniques qui sont utilisés pour
qualifier chacun des articles.

Open Calais n’a pas pour objectif de fédérer un type de données particulier, mais d’unifier
les métadonnées relatives à tout texte publié sur internet. Pour cela, Calais repose sur
deux éléments principaux : une liste de « tags » (représentant des entités, des
événements et des faits), ainsi qu’un moteur sémantique capable d’analyser le corps de
n’importe quel texte, et d’y associer automatiquement les tags appropriés.

Web des données,


données ouvertes 45
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

Le résultat de cette opération est un index unique pour chaque entité, chaque fait et
chaque événement, ce qui permet par exemple à tous les articles traitant du 11
septembre d’être reliés entre eux, ce qui n’est actuellement pas le cas sur internet. Aucun
lien sémantique n’existe entre deux articles publiés l’un dans le Monde, et l’autre dans
Libération. Open Calais propose donc de s’intégrer dans tous les sites de publication afin
de tisser un réseau sémantique universel. Pour faciliter cette démarche, Open Calais
offre, en plus de ses APIs dans différents langages, des « plugins » déjà développés pour
les moteurs de publications les plus utilisés. Ces plugins permettent par exemple
d’intégrer Open Calais dans un blog Wordpress en installant simplement le plugin, évitant
ainsi au développeur tout le travail d’intégration entre Wordpress et l’API Open Calais.

Briques logicielles pour l’intégration de Calais

 Sponsors

Calais est un projet du groupe Thomson Reuters, qui parmi les principaux fournisseurs
d’informations et de données, considère le web sémantique comme fondamental dans la
stratégie du groupe.

Web des données,


données ouvertes 46
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

 Modèle économique

Avec 6 000 développeurs enregistrés, Open Calais génère en moyenne un million de


requêtes par jour (en décembre 2008). Le modèle économique de Calais repose sur une
version « pro » du service, commercialisée 2 000 $ /par mois, permettant de doubler le
nombre de requêtes autorisées vers Calais (100 000 par jour contre 50 000 par jour pour
la version gratuite), et donnant accès à un SLA62 quant à la disponibilité du service.

3.2.2.2 DBPedia
 Objectif

DBPedia se positionne comme un enrichissement de Wikipedia, en prenant soin d’éviter


certaines lacunes inhérentes au format wiki. En effet, la structuration des wiki donne des
informations de mise en page, mais aucune information concernant la nature des
données intégrées aux pages du wiki.

Le projet de DBPedia consiste donc à extraire les données de Wikipedia, en les


structurant à l’aide de balises RDF. L’extraction est automatique, à l’aide d’un logiciel
opensource qui permet de définir des motifs dans les pages html de Wikipedia afin
d’identifier des données particulières. Ces données sont automatiquement qualifiées,
puisque chaque motif est associé à un prédicat.

Il en résulte un contenu identique à celui de Wikipedia, mais dans un format RDF


permettant l’exploitation massive des données via des requêtes SparQL par exemple.

 Sponsors

DBPedia est développé par deux universités allemandes (Freie Universität Berlin et
Universität Leipzig), ainsi que par la société de développement OpenLink, spécialisée
dans les bases de données.

3.2.2.3 Freebase

Indépendant de Wikipedia, Freebase est un projet de structuration de la connaissance


humaine, initié par la société Metaweb.

Tout comme Wikipedia consiste en une liste de pages, Freebase est constitué d’une liste
de topics. Mais Freebase va bien plus loin que Wikipedia dans la structuration. En effet,
chaque « topic » (équivalent à une page d’un wiki, donc), est typé, c'est-à-dire associé à
des types de données. Une ville est un type de données, une personne est un type de
données. De même, musicien et peintre sont des types de données. Ainsi, le « topic » Pat
Metheny est une personne, ainsi qu’un musicien, un guitariste, etc. Chacun de ces types
sera caractérisé par des propriétés. Les champs associés à chaque type sont communs à
tous les topics du même type (seules leurs valeurs changent). Par exemple, le type
« personne » contiendra systématiquement les champs « nom », « prénom », « date de
naissance », etc.

62
SLA : Service Level Agreement au travers duquel Open Calais s’engage quant au niveau de disponibilité de
la plateforme
Web des données,
données ouvertes 47
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

Les données renseignées dans Freebase sont donc systématiquement structurées, et


leur structure sera identique pour des « topics » de même « type ». Dès lors, l’accès aux
données en RDF et la navigation automatisée dans les données devient extrêmement
facile. Il devient possible de croiser l’ensemble des données présentes sur Freebase.

A l’instar de Wikipedia, Freebase est auto-construit par les utilisateurs. La valeur des
données saisies relève tout autant des informations (redondantes avec ce que l’on peut
trouver sur Wikipedia ou ailleurs) que de la définition des structures de propriétés
associées à chaque type de données.

3.2.2.4 Linked movie database

Linked movie database est une base de données cinématographique dont les données
sont sémantiquement caractérisées. Tout comme DBPedia et Freebase, Linked Movie
database ne crée pas de nouvelles données, mais s’appuie sur des données existantes
puis les structure et les enrichit pour en faire une base de données accessible en
RDF/SparQL.

La licence d’IMDB63 ne permettant pas la réutilisation des données, la construction de la


base LMDB s’appuie sur les informations présentes sur Wikipedia, et sur Freebase…

Actuellement, LMDB référence près de 40 000 films et 30 000 acteurs, ce qui couvre
environ 10% des films présents sur IMDB et 3% des acteurs.

3.2.3 Catalogues de données

3.2.3.1 Data.gov

Projet longtemps attendu, le site data.gov a été lancé et confié à Vivek Kundra (CIO du
gouvernement américain) en mai 2009, et vise à rassembler sur un même portail
l’ensemble des données rendues publiques par différentes institutions américaines.

Les données disponibles sont de différentes natures : transports, sécurité, santé,


environnement, société, urbanisme, finances individuelles, finances publiques, etc. Elles
sont accessibles dans différents formats, selon les données : xml, CSV, Excel, KML, etc.
Ces données sont des bases complètes (contrairement aux flux proposés par certaines
API). Il est donc nécessaire pour y accéder de récupérer l’ensemble d’un fichier, et il est
impossible de construire des requêtes pour n’interroger en temps réel qu’une partie des
données répondant à un besoin précis.

Par ailleurs, le site data.gov ne contient que l’index des données, les données elles-
mêmes restant hébergées sur les sites des différentes institutions. La navigation et les
outils proposés sont dans un style « web 1.0 », mais l’initiative reste une première dans la
mise à disposition de contenu aux développeurs et dans l’organisation d’une grande
quantité de données. En revanche, aucun effort n’est porté du côté de la structuration des
données elles-mêmes. Les fichiers sont livrés dans des formats, des standards et des
ontologies propres à chaque institution. Les éléments sémantiques ne sont pas
référencés de manière unique, ce qui rend le croisement difficile. Tout le travail

63
The Internet Movie Database
Web des données,
données ouvertes 48
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

d’intégration entre les données est à réaliser côté développeur. On est donc loin de linked
data et de l’interopérabilité universelle des données présentes sur le réseau, mais plutôt
dans un dump de bases de données existantes et jusqu’alors non accessibles sur
internet. Au-delà de leur richesse actuelle indéniable, ces données trouveront un nouveau
potentiel lorsque leur enrichissement sémantique et leur intégration dans des portails
comme Freebase les reliera au reste de la connaissance structurée disponible sur
internet.

Aussi, data.gov tente également de rassembler les données locales produites par chacun
des États (actuellement, trois États sont référencés : Californie, Utah et Columbia). Là
encore, tandis que la majorité des initiatives fédératrices imposent une structure voire un
format, data.gov se contente de recenser les portails « data » de chacun des États, sans
tendre vers une cohérence des différents portails pointés. Il est donc possible de
récupérer et d’utiliser ces données, mais par exemple impossible de construire des outils
capables de gérer automatiquement des données de même type diffusées par des Etats
différents.

3.2.4 Limites actuelles de la standardisation des données


Parmi les trois catégories d’acteurs évoquées (production de catalogue, production de
formats de données, enrichissement sémantique des données), c’est autour de
l’enrichissement des données que se joue la principale bataille pour savoir qui parviendra
à imposer son ontologie et ses URLs de définition de chaque chose.

Trois pistes semblent aujourd’hui possibles :

• Une architecture extrêmement décentralisée, dans laquelle l’information serait


référencée de manière unique sur des sites/plateformes différents. Par exemple,
les sites officiels des films pourraient contenir l’ensemble des données RDF /
Linked Data relatives au film, et l’URL officielle de chaque film pourrait en devenir
le point d’entrée Linked Data.

• A l’opposé, une architecture ultra centralisée, à l’image de Freebase ou DBPedia,


c'est-à-dire le rassemblement au sein d’un même lieu de l’ensemble de la
connaissance, quel que soit le domaine traité.

• Entre les deux, l’émergence de portails RDF / Linked Data référents pour chaque
secteur, comme par exemple Linked Movie Database pour la production
cinématographique.

Néanmoins, il faut noter que l’interconnexion idéale de Tim Berners Lee n’est pas encore
d’actualité, dans la mesure où les acteurs semblent s’aspirer plutôt que s’interconnecter.
Linked Movie Database réintègre par exemple les données de Freebase plutôt que mettre
en place des simples pointeurs vers les données déjà structurées par Freebase.

Il est donc actuellement difficile de savoir si le web des données tend vers une
architecture extrêmement distribuée ou au contraire totalement centralisée. Il est
également trop tôt pour savoir si, à terme, le web des données lissera peu à peu les
redondances pour tendre vers une structuration universelle de la connaissance.

Il est aussi important de noter que les ontologies, c'est-à-dire le vocabulaire utilisé dans la
description des concepts (par exemple la notion de titre d’un film, ou le nom d’une
personne), utilisent exclusivement la langue anglaise. On trouve donc les concepts
« title » et « name », plutôt que des identifiants numériques qui pourraient ensuite être

Web des données,


données ouvertes 49
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes

associés à des chaînes de caractères déclinées selon les langues. Cela risque donc de
nuire à la propagation internationale des standards en cours de développement.

3.2.5 Poids des différentes initiatives


Face à la diversité des initiatives et au manque de maturité de l’écosystème entourant
l’ouverture des données, il est aujourd’hui difficile de dresser une cartographie réaliste de
l’importance de chacun des acteurs présentés précédemment.

Il est donc nécessaire de rester attentif à l’évolution de tous les acteurs/standards


évoqués (adoption des standards, partenariat, levée de fonds, prise de position des
sociétés aujourd’hui dominantes sur le web, etc.) pour être en mesure de construire une
vision précise de ce secteur aujourd’hui très mouvant.

3.3 Organisation des acteurs impliqués dans les


données ouvertes
A travers les différents positionnements que prennent les acteurs autour de l’ouverture
des données, ou voit peu à peu se mettre en place un écosystème cohérent,
représentable par le schéma ci-dessous.

Web des données,


données ouvertes 50
© Sofrecom pour FT R&D - Janvier 2010 - v-
Vers une structuration de l’écosystème des données ouvertes
Web des données,
données ouvertes 51
© Sofrecom Janvier 2010 - v - Erreur ! Il n'y a pas de texte répondant à ce style dans ce document.
Vers une structuration de l’écosystème des données ouvertes

L’écosystème des données ouvertes repose sur trois catégories d’actions :

• La manipulation de données (création, croisement, changements de format, etc.)

• L’hébergement des données

• L’exploitation des données

3.3.1 Manipulation des données


Les données disponibles sur Internet sont à l’origine de trois formats possibles :

• Des informations ou documents non structurés, comme par exemple Wikipedia

• Des données dans des formats non standardisées, par exemple celles qui sont
distribuées à travers le catalogue de data.gov

• Des données ou documents en RDF/Linked Data

Certains acteurs, comme Freebase, DBPedia, Linked Movie Database, se positionnent


sur la transformation de formats hétérogènes vers des formats standardisés (RDF/Linked
data majoritairement), d’une part pour les documents, et d’autre part pour les données.
Cela contribue à accroître la quantité de données/informations structurées présentes sur
internet.

3.3.2 Hébergement des données


L’hébergement des données peut-être pris en charge par l’un des acteurs ayant contribué
à la mise à disposition des données en question, mais aussi par des plateformes
spécialisées (Talis, Amazon S3, etc.). Dans les deux cas, l’hébergement s’appuie sur des
outils de stockage pour la conservation des données, et produit des données réutilisables
dans des formats de représentation, tels que RDF / Linked Data.

3.3.3 Exploitation de données


L’exploitation des données repose sur leur visibilité. Linked Data défend un web
interconnecté, par lequel les données seront automatiquement exposées par d’autres
données, à travers les liens qui existent entre elles. Ce réseau étant actuellement très
incomplet, la visibilité des données passe généralement par des catalogues (data.gov,
New-York Times), permettant d’en prendre connaissance et de comprendre ce qu’elles
contiennent.

Ces données pourront ensuite être utilisées pour la création de nouveaux services, à
partir du moment où les licences le permettent.

Web des données,


données ouvertes 52
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

4 Zoom sur quelques initiatives d’ouverture des


données

Les initiatives en matière d’ouverture de données sont aujourd’hui pléthoriques. Cette


section ne prétend en aucun cas recenser ces initiatives mais s’attache à décrire plus en
détail cinq initiatives ou groupes d’initiatives qui nous semblent emblématiques ou
particulièrement intéressantes. Il s’agit de :

- L’ouverture des données de transport. L’étude de ce cas offre des parallèles avec
la situation de l’opérateur, en terme de typologie d’acteurs, des opérateurs qui
assurent et exploitent des réseaux, financés initialement par des fonds publics et
qui aujourd’hui sont des acteurs aussi bien de statut privé que public.
- Talis et la mise en place d’une plateforme d’hébergement et de traitement des
données publiques car cela correspond à une potentielle offre de service que
pourrait déployer l’opérateur.
- L’exploitation des données de communication d’Enron rendues public lors de la
mise en faillite de la société et qui permet d’étudier le type d’usage qui a pu être
fait d’un jeu de données de communication et ainsi soulever des pistes de
l’exploitation possible de données proches détenues par l’opérateur.
- Pachube et la mise en place d’une plateforme collaborative de partage de
données de capteurs et de données environnementales pour étudier les modalités
d’apparition de données issues du M2M.

Web des données,


données ouvertes 53
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

- L’ouverture des données de Backtype, un service d’agrégation de commentaires


qui, à l’instar de Twitter est un exemple représentatif des possibilités de
valorisation de jeux de données d’utilisateurs de services web communautaires.

4.1 TALIS
Talis est une entreprise dont les activités portent sur :
- le développement et la commercialisation de solutions de gestion de documents
pour les universités et les bibliothèques,
- le développement de solutions pour le monde éducatif intégrant des ressources
électroniques au cycle d’apprentissage,
- la fourniture d’une plateforme de Software-as-a-Service construite autour des
technologies sémantiques et des données liées.

La plateforme Talis

La plateforme Talis est une infrastructure d’hébergement de bases de données et de


développement à destination des entités détenant et/ou publiant des données, et des
développeurs de services. La plateforme est accessible en mode Software as a Service,
fournissant une solution scalable d’hébergement de données et offrant un accès aux
données via la mise à disposition des API Talis.

A ce jour, aucun projet de services web indépendant de Talis, s’appuyant sur sa


plateforme, n’a été identifié.

Modalités de la plateforme

Stockage de données : Tous types de données, structurées ou non, avec ou sans


métadonnées peuvent y être hébergés. Il peut s’agir de données privées ou de données
publiques.

Dans le cas des données non structurées, Talis opère comme la plateforme S3
d’Amazon, qui offre la possibilité de stocker des données non structurées et d’y accéder
ultérieurement.

Pour le stockage de données structurées, Talis se repose sur RDF, la plateforme


fournissant alors un modèle de données64 gratuit, flexible puisque l’ontologie n’est pas
imposée, mais encourageant néanmoins la description des ressources à l’aide d’un
identifiant global unique afin de pouvoir lier à terme ces données.

Au besoin, ces données stockées dans des magasins de données peuvent être
sécurisées.

64
Un modèle de données est un modèle qui décrit de façon abstraite comment sont représentées les
données dans une organisation métier, un système d'information ou une base de données.
Web des données,
données ouvertes 54
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Accessibilité des données : Les données et métadonnées peuvent être découvertes au


travers de requêtes SPARQL65 ou d’un moteur de recherche de texte gratuit. Le recours
au format RDF de métadonnées facilite la découverte des liens entres données et
l’intégration future de ces données. Ces dernières peuvent être récupérées au format
RDF, XML, ou JSON.

Augmentation des données : Une fonctionnalité de la plateforme permet d’enrichir un flux


RSS. Chaque élément du flux est enrichi automatiquement de métadonnées présentes
sur la plateforme Talis.

Contrôle des données : Le but principal de la plateforme Talis est la promotion et le


soutien à la publication de données publiques sur le web ; les espaces dans lesquels sont
stockés les données sont par défaut ouverts au public et il est possible de rechercher
dans ces données et de s’en servir pour enrichir des flux RSS. Le détenteur des données
peut néanmoins modifier les conditions d’accessibilité de ses données. Il est alors
possible de partager exclusivement certains jeux de données ou de mettre en place
certaines règles pour limiter leur exposition.

Licensing the Platform : L’API de la plateforme est elle-même publiée sous une licence
Creative Commons by, ou de paternité, qui permet la ré-implémentation de l’API par
d’autres services ou projets.

Les fonctionnalités de la plateforme (extraction de données, recherche, augmentation de


flux) sont disponibles gratuitement, que cela soit pour le détenteur des données ou un
autre utilisateur.

Le stockage des données publiques

Conditions d’hébergement des données publiques

Dans le but de soutenir la création et la dissémination des données publiques, Talis a


crée le programme « Talis Connected Commons », qui permet de publier des données
publiques gratuitement dès lors que celles-ci sont publiées sous l’une des deux licences
publiques suivantes : Open Data Commons Public Domain Dedication (PDDL) ou
Creative Commons CC0 license.66

Dans ce cas, Talis fournit aux détenteurs de données publiques :


• Un hébergement annuel gratuit limité à 50 millions de triplets et 10 Go de
contenus
• Un accès gratuit aux fonctionnalités avancées de la plateforme
• Un accès gratuit à un endpoint SPARQL pour chaque jeu de donnée.

Le détenteur de données ne peut pas monétiser l’accès des utilisateurs à ses données via
la plateforme Talis.

65
SPARQL is a standard query language that has been designed to support a range of ways of interacting
with RDF data sets. This allows you to not only query for data, but also probe for and find data of interest, and
transform that data into alternate vocabularies and structures.
66
Cf
Web des données,
données ouvertes 55
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Exploitation faite de la plateforme

Talis décrit principalement trois types d’exploitation possibles de sa plateforme


technologique.

Moteur d’applications : Dès lors que la plateforme technique gère des données
structurées ou non, ainsi que de nombreuses modalités de recherche et requête, la
plateforme Talis peut donc servir de moteur d’applications pour des services web. Ainsi, la
plateforme Talis est déjà utilisée pour de nombreux outils de gestion de bibliothèques
(PRISM, CENOTE), interfaces de recherches vers ces catalogues ainsi que des
applications à vocation éducative (ASPIRE).

Services autour des données liées : Au delà de l’accès aux données brutes, les
développeurs d’applications peuvent se reposer sur la plateforme Talis pour travailler ces
données dans un environnement de services de recherches et requêtes enrichi, facilitant
la manipulation des données hébergées sur Talis. De plus la dimension scalable de Talis
permet de répondre aux besoins variables d’accès à ces données au sein des
communautés de développeurs. Pour les organisations publiant d’ores et déjà des
données publiques, la plateforme peut faire office de second lieu de partage de ces
données.

Plateforme de dissémination des données : la mise à disposition d’une plateforme


d’hébergement de données et métadonnées, associée à un modèle économique fondé
sur l’exploitation effective de la plateforme, permet aux entreprises et organisations de
tester à moindre coût les possibilités et opportunités d’affaires autour de la publication de
données.

Une offre de plateforme proche d’Amazon S3

La proposition d’hébergement de la plateforme Talis se positionne comme un concurrent


d’Amazon qui propose le service S3, Simple Storage Service et qui héberge d’ores et déjà
de nombreux jeux de données publiques. Cependant, la plateforme d’Amazon ne propose
pas les briques sémantiques de Talis.

Ci-dessous la liste des jeux de données publiques hébergées par Amazon :


- OpenStreetMap Rendering Database
- Ensembl - FASTA Database Files
- Wikipedia XML Data
- Sloan Digital Sky Survey DR6 Subset
- Daily Global Weather Measurements, 1929-2009 (NCDC, GSOD)
- Wikipedia Page Traffic Statistics
- Twilio/Wigle.net Street Vector Data Set
- 2008 TIGER/Line Shapefiles
- Transportation Databases
- Labor Statistics Databases
- 1990 US Census, 2000 US Census
- 2003-2006 US Economic Data
- Business and Industry Summary Data
- Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- University of Florida Sparse Matrix Collection
- DBPedia
- Freebase Data Dump
- Wikipedia Extraction (WEX)
Web des données,
données ouvertes 56
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

- 3D Version of the PubChem Library


- PubChem Library
- GenBank, Unigene, Ensembl Annotated Human Genome Data
- AnthroKids - Anthropometric Data of Children
- Influenza Virus (including updated Swine Flu sequences)

Web des données,


données ouvertes 57
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

4.2 Ouverture des données de transport public

De nombreux organismes de transports se sont orientés vers la mise à disposition des


données de transports (itinéraires, horaires, perturbations sur les lignes de transports).
Les opérateurs de transports collectifs de New York, Boston, Washington, San Francisco,
Portland misent sur cette ouverture pour attirer une communauté de développeurs à
produire des services web et mobiles qui faciliteront l’utilisation des transports collectifs
par les usagers.

Cependant, de nombreux organismes de transports collectifs s’opposent au


développement de ce type d’applications mobiles et visent à conserver l’exclusivité de
l’exploitation des données de transports, données aujourd’hui copyrightées.

Ainsi, le Berlin Metro system et la Rail Corporation NSW, l’opérateur gouvernemental


australien de transport ferroviaire font pression sur les développeurs indépendants qui
exploitent les données et horaires de transports. De même, la National Rail Enquiries, au
Royaume-Uni a contraint les créateurs de l’application iPhone MyRail de cesser la
distribution de cet utilitaire gratuit, concurrent de l’application de la NRE, vendue 4,99£.

Il est intéressant de souligner ici que certains des acteurs du transport collectif se sont
effectivement tournés vers la mise à disposition publique des données, suite à des conflits
avec des développeurs indépendants. C’est ainsi le cas du MTA de New York qui faisait
pression sur plusieurs développeurs ayant distribué des applications mobiles exploitant
les données à disposition sur son site internet67. Ces conflits ont notamment soulevé la
question des licences appliquées aux données de transports et des formats d’exposition
de ces données.

Quelles sont les données couvertes dans le cadre de l’ouverture des bases de
données transports aux développeurs ?

Les données mises à disposition des développeurs recouvrent généralement les


cartographies des lignes de transports, les horaires d’arrivée et de départ de ces derniers,
ainsi que les données relatives aux incidents sur le réseau.

Nous n’avons pas rencontré d’opérateur de transport qui ouvrait des données relatives au
trafic global enregistré sur une ligne de transport.

Les formats des données de transport

Une majorité des données de transport sous ouvertes au format GTFS68, XML ou texte
brut.

67
MTA blogger defends iPhone app :
http://www.wtnh.com/dpp/news/new_haven_cty/news_wtnh_mta_blogger_defends_iphone_app_2009081312
00
68
GTFS: Google transit Feed Specification
Web des données,
données ouvertes 58
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

En complément de la mise à disposition au format GTFS, de nombreux organismes


fournissent des flux RSS pour les mises à jour des données.

Les licences autour de l’ouverture des données de transport

A ce jour, aucun opérateur de transport, qu’il soit de statut privé ou public n’a mis à
disposition les données sous une des licences Open Data existantes actuellement (CC0,
PDDL69…). Si les développeurs peuvent exploiter les données, celles-ci restent toujours
la propriété des organismes de transport.

Ci-dessous, un exemple d’accord de licence d’exploitation des données de l’opérateur de


transport de San Fransisco. Cet accord est en tout point similaire à ceux que l’on retrouve
sur les sites de transports de Washington, New York, Boston…

Exemple représentatif d’accords de licences proposés aux développeurs


The San Francisco Bay Area Rapid Transit District (BART) hereby grants you (Licensee)
non-exclusive, limited and revocable rights to use, reproduce, and redistribute BART Data
(Data) subject to the following Terms:

• BART trademarks and copyrighted materials, including any confusingly similar


variants, may not be used in association with Data.
• Data is provided on an "as is" and "as available" basis. BART makes no
representations or warranties of any kind, express or implied. BART disclaims all
warranties, express or implied, including but not limited to implied warranties of
merchantability and fitness for a particular purpose. BART and its employees,
officers, directors and agents will not be liable for damages of any kind arising from
the use of Data including but not limited to direct, indirect, incidental, punitive and
consequential damages.
• BART reserves the right to alter and/or no longer provide Data at any time without
prior notice.
• BART maintains title, ownership, rights and interest in and to Data.

By using BART Data, you agree to be bound by all of the Terms and Conditions set forth in
this agreement.

Exploitations des données de transport : les applications pour smartphones

La très grande majorité des exploitations faites de ces données se concrétise à travers
des applications mobiles qui offrent aux usagers la possibilité de consulter les horaires
des prochains transports, planifier un déplacement, repérer la station la plus proche. C’est
le cas des applications pour iPhone, terminaux Androïd comme Unibus, iBart, Washington
Metro, iNap, iBus….

69
Cf Section 3.1: l’émergence de licences ouvertes pour les données (page 35)
Web des données,
données ouvertes 59
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Certaines applications de géolocalisation intègrent les données de transports dans des


applications plus générales permettant aux utilisateurs de trouver un point d’intérêt, de le
géolocaliser et de planifier son déplacement jusqu’à cet endroit.

L’application Iphone, Wahington Metro70 vendue 0,79€ offre les fonctionnalités suivantes :

- Carte du Métro de Washington (visualisation en mode portrait ou paysage).

- Repérage précis de chaque station sur la carte, et sur Google Map.

- Section favoris dans laquelle il est possible d'enregistrer ses stations et trajets.

- Service de recherche du meilleur itinéraire. Une estimation du temps du trajet est


fournie.

- Carte interactive pour choisir les stations de son itinéraire.

- L'application ne nécessite aucune connexion réseau (excepté pour la géolocalisation


des stations les plus proches). La recherche d'itinéraire se fait donc sans aucun problème
sous terre dans le métro.

- Service de recherche / localisation de la station de Métro la plus proche.

- Une section de Washington Metropolitan Area Transit Authority permettant de suivre en


direct l'état du trafic des différentes lignes du métro de Washington.

70
http://www.presselite.com/iphone/washingtonmetro/

Web des données,


données ouvertes 60
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Animation des communautés de développeurs

Si le fait de trouver un espace “Developer Ressources” sur le site d’un opérateur de


transport constitue en soit une belle avancée, les démarches d’ouverture des données de
transport se limitent généralement à la fourniture des données brutes.

Néanmoins, certains opérateurs s’engagent plus fortement et initient une démarche


d’animation de communauté de développeurs : organisation de barcamp, animation de
communauté via Twitter et autres Google Groups, mise en avant au sein du site web de
l’opérateur de transport des applications développées en externe.

Google Transit Feed Specification

Google se positionne comme un acteur de la


mutualisation des données de transport afin d’intégrer des
fonctionnalités avancées de guidage (piéton / voiture /
transport collectif) au sein de son service de cartographie
Google Maps.

Google, en partenariat avec des organismes de transport, a spécifié un format ouvert pour
l’échange des données de transport, le Google Transit Feed Specification (GTFS) qui
intègre les données relatives aux horaires des transports ainsi qu’aux données
géographiques associées. Plus de 115 opérateurs de transports ont à ce jour publié leurs
données au format GTFS71.

71
http://code.google.com/p/googletransitdatafeed/wiki/PublicFeeds
Web des données,
données ouvertes 61
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Web des données,


données ouvertes 62
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

4.3 Backtype
Backtype est agrégateur de commentaires de blogs et réseaux sociaux. Ce service vise
deux cibles distinctes :
- Backtype : les utilisateurs finaux, à qui il propose d’agréger les commentaires
postés sur les différents services et sites qu’ils fréquentent, de les agréger au sein
du service Backtype et de suivre les discussions qu’ils suscitent.
- Backtype Connect : les blogueurs à qui il propose de scanner différentes sources
(Twitter, Friendfeed, Digg, Reddit) afin d’y repérer les commentaires sur leurs
posts émis par les utilisateurs de Backtype, les liens vers les articles du blogueur
et de les intégrer au sein du flux de commentaires en-dessous du post du blog.

Backtype et l’ouverture des données

L’API Backtype Connect correspond à


une ouverture de données puisqu’elle
permet à un développeur de rechercher
des termes au sein de la base de
commentaires constituée par Backtype.
Le service opère une indexation
massive de commentaires,
indépendamment de la plateforme
initiale sur laquelle ceux-ci sont publiés
(Blogger, Wordpress, TypePad et
autres Digg, Reddit).

L’ouverture et la possibilité de
rechercher au sein de la base de
données de Backtype s’inscrit dans les
démarches d’ouverture des acteurs du
web social, qui visent à valoriser le
capital informationnel social ainsi
agrégé, à l’instar du service Summize,
racheté par Twitter, et qui permet de
rechercher dans l’ensemble des tweets
publics.

Formats des données et licences


associées

Lors des requêtes effectuées par les développeurs, les données sont restituées au format
JSON ou XML. L’API est mise à disposition pour tout type d’exploitation, commerciale ou
non, mais est limitée à 1000 requêtes par jour.

Selon les conditions d’utilisation du service, les utilisateurs de Backtype peuvent associer
des licences d’exploitation de la compilation (et seulement la compilation) de leurs
commentaires. Les utilisateurs peuvent théoriquement verser explicitement leurs
commentaires dans le domaine public.

Web des données,


données ouvertes 63
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Extrait des conditions d’utilisation du service :

User posted content: For your content, you can label your compilations with one of
several possible licenses. It is important to note that you can only copyright the
compilation itself, not the individual links that make up the compilation. Please also
note that just because your compilation does not have a license agreement attached to
it does not mean that it is public domain. For a compilation to be classified as such, it
must be explicitly labeled as belonging to the public domain. Your use of a license in
connection with your compilation does not affect BackType's right to access and use it
in connection with the Services, the Site or otherwise in connection with our business

Il faut néanmoins noter qu’il ne nous pas été possible de réaliser ces opérations lors de
notre test du service.

Exploitation de l’API de Backtype

Le service Programmable Web recense à ce jour 3 mashups construits autour de l’API de


Backtype.

Congress SpaceBook72 :

Congress SpaceBook est un service web développé dans le cadre du challenge de


développeurs « App for America73 ». Ce service vise à émuler une plateforme de réseau
social dont les seuls membres sont ceux du Congrès.

Il repose sur les APIs de BackType, Capitol Words, Eventful, Flickr, FriendFeed, Google
Search, Google Social Graph, OpenSecrets, Technorati, Yahoo Search et Youtube. Le
service expose une biographie, les dépenses, historiques des votes et projets de lois
proposés, ainsi que les influences qui existent entre les membres du congrès.

Le « source code » du service est disponible sur Github.com et l’application a été rendue
open source.

72
http://congressspacebook.com
73
http://sunlightlabs.com/appsforamerica/
Web des données,
données ouvertes 64
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Spy74

Spy est un service web de suivi de conversation apparaissant sur les plateformes sociales
telles que Twitter, Friendfeed, Flickr ainsi que sur les blogs. Le service Spy s’appuie sur
les APIs de BackType, Flickr, FriendFeed, Twitter et Yahoo BOSS.

74
http://spy.appspot.com/
Web des données,
données ouvertes 65
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

TweetzCloud75

TweetzCloud est un outil de tracking de services web conversationnels. Il permet de


définir une liste de noms de domaines et de surveiller les liens postés sur Twitter vers ces
domaines ou des domaines concurrents.

Le service Spy s’appuie sur les APIs de BackTweets et BackType.

75
http://tweetzcloud.com/
Web des données,
données ouvertes 66
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

4.4 Pachube

Description

Pachube est un service web qui permet de connecter et partager en temps réel les
données d’un capteur, quel qu’il soit. Ce service vise à faciliter l’interaction entre les
environnements physiques et virtuels, les données d’un capteur physique pouvant
alimenter un site web ou un objet dans un monde virtuel comme Second Life.

Format des données

En entrée, il est possible de fournir les données au service à l’aide d’une interface de type
Web Service REST, des APIs, ou via des cartes Arduino76

En sortie il est possible d’exploiter librement les données du réseau via des flux RSS. Les
données sont fournies au format CSV, XML et JSON. Pachube offre également des outils
de visualisation de ces données comme un tableau de bord iGoogle.

76
Arduino est un ensemble open-source pour l'expérimentation électronique, qui permet de créer des
prototypes d'objets ou d'environnements interactifs. Il est composé d’une partie matérielle, la carte
électronique équipée d'un microcontrôleur (l'équivalent d'un ordinateur très compact, peu gourmand en
énergie) et d’une partie logicielle. La carte électronique qui peut recueillir des signaux numériques ou
analogiques émis par des capteurs de tous types, les analyser et les transmettre.
Web des données,
données ouvertes 67
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Ces données sont décrites au format EEML. L’Extended Environments Markup


Language77 désigne un format de partage de données de capteurs en cours de
spécification. Celui-ci permet de décrire les formats de données de capteurs ainsi que les
métadonnées décrivant la capture et la source de ces données.

Ouverture des données

Le format EEML est un projet qui porte en soi la volonté d’ouvrir ces données
environnementales, récoltées via des capteurs. Ce format permet en effet aux
installations, immeubles, appareils électroniques qui collectent actuellement des données
environnementales de partager ces ressources informationnelles en temps réel, au sein
de leur propre organisation ou avec une communauté externe, à l’instar de celle de
Pachube.

La volonté derrière ce projet est de fournir aux décideurs une perspective élargie en
matière environnementale.

Pachube ne propose pas aux


utilisateurs de partager des
données dans le cadre de
licences Open Data. Lors du
partage de données,
l’utilisateur ne peut donc pas
choisir de partager ses
données sous licence CC0
ou PDDL.

De même il n’est pas précisé


le type d’exploitation qui peut
être fait des données
rendues accessibles à la
communauté Pachube.

77
http://www.eeml.org/
Web des données,
données ouvertes 68
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

Application

De nombreux projets de développeurs indépendants gravitent autour de la fourniture ou


de la visualisation des données environnementales Pachube. Parmi ces projets, les plus
matures jouissent d’une exposition au sein du service via une galerie d’applications. On y
retrouve quatre services permettant de nourrir un flux de données et une dizaine de
services permettant la visualisation de ces données.

Services d’ajout de données :


- Status2Pachube : service de conversion d’un statut de messagerie instantanée en
flux de données Pachube.
- PachTweet : mise à jour d’un flux de données Pachube via Twitter.
- CurrentCost2Pachube : mise à jour d’un flux de données Pachube via les produits
de mesure de sa consommation électrique « Current cost »78.
- Remote Control Arduino : mise à jour d’un flux de données Pachube via une carte
Arduino.

Services de visualisation des données :


- Pachube viewer et PachubeMon : application Android et Iphone de visualisation
d’un flux de données Pachube.
- PachuBlog : Widget de visualisation à insérer dans un blog.
- Carbon footprint : outil de conversion d’un flux de consommation énergétique en
empreinte carbone.
- PachuDial : Widget de visualisation de flux de données.

- Pachube2SketchUp : outil de conversion d’un flux de données vers Google


Sketchup, le logiciel de partage de modèle 3D.

78
http://www.currentcost.com/products.html
Web des données,
données ouvertes 69
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

- Pachube Explorer : explorateur en language Flex des flux de données.


- Pachube Viz : outil de création de graphiques à partir des flux de données.
- Pachube Google Gadget : Widget pour Igoole, destiné à la visualisation de flux.
- Trails : création d’une carte de projection des données de géolocalisation d’un flux
de données (repose sur Open Street Maps).

Web des données,


données ouvertes 70
© Sofrecom Janvier 2010 - v-
Zoom sur quelques initiatives d’ouverture des données

4.5 ENRON
En mai 2002, suite à la mise en faillite d’Enron, un corpus de mails provenant de 160
seniors managers d’Enron a été rendu public par la FERC79, qui enquêtait sur les raisons
de cette faillite. Près d’un demi million d’emails, recouvrant une période de 3,5 années ont
ainsi été mis à disposition du public. Il s’agit du plus grand corpus de mails réels émanant
d’une unique entité et aujourd’hui accessible à la communauté de chercheurs.

Le fichier source est aujourd’hui disponible sur le site http://www.cs.cmu.edu/enron et il


existe des services en ligne permettant d’effectuer des recherches dans la base de
données d’emails (Enronemail.com et
http://orange.sims.berkeley.edu/~atf/enron/enron.cgi ).

Les chercheurs travaillant sur les réseaux sociaux, les théories de l’organisation, se sont
emparés de cette base de données qui offrait une rare opportunité d’étudier les processus
sociaux et organisationnels au sein d’une entreprise réelle et ce, sur une longue période.
Les données brutes contiennent des communications, connaissances, relations,
ressources et évènements relatifs à une entreprise en crise.

De nombreuses études ont pu être menées sur la base de ce corpus de mails :


- Étude des relations entre les entités sociales du groupe et de l’évolution de ces
dynamiques avec l’avancée de la crise Enron.80
- Détermination a posteriori des raisons de l’effondrement d’Enron : étude des
comportements des salariés vis-à-vis des emails.
- Étude des réseaux de communications d’email pour la détermination des
organisations informelles au sein du Groupe.
- Identification d’acteurs clés d’une organisation : influenceurs, leaders, innovateurs,
communicants, fraudeurs et de leurs comportements associés81.
- Analyse de la dissémination des informations au sein d’un réseau social. Étude
réalisée pour le compte de fournisseurs de services82.
- Évaluation de méthodes de classification de bases de données massives83.
- Évaluation de méthodes de surveillance des emails84.
- Détection de hiérarchie sociale au sein d’un groupe à partir de l’analyse de leurs
échanges électroniques85.
- Identification du sexe du groupe d’un membre social par l’analyse de ses
communications électroniques86.
- Évaluation des systèmes de détection automatique d’intrusion87.

79
Federal Energy Regulatory Commission
80
Communicatin Network from the Enron Email corpus, Peter A.Gloor
81
Identifying Potential Suspects by Temporal Link Analysis, Deepak P, D. Garg, and V. K. Varshney (IBM)
82
Analyzing the ENRON Communication Network Using Agent-Based Simulation, Shinako Matsuyama (Sony)
83
Enron Data Revisited - Neighborhood Queries with FastBitWin over Popular Commercial Database System,
Kurt Stockinger, Doron Rotem, Arie Shoshani, Kesheng Wu
84
Text Mining Approaches for Email Surveillance, Michael W. Berry and Murray Browne
85
Automated Social Hierarchy Detection through Email Network Analysis, Ryan Rowe, Shlomo Hershkop
86
Gender Identification from E-mails, Na Cheng, Xiaoling Chen, R. Chandramouli, K. P. Subbalakshmi
87
Redesign and Implementation of Evaluation Dataset for Intrusion Detection System, JUN QIAN ; CHAO
XU; MEILIN SHI
Web des données,
données ouvertes 71
© Sofrecom Janvier 2010 - v-