Vous êtes sur la page 1sur 71
France Télécom R&D/TECH/SENSE Web des données, données ouvertes People Rank Janvier 2010

France Télécom R&D/TECH/SENSE

France Télécom R&D/TECH/SENSE Web des données, données ouvertes People Rank Janvier 2010

Web des données, données ouvertes

People Rank

Janvier 2010

France Télécom R&D/TECH/SENSE Web des données, données ouvertes People Rank Janvier 2010
France Télécom R&D/TECH/SENSE Web des données, données ouvertes People Rank Janvier 2010

Executive Summary

Executive Summary

Le web entre dans une nouvelle phase de son existence, dont l’une des caractéristiques est le saut tant quantitatif que qualitatif des données qui y sont placées. Les sources de données se diversifient : pouvoirs publics, entreprises, individus, et demain ce sera au tour des objets de publier, partager, et mettre en circulation de plus en plus de données à travers la toile.

Au cours des deux dernières années, des voix se sont élevées pour promouvoir une circulation plus libre de ces données. Portabilité des données, données ouvertes, données libres… les discours se mêlent dans une certaine confusion. Confusion quant à la nature, l’origine et le statut des données concernées d’abord. Confusion quant aux conditions techniques et juridiques de leur circulation de l’autre.

Cette étude s’attache dans un premier temps à comprendre d’où vient le mouvement d’ouverture des données et qui en sont les principaux protagonistes. Puis à clarifier les différents concepts qui circulent autour des données ouvertes. Après avoir analysé les initiatives qui tentent de structurer le paysage des données ouvertes, tant sur le plan juridique que technique, l’étude dessine les premiers contours de la chaîne de valeur de ce nouveau secteur, puis s’attarde à décrire plus en détail cinq acteurs investis dans cette nouvelle forme d’activité.

Cette étude a été réalisée dans le cadre du projet People Rank du Laboratoire Tech/Sense de France Télécom R&D, qui mène une réflexion plus large sur l’évolution du Web et de ses communautés.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

du Web et de ses communautés. Web des données, données ouvertes © Sofrecom pour FT R&D

2

Sofrecom accompagne chaque acteur des télécoms tout au long de son développement, avec une expertise et des solutions transverses en conseil stratégique et marketing, ingénierie réseaux et systèmes d’information.

Riche de ses expériences dans plus de 100 pays, d’une véritable culture opérateur et de la force du Groupe France Telecom, Sofrecom associe à sa parfaite connaissance du métier d’opérateur une expertise pointue sur l’ensemble des enjeux technologiques de l’information et de la communication.

Sofrecom SA 24, avenue du Petit Parc F-94307 VINCENNES T : +33 (0) 1 43 98 55 55 F : +33 (0) 1 43 98 57 96 www.sofrecom.com marketing@sofrecom.com

Sofrecom à l’international

Sofrecom Algérie, Alger

Sofrecom Argentine, Buenos Aires

Sofrecom Indonésie, Jakarta

Sofrecom Maroc, Rabat

Sofrecom Pologne, Varsovie

Mentions légales

© Sofrecom - Tous droits réservés

Les informations contenues dans ce document sont la propriété de Sofrecom S.A. et sont strictement confidentielles. Ces informations ne peuvent être divulguées, reproduites ou diffusées, en tout ou partie, sans l’autorisation écrite de Sofrecom S.A.

Il est expressément interdit de reproduire, présenter ou dupliquer sur quelque support que ce soit et de quelque manière que ce soit, tout ou partie de ce document sans l'autorisation écrite de Sofrecom S.A.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

écrite de Sofrecom S.A. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

3

Contacts

Contacts

Valérie Peugeot, Julien Duprat et Damien Tramblay

Sofrecom / Direction SATM 24 avenue du Petit Parc

94307 Vincennes – France

Tél :

+33 (0)1 43 98 55 55

Courriels :

valerie.peugeot@sofrecom.com

julien.duprat@sofrecom.com

damien.tramblay@sofrecom.com

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

damien.tramblay@sofrecom.com Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

4

Table des matières

Table des matières

Executive Summary

2

Contacts

4

1 Sources

7

2 Paysage des données ouvertes : historique et clarification du concept . 8

2.1 Définition

8

2.2 Historique : une dynamique en tache d’huile

8

2.2.1 Un concept né dans le monde des sciences

8

2.2.2 …qui croise le monde des données publiques en général…

9

2.2.3 …que s’approprie le monde du web…

17

2.2.4 …encouragé par les utilisateurs

22

2.3 Arrêt sur image : les discours des figures du Web

23

2.4 Confusions autour du concept : essais de clarifications

24

3

2.4.1 Où commencent et où s’arrêtent les données ?

25

2.4.2 De quelles données parle-t-on ?

27

2.4.3 Une tentative de définition pour les données publiques ouvertes

32

2.4.4 Que met-on derrière le terme « open » (ouvert) ?

33

2.4.5 Données du monde réel et données du web

34

2.4.6 Concepts connexes

36

Vers une structuration de l’écosystème des données ouvertes

38

3.1 Lever les obstacles juridiques : l’émergence de licences ouvertes pour les données

38

3.2 Lever les obstacles techniques : un début de structuration des formats et des

42

initiatives de standardisation des ontologies

3.2.1 Formats de données

43

3.2.2 Producteurs de sémantique et d’association

45

3.2.3 Catalogues de données

48

3.2.4 Limites actuelles de la standardisation des données

49

3.2.5 Poids des différentes initiatives

50

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

des différentes initiatives 50 Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

5

Table des matières

3.3

4

Organisation des acteurs impliqués dans les données ouvertes

50

3.3.1 Manipulation des données

52

3.3.2 Hébergement des données

52

3.3.3 Exploitation de données

52

Zoom sur quelques initiatives d’ouverture des données

53

4.1 TALIS

54

4.2 Ouverture des données de transport public

58

4.3 Backtype

63

4.4 Pachube

67

4.5 ENRON

71

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Pachube 67 4.5 ENRON 71 Web des données, données ouvertes © Sofrecom pour FT R&D -

6

Sources

1

Sources

L’ensemble des documents en ligne repérés par les trois consultants mobilisés pour réaliser ce travail ont été regroupés à l’intérieur d’un outil collaboratif en ligne intitulé « FriendFeed » http://friendfeed.com

Le salon dédié est intitulé « donnees_communes » : ce salon est fermé, une autorisation doit être demandée à son créateur pour y accéder.

Pour pouvoir consulter les sources, il vous suffit :

- de vous créer un compte sur FriendFeed

- de chercher le salon http://friendfeed.com/donneescommunes

- puis de demander l’accès au créateur du salon

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

l’accès au créateur du salon Web des données, données ouvertes © Sofrecom pour FT R&D -

7

Paysage des données ouvertes : historique et clarification du concept

2

Paysage des données ouvertes : historique et clarification du concept

2.1 Définition

« Les “données ouvertes” sont à la fois une philosophie et une pratique, qui exige que certaines données soient mises à disposition de chacun librement (freely en anglais), sans restrictions liées à des droits d’auteur, de brevets ou tout autre mécanisme de contrôle. » 1

Si cette définition proposée par Wikipedia (En) semble faire accord, le consensus s’arrête là : de quel type de données parle-t-on ? En quoi consiste cette libre circulation ? Quel en est l’intérêt ? Autant de questions autour desquelles les avis divergent à la lecture des prises de position des personnalités du Web.

Un bref détour par l’historique du concept permet de comprendre en partie les sources de dissensus.

2.2 Historique : une dynamique en tache d’huile

2.2.1 Un concept né dans le monde des sciences

Avant que le terme ne fasse son apparition, la philosophie qui le sous-tend était défendue par des chercheurs, comme le sociologue Robert K. Merton, à l’origine de la théorie dite « CUDOS », acronyme derrière lequel il décrit les conditions idéales de l’innovation scientifique (Communalism, Universalism, Disinterestedness et Organized Skepticism). Par communalisme, il entend le fait que les découvertes scientifiques sont l’objet d’une propriété commune et que les scientifiques renoncent à leur propriété intellectuelle en échange de la reconnaissance et de l’estime de leurs pairs.

Le terme « données ouvertes » proprement dit a fait son apparition en 1995. LE GCDIS (le comité sur les données géophysiques et environnementales du Conseil National de la Recherche aux États-Unis) publie un document intitulé « de l’échange complet et ouvert des données scientifiques ». Dans ce document, il est expliqué que l’atmosphère, la biosphère et les océans forment un ensemble intégré qui transcende les frontières et qui ne peut être étudié que par une recherche coopérative internationale, s’appuyant sur des données croisées provenant des différentes sources nationales. Et de conclure : « les programmes internationaux de recherche sur le changement globale et la surveillance environnementale dépendent du principe d’un échange complet et ouvert des données (i.e. les données et les informations sont rendues disponibles sans restriction, sur une base non discriminatoire, pour un coût réduit à celui des besoins de reproduction et de distribution). »

1 Source : http://en.wikipedia.org/wiki/Open_Data

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 8

8

Paysage des données ouvertes : historique et clarification du concept

Au cours des quinze dernières années, non seulement le terme s’est répandu dans le monde scientifique, mais il a fait l’objet de différentes initiatives proactives et constitue l’une des pierres d’un mouvement intitulé « open access » ; il vise à permettre aux résultats de la science en général (et pas seulement aux données) de circuler en s’appuyant sur des dispositifs techniques, juridiques et économiques innovants (parmi les autres initiatives : open archives, publications scientifiques en ligne en accès libre…).

Quelques exemples de ces initiatives en matière de données ouvertes, issues du monde scientifique :

L’engagement de scientifiques pour des données du génome ouvertes 2 en 2002

Un consortium pour les données géo-spatiales ouvertes 3 en 2003

« A manifesto for Open Chemistry » 4 en 2004

Pétition pour des données ouvertes en Cristallographie 5 en 2005

Progressivement, ces initiatives se sont élargies à de nouveaux champs scientifiques et/ou à des informations statistiques publiques. Ex :

The Open Data Foundation (ODaF) 6 , créée en 2006, se définit comme « un organisme à but non lucratif qui promeut l’adoption de standards internationaux de métadonnées et le développement de solutions open source pour la gestion et l’usage de données statistiques. Nous nous consacrons à améliorer l’accès aux données et métadonnées ainsi que leur qualité, en soutien à la recherche, la prise de décision et la transparence dans les champs des SBE (sciences sociales, économiques et du comportement) ».

2.2.2 …qui croise le monde des données publiques en général…

Deux des arguments forts avancés en faveur de la libre circulation des données scientifiques sont :

la nature de leur financement : la recherche des universités et centres de recherches publics est financée pour l’essentiel sur fonds public (même si cela est de moins en moins vrai, ces instituts étant poussés à chercher des financements privés, ce qui constitue une partie du problème). Il est donc logique que le contribuable puisse bénéficier librement des fruits de ce financement.

Puisqu’ils sont financés publiquement, ils participent d’un bien commun, dont nul ne peut revendiquer l’appropriation à des fins exclusives, quelles qu’elles soient.

2 http://www.oreillynet.com/pub/a/network/2002/04/05/kent.html

3 http://www.opendataconsortium.org/

4 http://groups.lis.illinois.edu/guest_lectures/Murray-Rust/communal/manifesto.html

5 http://www.crystallography.net/

6 http://www.opendatafoundation.org/?

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

http://www.opendatafoundation.org/ ? Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 -

9

Paysage des données ouvertes : historique et clarification du concept

Ce raisonnement appliqué aux données scientifiques est également défendu pour l’ensemble des données dites publiques, dont les premières ne constituent qu’une sous- catégorie.

Les données publiques sont les données de toute nature, sous forme numérique ou non, collectées, produites et mises à disposition par une personne publique (État, collectivités territoriales, établissements publics) pour des tiers, dans le cadre d'une mission de service public.

Des acteurs qui promeuvent la mise à disposition des données publiques

Deux catégories d’acteurs, poreuses, incitent à une exposition de ces données sur le Web :

des opérateurs privés qui considèrent que « le secteur de l’information publique reste un large gisement sous-exploité à l’heure actuelle : pour le développement de l’industrie et du marché de l’information, il est nécessaire de promouvoir la diffusion des données publiques. » 7 .

des groupes de citoyens, des élus, qui constatent que les administrations gardent trop souvent les données par devers elles, alors que leur mise à disposition pourrait constituer un moteur d’accroissement du bien commun, socle sur lequel de nouvelles initiatives et services pourraient être lancés. (cf. encadré 1, initiative française). Au Royaume-Uni, une campagne en ligne intitulée « mash the state » demande aux pouvoirs publics en général et aux municipalités en particulier, de mettre leurs données à disposition du public. Constatant que seulement 26% des municipalités disposent d’un fil RSS, ils invitent les 74% restant à en faire autant avant Noël 2009.

7 http://www.gfii.asso.fr/rubrique.php3?id_rubrique=60 Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 10

10

Paysage des données ouvertes : historique et clarification du concept

Encadré 1

Extrait du texte d’appel pour la création d’un groupe de travail pour des données ouvertes et mises en commun en France :

Bien que financés par l’argent public, nombre de sites de collectivités territoriales, d’études, de données publiques, de productions des acteurs des services publics sont mis en ligne avec un "copyright" qui n’en permet pas une réutilisation : pourtant la plupart des informations sur ces sites sont de nature publique ; leur réutilisation telle quelle, et avec la signature dans une autre publication, ne peut qu’augmenter la diffusion de l’information publiée. L’extension des biens communs et l’accès partagé de tous aux biens informationnels publics est un enjeu de société face à la concentration des services sur quelques moteurs de recherche, l’envahissement de la publicité et la collecte des données personnelles privatisées sans que nous en connaissions l’usage. La société a beaucoup à gagner à mettre en biens communs des données publiques, qu’elles soient d’intérêt général (comme les recensements, les données cartographiques et les études thématiques) ou plus locales, sur le « vivre ensemble » et la connaissance partagée d’un territoire.

si les données de l’IGN étaient réutilisables, on n’aurait pas la contrainte de se tourner vers les "google map" ;

donner à voir les études commanditées favorise le débat public et constitue un facteur de démocratie ;

en permettant la réutilisation de ces études, on ne favorise plus le financement de simples couper-coller, mais la création de réelles valeurs ajoutées par les consultants ;

donner à voir les réponses apportées à une enquête ou un questionnaire augmente la qualité des déclarations soumises à un regard critique public ;

rendre accessible un projet d’école, de centre social, favorise les synergies locales entre acteurs du quartier ;

publier les projets soutenus par une collectivité rend visible les « bonnes » pratiques et favorise le partage d’expériences ;

permettre la réutilisation des photos et documents d’archive ouvre de multiples créations dans l’éducation, la mise en valeur des territoires ;

Source : http://www.a-brest.net/Www.a-brest.net/article3782.html

Union Européenne : Un cadre juridique au milieu du gué

La question de la disponibilité des données publiques n’est pas nouvelle. De longue date, les entreprises revendiquent l’utilisation de l’information publique en général (publications, données…), sur laquelle elles peuvent s’appuyer pour innover, améliorer leurs offres et construire de nouvelles activités.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

construire de nouvelles activités. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

11

Paysage des données ouvertes : historique et clarification du concept

Cette mise à disposition de l’information publique est encadrée à l’échelle européenne par une directive en date du 17 Novembre 2003 et transposée en droit français le 7 juin 2005 par ordonnance. Préexistait en France une loi de 1978 sur l’accès aux documents administratifs.

Bien que le sens général de ces textes aille vers une mise à disposition large de ces données, on notera toutefois plusieurs limites :

la mise à disposition n’est pas nécessairement gratuite, c’est même l’exception. Elle peut faire l’objet d’une redevance, que la réutilisation soit à usage commercial ou non, redevance dont le montant peut inclure les coûts supportés par l’administration productrice ou détentrice des informations, et notamment les coûts de mise à disposition et d’éventuelle anonymisation des informations.

plusieurs exceptions sont listées, en particulier :

 

les données produites par des EPIC (Établissements Publics Industriels et Commerciaux) et par des organismes privés chargés de services publics

les informations des établissements culturels [musées,

]

ou d’enseignement

 

suivent quant à elles un régime particulier, laissé à la libre appréciation des

établissements en cause

point essentiel, l’ordonnance n’impose aucune mise en ligne. Un document de l’État est considéré comme « mis à disposition » dès sa publication dans le journal officiel (ou dans les recueils des actes administratifs lorsqu’il s’agit d’un document produit par une collectivité territoriale).

Dès lors, on voit bien que la question centrale est déplacée : l’obstacle à une réutilisation des données publiques n’est ni leur statut, ni leur confidentialité, mais le support de leur mise à disposition, le vecteur de l’exposition.

En Mai 2009, la directive a fait l’objet d’un réexamen, démarche qui permet de mesurer l’impact de la mise en œuvre de la directive, les obstacles rencontrés et les éventuels correctifs à prendre 8 . La Commission appelle à « la suppression des accords d'exclusivité, l'application de modèles d'octroi de licences et de tarification qui facilitent la réutilisation des ISP (Informations du Secteur Publique), la garantie de conditions de licences équitables pour les organismes du secteur public qui réutilisent leurs propres documents comme pour les autres réutilisateurs, et la promotion de mécanismes de résolution des conflits rapides et peu onéreux ».

Elle souligne que « les organismes du secteur public sont encouragés à identifier leurs ressources d'information et à les rendre facilement et rapidement disponibles sous des formats stables. À cet égard, les inventaires de ressources d'information et les portails ISP nationaux sont des outils importants ». Pour autant, elle ne fait pas de la mise en ligne un passage obligé et ne privilégie aucun format, sémantique ou autre.

La Slovénie et le Royaume-Uni sont mis en avant dans ce rapport comme étant les deux pays les plus avancés en matière de portails web relatifs aux ISP.

8 http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:52009DC0212:EN:NOT

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 12

12

Paysage des données ouvertes : historique et clarification du concept

Un travail de fond du côté de la commission européenne

Par ailleurs, la Commission européenne soutient la plateforme ePSIplus (European Public Sector Information (PSI) Platform) 9 , qui se présente comme la « Europe's One-Stop Shop on Public Sector Information (PSI) Re-use ». On y trouve, entre autres, une série d’exemples de services construits par des entreprises à partir d’informations publiques au sens large (pas uniquement des données brutes). Ainsi, l'entreprise suédoise Navtech 10 développe des solutions logicielles pour les vols aériens et des outils pour l'industrie commerciale aéronautique ; pour ce faire, elle utilise les données météorologiques fournies par l'office météo britannique afin d’offrir des outils de planification de vols. Dans le domaine de l'agriculture, l'entreprise autrichienne PROGIS Software GmbH 11 offre des outils de gestion de l'espace rural, intégrant différents flux de données : agricoles, météo, environnement, législation européenne

Point essentiel, ce portail ne rassemble pas spécifiquement des données pleinement ouvertes, au sens où elles seraient mises à disposition gratuitement. Nombre de ces informations sont mises à disposition moyennant achat d’une licence, dans le cadre de la directive mentionnée précédemment.

Le membre français de cette plate-forme est le GFII – Groupement Français de l’Industrie de l’Information 12 , association des acteurs publics et privés de l’information numérique professionnelle, qui rassemble des producteurs, éditeurs, prestataires, éditeurs de logiciels, grands comptes acheteurs d’information…

En 2006, une décision a été adoptée, qui impose à la Commission d’aller au-delà des principes de la directive pour ses propres données. Les tarifs ne dépassent pas les coûts marginaux et l’ensemble de ses documents sont réutilisables. Les études, la base de données juridique EUR-Lex, les mémoires de traduction sont mis à disposition, la plupart dans 22 ou 23 langues… L’ensemble des statistiques d’Eurostat sont accessibles sur le site dédié et les données peuvent être téléchargées en format tableur. 13 Cependant, le pas d’une mise à disposition sous forme d’API ouverte n’a pas encore été franchi.

A noter que le centre de recherche privé autrichien Joanneum Research s’est attelé à convertir l’ensemble des 3 milliards de données d’Eurostat pour l’année 2008, au format RDF.

Des administrations françaises réticentes et / ou lentes

Dans les faits, certaines administrations, locales comme nationales, restent très réticentes à diffuser leurs données, à la fois pour des raisons historiques (culture du secret d’État dont elles ont du mal à se défaire), politiques (volonté consciente de conserver par devers

9 http://www.epsiplus.net/

10 http://www.navtech.aero/company_information/company_facts.html et http://www.epsiplatform.eu/examples/directory/aeronautics/notam

11 http://www.progis.com/en/?id=kontakt\unternehmen.html et http://www.epsiplatform.eu/examples/directory/agriculture/agroffice

12 http://www.gfii.asso.fr/rubrique.php3?id_rubrique=30

13 http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 13

13

Paysage des données ouvertes : historique et clarification du concept

elles des informations considérées comme délicates et qui pourraient les desservir), anthropologiques (elles ont le sentiment, réel ou perçu, de perdre une partie de leur pouvoir en partageant les données), économiques et techniques (toutes les administrations ne disposent pas des budgets et compétences techniques pour une exposition optimum de leurs données).

Sans même parler de mise en ligne, elles peinent à répondre à trois impératifs de la loi :

- l’élaboration de licences types fixant les conditions de circulation et d’usage de ces données,

- l’établissement d’un répertoire des informations publiques permettant à chacun de savoir quelles sont les données disponibles,

- la définition de principes tarifaires.

Le plan de développement de l’économie numérique, www.francenumerique2012.fr, présenté par le Gouvernement français en octobre 2008, prévoit la création d’un portail unique d’accès aux données publiques. Cette mission a été confiée de manière opérationnelle à l’APIE.

L’Agence pour le Patrimoine Immatériel de l’État 14 , créée en Avril 2009, placée sous la tutelle du Ministère des Finances, est chargée de mesurer, gérer, faire fructifier, évoluer le patrimoine immatériel de l’État (les brevets, les licences, les fréquences, les marques, les savoir-faire publics, les bases de données, les droits d’accès ou les images publiques).

Comme l’indique le site web de l’APIE, la mission de création d’un portail unique est envisagée avant tout d’un point de vue économique :

« Les données publiques couvrent un vaste champ de secteurs ; bon nombre d’entre elles sont encore peu exploitées. Il s’agit de les faire émerger pour favoriser le développement de nouveaux produits et services et contribuer ainsi à la croissance économique.

L’Agence pour le Patrimoine Immatériel de l’État (APIE), chargée de la conception de ce portail a lancé, le 7 mai, un groupe de travail interministériel qui définira les contours de celui-ci au regard des besoins de ses différents types d’utilisateurs, qu’il s’agisse des opérateurs économiques, du grand public ou encore des administrations elles-mêmes. Assisté d’experts, bénéficiant de l’expertise d’une mission IGF-CGIET et d’une assistance à maîtrise d’ouvrage, il devrait rendre ses conclusions au début de l’automne pour démarrer la phase de mise en œuvre en vue d’une ouverture du portail à la fin de l’année 2010. ».

A date, ce portail n’a pas été lancé et est désormais annoncé pour 2011. Les informations disponibles semblent indiquer qu’il s’agirait d’un simple agrégateur de liens, renvoyant vers des sources de données déjà existantes, et non d’un portail « one stop » sur le modèle britannique ou états-unien.

Le Ministère de la Justice a pris de l’avance en lançant le portail « Répertoire des informations publiques du Ministère de la Justice » 15 qui contient, entre autres, des statistiques par juridiction et des informations cartographiques. 16

14 http://www.minefi.gouv.fr/directions_services/apie/index.htm

15 http://www.rip.justice.fr/

16

N.B. : pendant toute la durée de l’étude, les pages comprenant ces statistiques ont été inaccessibles. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

ont été inaccessibles. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010
ont été inaccessibles. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010
ont été inaccessibles. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010

14

Paysage des données ouvertes : historique et clarification du concept

La secrétaire d'État à la prospective et au développement de l'économie numérique Nathalie Kosciusko-Morizet, semble vouloir accélérer le pas sur le sujet ainsi que le laisse entendre l’ouvrage qu’elle a fait paraître fin octobre 2009 17 : « Mettre à la disposition de tous, sur des sites Internet dédiés et dans des formats homogènes, l’ensemble des données publiques (et non personnelles) dont l’État dispose et qui n’étaient auparavant accessibles que séparément, au prix de démarches individuelles fastidieuses. Des données économiques, fiscales, démographiques ou statistiques, qui jusqu’ici étaient collectées par les différentes administrations de l’État sans être accessibles ni surtout réunies.»

Un changement de cap aux États-Unis

Le président Obama en a fait l’un des axes forts de sa politique de gouvernance transparente : toutes les statistiques et données publiques de l’État fédéral des États-Unis ont vocation à être mises en ligne, à disposition de tous.

Pour ce faire, Vivek Kundra, « Chief Information officer » du président Obama, a lancé le site Data.gov, portail unique pour trouver, trier, télécharger et manipuler les données publiques. Libre au secteur privé d’imaginer des usages et services innovants à partir de ces gigantesques bases de données.

La bibliothèque du Congrès américain, l’une des nombreuses sources d’information fédérale, détient plus de 300 terabytes de données

fédérale, détient plus de 300 terabytes de données Library of Congress Digital Archive Source: Library of

Library of Congress Digital Archive Source: Library of Congress (via Wired)

Digital Archive Source: Library of Congress (via Wired) Le principe technique qui sous-tend cette politique est

Le principe technique qui sous-tend cette politique est que l’information doit être lisible par une machine (machine-readable) de manière à ce que non seulement l’information puisse être consultée mais également que des applications soient construites autour de ces données (de type mash ups).

Lancé début Juin 2009, le site contient environ un millier de bases de données, qui peuvent être triées par source ou par thème. Les données sont téléchargeables en différents formats (Cf. Section 3.2)

… précédés ou rejoints pas d’autres pays.

Le sujet n’est pas récent au Royaume-Uni. En mars 2006, sous le titre « rendez nous les joyaux de la couronne », deux journalistes du Guardian appelaient à une libération des données publiques, puisqu’elles sont financées avec les impôts des contribuables et

Paysage des données ouvertes : historique et clarification du concept

qu’elles n’ont pas à être revendues… parfois à d’autres entités de service public ! 18 En Juin 2009, le gouvernement britannique semble avoir entendu l’appel, et mandate officiellement Tim Berners-Lee « pour l’aider à ouvrir l’accès ou données du gouvernement » en créant un site unique, équivalent du data.gov états-unien 19 . L’OPSI – Office of Public Sector Information – a été chargé de rentre accessible les PSI (Public Sector Information). Son site propose notamment une rubrique où les usagers peuvent demander à ce que des données publiques soient « débloquées » 20 . Le portail data.gov.uk 21 a été lancé fin janvier 2010 et propose une galerie d’applications. 22

Au Danemark, la plate-forme Digitaliser.dk, mise en place par l’Agence nationale des télécommunications et des technologies de l’information, un espace ouvert aux contributions externes, permet de lister et de pointer vers les sources de données ouvertes. Plus généralement, la plate-forme se veut « un nouveau modèle de partenariat entre la communauté tech et le gouvernement, condition d’un dialogue plus direct entre le secteur public, les citoyens et les entreprises… ».

La Finlande apparaît comme un pays particulièrement dynamique sur le sujet : le gouvernement met à disposition ses catalogues de données ouvertes sur son site http://www.suomi.fi (uniquement dans la version finlandaise). En 2009, un concours intitulé « Apps for democracy Finland » a été lancé, invitant les développeurs à proposer les meilleurs mash ups à partir des API et des données ouvertes du gouvernement disponible sur suomi.fi. Le site du concours invite les concurrents à demander l’ouverture de nouvelles bases de données qui leur seraient nécessaires pour innover. L’initiative est portée par un consortium dans lequel figurent SOMUS (Social media for citizens and public sector collaboration), un projet de recherche de l’Université de Finlande et du Ministère des finances 23 .

En Australie,

des données agrégées sur

la santé des populations sont

mises à

disposition.

Les collectivités locales et les services publics s’y mettent aussi

Le mouvement semble gagner en granularité, poussé par les usagers de service public.

La ville de Vancouver a mis en place un catalogue de données ouvertes qui contient 18 bases de données – écoles, bibliothèques, éclairages publiques, maisons de quartier, résultats des élections municipales… –, malheureusement avec des formats non standardisés 24 .

Le district de Columbia à Washington (États-Unis) met à disposition 410 bases de données provenant de ses différentes agences : permis de construire, données sur la criminalité juvénile, font partie des téléchargements populaires. Les données sont

18

19

20

21

22

http://www.guardian.co.uk/technology/2006/mar/09/education.epublic

http://www.number10.gov.uk/Page20595

http://www.opsi.gov.uk/unlocking-service/OPSIpage.aspx?page=UnlockIndex

http://data.gov.uk/home

Pour une comparaison du portail britannique et du portail états-unien, cf. :
Pour
une
comparaison
du
portail
britannique
et
du
portail
états-unien,
cf. :

http://flowingdata.com/2010/02/04/data-gov-uk-versus-data-gov-which-wins/

23 http://www.mindtrek.org/2009/democracy_finland

24 http://data.vancouver.ca/datacatalogue/index.htm Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 16

16

Paysage des données ouvertes : historique et clarification du concept

notamment accessibles en RSS et XML 25 . A noter la qualité des métadonnées accompagnant chaque base de données.

La société de transport public TriMet à Portland a été précurseur dans la mise à disposition de ses données (horaires, arrivées effectives, détournements, tracés, programmation d’un déplacement…) via 4 web services. Son site dispose d’une galerie où sont exposées les applications, gratuites ou payantes, développées à partir de ses web services. 26 Les compagnies de transport de Boston 27 et San Francisco 28 ont suivi l’exemple de Portland.

Des associations d’habitants, des entreprises militent pour que les données de transport de leur ville soient mises à disposition, à l’image de TOPP « The Open Planning Project », entreprise sociale qui, entre autres, développe des applications en logiciel libre pour les collectivités locales, et milite pour un usage du Web au service d’une société plus ouverte et engagée 29 . TOPP a lancé un site appelant à l’ouverture des données de transport de New York. 30

l’ouverture des données de transport de New York. 3 0 En Europe, la ville de Londres

En Europe, la ville de Londres a ouvert en janvier 2010 son « datastore » 31 , contenant 200 « paquets de données » et une galerie d’applications réalisées à partir de ces

données. En France, la ville de Rennes ouvre le chemin et lance son initiative en Février

2010.

Un mouvement lent mais irréversible

Le partage et la diffusion des données publiques semblent aujourd’hui constituer un mouvement de fond certes lent, mais irréversible, car la prise de conscience des intérêts multiples qui en découlent n’est plus discutée. En revanche, les données venues des nouveaux services de l’immatériel et en particulier du web s’engouffrent dans la tendance des données ouvertes, sur un mode que l’on peut qualifier de désordonné.

2.2.3 …que s’approprie le monde du web…

Comme indiqué précédemment, les entreprises traditionnelles revendiquent depuis longtemps de pouvoir accéder à l’information publique, quitte à la payer au prix fort.

Mais les entreprises du Web se sont emparées de la problématique des données en ligne ouvertes avec une vigueur et une approche qui leur est spécifique.

25 http://data.octo.dc.gov/

26 http://trimet.org/apps/index.htm

27 http://www.boston.com/news/local/breaking_news/2009/08/coming_soon_iph.html

28 http://www.bart.gov/schedules/developers/appcenter.aspx

29 http://openplans.org/about/

30 http://nytransitdata.org/index.html

31 http://data.london.gov.uk/datastore/data-packages-launch

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 17

17

Paysage des données ouvertes : historique et clarification du concept

Trois éléments principaux sont venus nourrir leur intérêt pour la question :

Le traitement d’une information en croissance exponentielle : au fur et à mesure que la masse d’information mise à disposition en ligne croît, il devient de plus en plus difficile d’y trouver ce que l’on cherche. Afin que les machines puissent lire, traiter, ordonner, relier, exposer correctement les informations du web, il leur faut non seulement avoir accès aux sources, mais aussi disposer d’une compréhension sémantique. Les données ouvertes, respectant des standards de format, permettent cette utilisation du Web dans toute sa profondeur. Les tenants de cet argument considèrent qu’il s’agit d’une condition sine qua non d’un véritable web des connaissances.

Les entreprises du Web expérimentent depuis plusieurs années ce que nous pourrions qualifier de « demi-ouverture », dans la mesure où ces bases ne sont pas téléchargeables : en ouvrant gratuitement certaines de leurs API, ou en proposant un modèle économique de co-construction de la valeur assorti de partage de revenus, c'est- à-dire en laissant des tiers construire des services en mobilisant leurs bases de données, elles ont pu constater à quel point ceci était générateur de nouveaux services et créateur de valeur dans une logique écosystémique. Amazon qui a été l’entreprise pionnière en la matière n’a jamais regretté son choix, l’ouverture de son catalogue de biens culturels lui assurant un retour financier substantiel. Quand aux données cartographiques de Google maps, mises à disposition gratuitement (jusqu’à 50 000 géocodes par jour), leur succès n’est plus à démontrer. Les services qui s’appuient sur les Google maps ont explosé, au point que ces dernières représentent plus de 40% des mash ups réalisés sur le Web selon programmableweb 32 ; agences immobilières, circuits touristiques, services météos, cartes électorales, bons coins de pêche… les exemples d’usages sont pléthore. Résultat des courses, les services en ligne francophones utilisent les cartes de Google et non celles de l’IGN – Institut Géographique National !

le phénomène de fatigue des utilisateurs : les usagers du Web et en particulier des medias sociaux s’épuisent à se réinscrire, à recréer leur profil, à uploader à nouveau des données, chaque fois qu’ils découvrent un nouveau service ou qu’ils décident de changer de prestataire de service. En libérant les données personnelles de l’utilisateur, on lui restitue le droit de les transporter avec lui d’un service à un autre, ce qu’on appelle la portabilité des données. Dans une certaine confusion conceptuelle (f. infra 2.4), certains considèrent que données ouvertes et données portables participent d’une même philosophie du Web.

Si les acteurs privés engagés dans des démarches de données ouvertes ou semi- ouvertes ne sont pas encore très nombreux, le mouvement est réel. Les initiatives se multiplient dans :

les medias traditionnels et/où en ligne :

- Le New York Times 33 qui fête ses 150 ans, tient à jour depuis 1913 un index de l’ensemble des articles, sujets et noms cités dans ses colonnes. Le vénérable quotidien a décidé en 2009 de mettre sa base de données à disposition de tout un chacun, sous forme de données ouvertes (Linked data).

32 http://www.programmableweb.com/apis

33 http://data.nytimes.com/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

3 3 http://data.nytimes.com/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010

18

Paysage des données ouvertes : historique et clarification du concept

A fin janvier 2010, il affichait environ 10 000 entrées en format RDF (mais

aussi html), sous licence Creative Commons By, autorisant ainsi toutes les réutilisations, même commerciales. Le New York Times fournit d’autres APIs aux développeurs : The Article Search API, The Best Sellers API, The Campaign Finance API, The Community API, The Congress API, The Movie Reviews API, The NY State Legislature API, The Real Estate API, The Times Newswire API, The TimesPeople API, The TimesTags API.

- Le groupe mondial de l’information professionnelle, financière et juridique

Thomson Reuters s’est investi à deux titres dans le monde des « Linked data » 34 . Il est à l’origine de l’initiative Open Calais (cf. 3.2.2.1), qui vise à unifier les métadonnées relatives à tout texte publié sur internet. De plus

l’agence, au titre de contribution de départ à la base pervasive OpenCalais, a versé des milliers d’informations en format Linked data concernant des entreprises (descriptions, actionnariat, dirigeants…).

- CNET, le journal en ligne, filiale de CBS Interactive, a rejoint Thomson

Reuters dans Open Calais et publie en format « Linked data » 35 . Il utilise Open

Calais dans une double perspective : tout d’abord, cela lui permet de relier automatiquement des pages sur un thème donné à travers ses différentes publications comme avec les publications d’autres contributeurs d’Open Calais (ex : dans un article sur Zune, un lien derrière ce mot clé permettra d’afficher une agrégation d’articles, billets de blogs, vidéos, références… qui s’y rapportent). Jusqu’alors, ce travail était fait en mode semi manuel avec du RSS. Par ailleurs, CNET publie en données ouvertes certaines de ses informations commerciales, contribuant ainsi au nuage « linked data ».

TechCrunch 36 , le blog états-unien sur l'actualité du Web 2.0 a lancé sa CrunchBase, un annuaire des startups innovantes qui rassemble des informations sur des entreprises, personnes et investisseurs du secteur des technologies. Cette base de données est accessible via une API gratuite, qui ne requiert pas d’enregistrement préalable. Les données sont en contrat Creative Commons Attribution License [CC-BY], et sont initialement fournies au format JSON Une surcouche sémantique a été développée par Benjamin Nowack : Semantic Crunchbase

-

développée par Benjamin Nowack : Semantic Crunchbase - la culture : - Last.fm (également propriété du

la culture :

- Last.fm (également propriété du groupe CBS), ancêtre des sites de musique streamée, a ouvert une API qui permet à tout un chacun de construire sa propre programmation musicale en utilisant sa base de données, à diffuser

34 http://thomsonreuters.com/content/press_room/media/2009_01_14_Calais_40_Release

35 http://www.readwriteweb.com/archives/cnet_partners_with_thomson_reuters_on_linked_data.php

36 http://www.crunchbase.com/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

3 6 http://www.crunchbase.com/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010

19

Paysage des données ouvertes : historique et clarification du concept

sur le web, sur un PC ou un mobile. Là encore l’accès est gratuit. Des services sémantiques ont été construits en surcouche : http://lastfm.rdfize.com/ permet de faire des requêtes « avancées » et d’exploiter les bases de données de last.fm ; http://dbtune.org/last-fm/ fournit une représentaiton RDF des 10 derniers morceaux soumis sur « l’AudioScrobbler » de Last.fm…

- Music Brainz est une base de données musicale communautaire ouverte.

Le système référence des enregistrements d'œuvres, et non des œuvres en elles-mêmes. On y trouve 5 types de métadonnées : les albums (ou releases), c'est-à-dire les descriptifs d'enregistrements ; les artistes, interprètes comme compositeurs ; les labels ; les pistes (titre, durée, numéro d’ordre…) , les relations entre ces données – entre artistes (ex : membre d’un même groupe), entre artistes et albums, artistes et pistes etc. Le « contrat social » 37 de Music Brainz spécifie bien que les données brutes sont dans le domaine public et que les contenus qui ne sont pas des données sont sous licence Creative Commons. L’ensemble est accessible gratuitement.

- Netflix, le service nord américain de location à domicile de DVD et de

streaming de films et séries a ouvert plusieurs API. Outre son catalogue, il a livré un gigantesque jeu de données d’attention et de consommation de ses clients, et a organisé un concours de développeurs, « the one million dollar contest » qui visait à faire développer par des services tiers des algorithmes de recommandation qui augmenteraient de plus de 10% la pertinence des recommandations de contenus vidéos au sein du service Netflix.

- Linked Movie Database se présente comme une base de données

sémantique ouverte, dédiée à l’information cinématographique. La base contient à la fois des référencements en format RDF et des liens vers d’autres sources RDF externes dans le nuage sémantique (comme IMDB, Rotten Tomatoes, ou Freebase – cf. infra), qui se comptent par millions.

Métadonnées sémantiques permettant la recherche dans la base de données Linked data

Métadonnées sémantiques permettant la recherche dans la base de données Linked data

la cartographie

- Open Street Map est un fonds cartographique libre, qui utilise les données GPS collectées par la communauté de ses contributeurs ainsi que des données dans le domaine public. Open Street Map a récemment fait la

37 http://musicbrainz.org/doc/SocialContract Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 20

20

Paysage des données ouvertes : historique et clarification du concept

démonstration de son efficacité à l’occasion du tremblement de terre à Haïti :

dans les jours qui ont suivi l’évènement, les contributeurs ont nourri la carte de Port-au-Prince, y notant l’emplacement des camps de réfugiés et des immeubles effondrés. Cette carte a été utilisée par les Nations Unies pour organiser les secours 38 .

la finance

La bourse de New York - New York stock exchange – fournit un accès libre à ses données historiques 39 .

-

le commerce en ligne :

-

la grande distribution : Tesco, acteur majeur de la grande distribution au

Royaume-Uni, en Irlande et en Asie, a ouvert largement ses API aux développeurs depuis l’été 2009 : catalogue de produits, informations détaillées sur les produits (valeur nutritive…), produits favoris des clients… les développeurs sont invités à proposer toutes sortes d’applications aux clients de Tesco, y compris des comparateurs de prix, de qualité, des boutiques de détail 40 … au point que Tesco donne l’impression de laisser le développeur s’immiscer entre lui et son client. Le marketeur blogger Patricio Robles le justifie ainsi : « By offering up a robust API to developer affiliates, Tesco is almost certainly hoping to encourage far more investment in its affiliate program. Developer affiliates are given a greater incentive to build attractive user experiences that can attract loyal users (and in turn 'lifetime' commissions) and customers get the choice to conduct business with Tesco through a variety of user experiences that may be more desirable than those currently offered by Tesco itself. In theory, it's a win-win-win. » 41 .

BestBuy, qui représente 20% du marché états-unien de l’électronique grand public lui a emboité le pas.

-

-

Les informations produites par les consommateurs sur les produits :

ProducWiki est un site d’évaluation et de recommandation de produits, nourri par la communauté d’internautes, ce qui en garantit la valeur. Les 20000

données de ProductWiki ont été converties au format Linked data durant l’été

2009.

la qualification du Web : BackType (Voir 4.3)

Ce mouvement s’effectue dans une effervescence désordonnée : qui ouvre quoi et jusqu’où pour qui ? Le débat est loin d’être tranché chez les acteurs du Web.

38 Voir l’article du site de Libération http://www.ecrans.fr/Haiti-Mobilisation-autour-d-une,8961.html

39 http://www.nyxdata.com/nysedata/default.aspx?tabid=115

40 http://techfortesco.blogspot.com/2009/07/tonight-i-have-written-to-our-150.html

41 http://econsultancy.com/blog/4268-tesco-opens-up-its-db-offers-affiliates-lifetime-commissions

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 21

21

Paysage des données ouvertes : historique et clarification du concept

2.2.4 …encouragé par les utilisateurs.

Les utilisateurs ne sont pas en reste lorsqu’il s’agit de promouvoir les données ouvertes.

On peut classer leurs interventions en trois catégories :

La revendication d’un accès aux données publiques (cf. supra 2.2.1 et 2.2.3).

L’usage, voire le détournement des données publiques lorsque celles-ci sont mises à disposition. Ainsi, le site datamasher.org est un outil destiné à croiser (masher) plusieurs sources de données publiques provenant de bases différentes. Libre à chacun de croiser le montant des dépenses des États-Unis avec celui du niveau de prélèvement fiscal, ou le niveau de criminalité avec le niveau de chômage… Le site français nosdeputes.fr collecte et croise les données éditées sur le site de l’assemblée nationale et au journal officiel pour effectuer une veille sur l’activité des parlementaires (présence, prises de parole, questions orales…). Son homologue britannique theyworkforyou.com permet un suivi parlement par parlement (écossais, irlandais, anglais ou gallois), député par député, thème par thème.

La production de données ouvertes. De plus en plus d’utilisateurs du web sont prêts à mutualiser des données dont ils sont les « émetteurs » ou à défaut les « collecteurs ». Le site patientslikeme.com permet à tout un chacun de partager son profil de santé, nourrissant ainsi des bases de données pour la recherche médicale, mais aussi d’échanger entre malades. Partant de l’affirmation que « le manque d’ouverture dans la médecine nous rend malades », la philosophie de la démarche est clairement affichée sur le site “we need to do is let the data flow and the information become meaningful. Our collective goal is to ensure that healthcare gets better, quality is improved, and yes, treatments are developed faster. That is what we stand for and that is what we are working to do”. Elle est accompagnée d’une “Déclaration des droits sur les données de santé”.

Declaration of Health Data Rights

In an era when technology is allowing personal health information to be more easily stored, updated, accessed and exchanged, the following rights should be self-evident and inalienable. We the people:

• Have the right to our own health data

• Have the right to know the source of each health data element

• Have the right to take possession of a complete copy of our individual health data, without delay, at minimal or no cost; If data exist in computable form, they must be made available in that form

• Have the right to share our health data with others as we see fit

These principles express basic human rights as well as essential elements of health care that are participatory, appropriate and in the interests of each patient. No law or policy should abridge these rights.

Source : http://blog.patientslikeme.com/2009/06/22/patients_like_me_declare/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 22

22

Paysage des données ouvertes : historique et clarification du concept

Les exemples cités précédemment de Music Brainz, Linked Movie database et Open Street Map illustrent également cette approche UGC – User Generated Content – des données ouvertes puisque ces trois bases sont également nourries par les utilisateurs, en mode ouvert.

A côté des données déclaratives, d’autres utilisateurs choisissent de mutualiser leurs traces. Sur le site Nokia sport tracker 42 , des coureurs de fonds dotés d’un Nokia équipé de GPS et d’une application dédiée, partagent leurs parcours et leurs performances sportives (durée des courses, vitesse, points les plus élevés du parcours…).

porté par BBC World, propose de dresser une carte

sonore du monde, à partir des sons postés par les utilisateurs. Écoutez le croassement de

la grenouille de Tasmania, les cris des vendeurs du marché de Yangon, ou les sirènes des voitures de police à New York.

Le site saveoursounds.org,

Enfin, prenant acte de la profusion croissante de capteurs dans notre environnement, un site comme Pachube.com propose de mutualiser les données colletées de type consommation énergétique des immeubles, informations météo, données de transports ou encore agricoles… construisant ainsi un fonds cartographique exploitable par tous.

2.3 Arrêt sur image : les discours des figures du Web

L’analyse des discours des personnalités du web témoignent essentiellement d’un flou conceptuel, tant autour des termes utilisés à propos des données du Web dites ouvertes, que des qualités que l’on accorde à ces dernières.

Cette approximation est symptomatique d’un champ d’innovation dans lequel le rythme de lancement des services s’accorde mal à celui d’un travail plus théorique.

Côté américain, nous avons analysé essentiellement les discours de :

Tim Berners-Lee, dont sa fameuse intervention à TED 43

Tim O’Reilly, des éditions O’Reilly et co-inventeur du concept web 2.0 et John Battelle,

journaliste, auteur de La révolution Google, à travers leur texte de référence « Web Squared: Web 2.0 Five Years On » 44

Vivek Kundra, chief information officer du Gouvernement Obama

ainsi que des articles des principaux éditorialistes des publications en ligne de

référence comme Wired ou ReadWriteWeb… (Cf. Sources)

42 http://sportstracker.nokia.com/nts/main/index.do

43 http://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html

44 http://www.web2summit.com/web2009/public/schedule/detail/10194

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 23

23

Paysage des données ouvertes : historique et clarification du concept

Côté français, nous nous référons entre autres aux articles de Hubert Guillaud « critiques du web » et de Frédéric Cavazza « Web Squared, transition vers le web 3.0 ou nouveau paradigme ? »

Les points principaux qui ressortent de leurs discours :

Une conviction forte que les données, quoi qu’il arrive, vont s’ouvrir (O’Reilly et Battelle).

Une volonté de convaincre que les données doivent s’ouvrir – approche « évangéliste » (Tim Bernars Lee, Alexander Korth).

Les données réelles et les données du web sont amenées à se croiser (O’Reilly et Battelle).

Les données sont belles (Andrew Vande Moere). La dimension esthétique des données et de leurs usages sous-tend un mouvement qui croise le monde du design, de l’art 45 et de la publicité (ex : Sprint 46 ).

Les données constituent une ressource économique forte : « Les entreprises doivent apprendre à exploiter des données temps réel comme des signaux essentiels qui alimentent une boucle de rétroaction beaucoup plus efficace pour le développement de produits, le service à la clientèle, et l’allocation des ressources » (O’Reilly et Battelle). Les données ouvertes permettent de « fabriquer des applications qui créent de la valeur et des opportunités économiques » (Vivek Kundra).

Les données ouvertes sont la base d’une intelligence collective croissante (O’Reilly et Battelle).

Les données libérées et reliées sont indispensables à la recherche scientifique, à l’innovation et doivent permettre de faire face aux grands défis de l’humanité (Tim Bernars Lee).

Elles permettent de rendre la gestion du monde meilleure (Tim Bernars Lee).

2.4 Confusions autour du concept : essais de clarifications

A travers ce survol, on sent pointer différentes confusions ou approximations autour des données ouvertes que nous tentons ici d’éclaircir :

45 http://infosthetics.com/

46 http://now.sprint.com/widget/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

6 http://now.sprint.com/widget/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 -

24

Paysage des données ouvertes : historique et clarification du concept

2.4.1 Où commencent et où s’arrêtent les données ?

Comme souvent avec les buzz words, ils ont tendance à « avaler » leur environnement, à jeter dans l’ombre des concepts connexes. Ainsi, la mode est au « web des données », qui tend à éclipser le document numérique.

La littérature semble entretenir une confusion entre 4 concepts :

- les métadonnées

- les données

- les contenus

- les documents numériques

Cette confusion découle de plusieurs évolutions du monde numérique :

Si historiquement les documents numériques désignaient plutôt des documents écrits, et les contenus faisaient référence au multimédia (images, vidéos, sons), cette frontière a depuis longtemps disparu, « document numérique » devenant le terme générique, « contenus » étant utilisé comme synonyme.

Certains, à l’image de Frédéric Cavazza, considèrent que le Web 1.0 était une plateforme pour les documents, le Web 2.0 une plateforme pour les individus et le Web 3.0, une plateforme pour les données. Même si cette structuration nous semble simpliste, elle est éclairante sur le point qui nous occupe ici.

Dès le début du Web, les industries culturelles se sont approprié le terme « contenus numériques », ce qui explique que chez certains auteurs, ces derniers réfèrent souvent à des contenus payants de type musique en ligne, ou VoD. Mais d’autres univers lui conservent un sens plus neutre. Un cours universitaire en ligne ou une information de santé est alors un contenu au même titre qu’une vidéo.

Les métadonnées sont censées qualifier, donner du sens à un document (ou à un contenu). Circulant avec ces derniers, elles ont tendance à être de plus en plus confondues avec eux.

Du point de vue juridique, les catégories ne peuvent être confondues : les contenus ou documents numériques sont protégés par le droit d’auteur (copyright aux États-Unis), alors que les données brutes sont protégées par un droit sui generis en Europe et ne sont pas protégées en droit américain, sauf à leur adjoindre un contrat (cf. infra 3.1).

Le projet politique de Tim Berners Lee porte clairement sur les deux premiers niveaux : il faut libérer les données publiques brutes « free raw data » et il faut les relier « linked data », ceci à travers les métadonnées associées ou via la structuration sémantique des données (RDF). Le qualificatif « raw » (« brut », en français) est absolument essentiel dans la compréhension de ce courant : il s’agit de données non traitées, non analysées 47 . Il faut libérer les données brutes pour que d’autres puissent les exploiter et construire du sens autour (à travers des services et des documents numériques).

47 Voir la définition proposée par Wikipedia : http://en.wikipedia.org/wiki/Raw_data Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 25

25

Paysage des données ouvertes : historique et clarification du concept

Mais le plus souvent, il n’apparaît pas clairement dans la plupart des textes si l’appel à l’ouverture porte sur l’une ou/et l’autre de ces catégories. Certains considèrent par extension qu’une photo (donc un document numérique) postée dans Flickr sous une licence CC est une donnée ouverte.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

licence CC est une donnée ouverte. Web des données, données ouvertes © Sofrecom pour FT R&D

26

Paysage des données ouvertes : historique et clarification du concept

2.4.2 De quelles données parle-t-on ?

Nous pouvons distinguer trois grandes catégories de données sur le Web en fonction du producteur de ces données, dont nous proposons les définitions suivantes :

Données brutes produites Données brutes produites par des individus par des individus ex : âge,
Données brutes produites
Données brutes produites
par des individus
par des individus
ex : âge, avatar, genre,
ex : âge, avatar, genre,
Données brutes produites
Données brutes produites
commentaires
commentaires
par des entités publiques
par des entités publiques
ex : statistiques
ex : statistiques
démographiques,
démographiques,
résultats scientifiques
résultats scientifiques
Données brutes produites
Données brutes produites
par des entreprises
par des entreprises
ex : catalogues, annuaires…
ex : catalogues, annuaires…

Les données produites par des individus : par défaut, ce sont des données personnelles et en tant que telles protégées par la réglementation en matière de protection de la vie privée et des données personnelles. Cependant, certaines données produites par les utilisateurs appartiennent au service qui les héberge, selon ce qui est indiqué dans les conditions d’usage.

Les données produites par des entreprises privées (site de e commerce) ou publiques (IGN et ses données cartographiques) : elles peuvent être vendues (cas général) ou mises à disposition gratuitement (ex : base de données de livres Amazon via l’API).

Les données produites par des acteurs publics (gouvernements, collectivités locales, universités, centres de recherche, instituts statistiques, dans certains cas entreprises de service public…) : leur collecte a été financée sur fonds publics.

Chaque catégorie de données a plus ou moins vocation à être ouverte, à devenir des données de domaine public ou de bien commun. Par « bien commun », nous désignons ici des données qui étaient au départ « privées », mais dont les propriétaires (individuels ou collectifs) ont choisi de les « libérer » ou de les ouvrir afin d’en faciliter la circulation et la réutilisation. Ce qui suppose un acte volontaire et manifeste de leur part, qui peut se manifester par exemple à travers le choix d’une licence ad hoc (cf. section 3).

De façon simplifiée, on peut dire que les données produites par des entités publiques ont par nature davantage vocation à devenir des données de bien public ou de bien commun. En tout cas, c’est le point de vue que défendent les partisans en faveur des données ouvertes.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

en faveur des données ouvertes. Web des données, données ouvertes © Sofrecom pour FT R&D -

27

Paysage des données ouvertes : historique et clarification du concept

Données ouvertes

Données ouvertes

Données brutes produites Données brutes produites par des entités publiques par des entités publiques ex
Données brutes produites
Données brutes produites
par des entités publiques
par des entités publiques
ex : statistiques
ex : statistiques
démographiques,
démographiques,
résultats scientifiques
résultats scientifiques
Mouvement open data
Mouvement open data

Données fermées

Données fermées

Pour les données produites par les individus, la situation est plus contrastée. On constate un triple mouvement, en tension : d’une part les individus ont tendance à exposer de plus en plus de données qui les concernent directement et dont ils sont producteurs, brouillant ainsi les frontières entre l’intime et le public. De fait, les données dites personnelles le sont de moins en moins dans la représentation des internautes. Simultanément, les débats sur la protection de la vie privée et des données personnelles s’amplifient, y compris du côté des institutions, comme la Commission Européenne qui en a fait un enjeu majeur pour 2010. Enfin comme décrit précédemment, les données UGC volontairement partagées se multiplient sur le Web. La ligne de partage entre données à protéger (et donc à fermer) et données à faire circuler est aujourd’hui totalement mouvante.

Données ouvertes Données ouvertes Données placées Données placées en bien commun en bien commun Données
Données ouvertes
Données ouvertes
Données placées
Données placées
en bien commun
en bien commun
Données brutes produites
Données brutes produites
par des individus
par des individus
ex : âge, avatar, genre,
ex : âge, avatar, genre,
commentaires
commentaires
Données « privatisées »
Données « privatisées »
par les services qui les
par les services qui les
Données personnelles
Données personnelles
hébergent
hébergent

Données fermées

Données fermées

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

ex : commentaire sur Facebook

ex : commentaire sur Facebook

ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- ex : commentaire sur Facebook

28

Paysage des données ouvertes : historique et clarification du concept

Quand aux données produites par d’entreprises :

des entreprises,

on doit

distinguer

trois types

Les entreprises à but non lucratif : bien qu’elles constituent un cas marginal à l’échelle de l’économie, elles doivent être mentionnées puisqu’elles sont au premier chef productrices de données de bien commun. C’est le cas de Music Brainz, mentionné précédemment.

Les entreprises assumant des fonctions de service public (sans nécessairement en avoir le statut) de type transport, énergie, communications… (« utilities », en anglais). On peut penser que l’intérêt général justifie que des données qui, en droit, sont privées (parce qu’elles sont collectées par des entreprises privées et ne rentrent pas dans le cadre des obligations légales de l’information publique), soient considérées comme ouvertes. Actuellement, plusieurs mouvements (cf. supra) plaident en faveur de l’ouverture des données de transports collectifs, que ceux-ci soient déployés par des entreprises privées ou publiques.

Au Royaume-Uni, ce sont les codes postaux qui font l’objet d’une polémique, à front renversé : une petite entreprise privée (deux développeurs) intitulée ernestmarples.com (du nom de l’inventeur des codes postaux) a ouvert une API permettant à des sites tiers de construire des services autour de ces indications de localisation, les plaçant ainsi de fait en statut de bien commun. Ce qui fut fait : JoB Centre Pro Plus propose un service pour rechercher des emplois près de son domicile, The Straight Choice permet de remplir des documents électoraux en fonction du quartier etc. C’est la « Royal mail » qui a attaqué ernestmarples.com, l’obligeant à fermer immédiatement son API, au prétexte qu’elle lui porte un préjudice financier puisque Royal mail vend le même service, pour la modeste somme de 4000 £ par an et par licence (4290 €).

A moyen terme, la question va également se poser pour les données collectées par les machines. Les consommations d’électricité relevées par les compteurs équipés de capteurs et reliés au réseau sont-elles, une fois agrégées (par quartier, par ville, par zone de densité supérieure à un seuil…), des données privées ou des données de bien commun, permettant de verser ces informations dans l’espace public a minima pour débat, a maxima pour imaginer d’autres services ? La question est d’autant plus discutable que le marché de l’électricité a été ouvert à la concurrence.

Pour l’heure, la pression monte en faveur de l’ouverture de données dans le domaine des transports (Cf. 4.2). On retrouve ici la question de la mise en tension avec la protection des données personnelles : quelles sont les données qui ont vocation à être ouvertes et celles qui doivent demeurer fermées pour ne pas porter atteinte à la vie privée ? Exemple : lorsqu’une entreprise en charge du réseau de bus urbain met à disposition les horaires et retards de ses véhicules, elle ouvre l’équivalent de son « catalogue ». Si elle décidait d’ouvrir les données de flux (comme la fréquentation des lignes selon les horaires), elle utiliserait des données produites par les utilisateurs lors de leur passage au contrôle. Mêmes agrégées et anonymisées, ces données ne doivent-elles pas rester fermées ? le débat est ouvert.

Les entreprises commerciales classiques : comme évoqué plus haut, la logique historique est de se situer dans le bas du schéma ci-dessous, entre données fermées et données commercialisées. Cependant, avec l’ouverture des API, de plus en plus d’entreprises du Web se proposent de placer tout ou partie de leurs bases de données en bien commun.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

bases de données en bien commun. Web des données, données ouvertes © Sofrecom pour FT R&D

29

Paysage des données ouvertes : historique et clarification du concept

Données ouvertes

Données ouvertes

Données de bien commun, Données de bien commun, mises à disposition gratuitement mises à disposition
Données de bien commun,
Données de bien commun,
mises à disposition gratuitement
mises à disposition gratuitement
via une API ou en téléchargement
via une API ou en téléchargement
Données brutes produites
Données brutes produites
par des entreprises
par des entreprises
ex : catalogues, annuaires…
ex : catalogues, annuaires…
Données
Données
commercialisées
commercialisées
(Licence, API payante)
(Licence, API payante)
Données cœur de valeur
Données cœur de valeur

Données fermées

Données fermées

Néanmoins, les entreprises du Web ont tendance à monétiser l’exploitation des données produites par les utilisateurs. C’est évidemment le cas pour la publicité contextuelle et surtout comportementale, qui recense les comportements en ligne des internautes pour soumettre à son attention la publicité la mieux profilée possible. En matière de données, on constate également l’apparition de services qui construisent leur valeur sur l’agrégation de données produites par les utilisateurs. Ainsi, le service Backtype (Cf. 4.3) agrège les commentaires des internautes et les fait circuler via une API. Ou encore le service Tastonomics 48 agrège les goûts culturels de ses utilisateurs en puisant les données ouvertes par Netflix, Blockbuster, Hulu… De facto des données que l’on pourrait considérer comme personnelles sont mises en circulation. Dans les deux cas, ce partage est soumis au consentement préalable des utilisateurs, ce qui en principe évite tout mésusage. Mais pour les raisons évoquées ci-dessus, la perception de l’exposition et la valeur du consentement évoluent considérablement dans la période actuelle.

48 http://www.tastonomics.com/#guest

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

http://www.tastonomics.com/#guest Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

30

Paysage des données ouvertes : historique et clarification du concept

Données ouvertes

Données ouvertes

Données de bien commun, Données de bien commun, Données placées Données placées mises à disposition
Données de bien commun,
Données de bien commun,
Données placées
Données placées
mises à disposition gratuitement
mises à disposition gratuitement
en bien commun
en bien commun
via une API ou en téléchargement
via une API ou en téléchargement
Données brutes produites
Données brutes produites
Données brutes produites
Données brutes produites
par des individus
par des individus
par des entreprises
par des entreprises
ex : âge, avatar, genre,
ex : âge, avatar, genre,
ex : catalogues, annuaires…
ex : catalogues, annuaires…
commentaires
commentaires
Données
Données
commercialisées
commercialisées
(Licence, API payante)
(Licence, API payante)
Données personnelles
Données personnelles
Données cœur de valeur
Données cœur de valeur
Nouveaux services
Nouveaux services

Données fermées

Données fermées

Au final, à qui appartiennent véritablement les recommandations, les commentaires, les notations, les réseaux d’amis, les interactions entre utilisateurs ? Si les conditions générales d’utilisation tranchent souvent en faveur d’une propriété du site qui les héberge, ceci évoluera certainement sous la pression des utilisateurs.

A l’écoute du discours de Tim Bernars-Lee à la TED conference ou à la lecture de son

data online » 49 , on constate qu’il parle exclusivement de

article « putting government

données publiques, c'est-à-dire de données produites par des pouvoirs publics (États, collectivités territoriales, services publics) et non de données produites par les utilisateurs du Web.

Mais les articles qui reprennent cette intervention ne font pas cette distinction et se contentent de parler de données en général, alors qu’à l’évidence le régime d’ouverture comme sa justification ne peut être le même selon que l’on se situe dans l’une ou l’autre catégorie.

Chez O’Reilly et Battelle, ce glissement est assumé et justifié : « Il y a une compétition actuellement pour s’emparer du graphe social. Mais nous devons nous demander si ce service est si essentiel qu’il doive être accessible à tous. » Autrement dit, après l’ère du Web 2.0, vue « comme une course à l’acquisition et au contrôle de fonds de données », à l’ère du Web squared de plus en plus de données « ont déjà toutes les caractéristiques de services essentiels, d’infrastructures du système ».

On retrouve ici la philosophie qui sous-tend les « commons » : point n’est besoin de faire décréter par une instance de puissance publique le recours à une qualité de service

49 http://www.w3.org/DesignIssues/GovData.html

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 31

31

Paysage des données ouvertes : historique et clarification du concept

d’intérêt général. Libre à la communauté qui génère cette ressource (ici : la communauté des acteurs du web social qui co-construisent le graphe social à partir des données des utilisateurs) de la « communiser », autrement dit de la sortir du champ de la propriété privée.

Or, le risque qui pointe ici est d’éroder nos libertés, la protection de notre vie privée, au nom d’un intérêt dont on peut légitimement douter du caractère « général ».

2.4.3 Une tentative de définition pour les données publiques ouvertes

Sensibles au flou qui règne autour de la notion de données ouvertes, une trentaine de figures du Web des États-Unis se sont réunies dès décembre 2007 à Sébastopol (Californie) pour définir « les huit principes pour des données gouvernementales ouvertes ». Parmi ces personnalités, outre Tim O’Reilly et Carl Malamud (Public.Resource.Org), initiateurs de la réunion, on trouve Lawrence Lessig (Stanford University), David Moore (Participatory Politics), Aaron Swartz (Open library) ou encore J.L. Needham (Google).

Un travail équivalent semble nécessaire pour les données qui ne sont pas de source publique. Certains principes semblent pouvoir être transposables, comme ceux de l’accessibilité (les données sont rendues disponibles au plus grand nombre pour la plus grande diversité d’usages possibles), la possibilité de traitement par les machines (les données sont suffisamment structurées pour permettre un traitement automatisé), la non discrimination (les données sont disponibles à quiconque, sans nécessité d’enregistrement préalable).

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

d’enregistrement préalable). Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 -

32

Paysage des données ouvertes : historique et clarification du concept

Open Government Data Principles

Government data shall be considered open if they are made public in a way that complies with the principles below:

1. Complete

All public data are made available. Public data are data that are not subject to valid privacy, security or privilege limitations.

2. Primary

Data are collected at the source, with the finest possible level of granularity, not in aggregate or modified forms.

3. Timely

Data are made available as quickly as necessary to preserve the value of the data.

4. Accessible

Data are available to the widest range of users for the widest range of purposes.

5. Machine processable

Data are reasonably structured to allow automated processing.

6. Non-discriminatory

Data are available to anyone, with no requirement of registration.

7. Non-proprietary

Data are available in a format over which no entity has exclusive control.

8. License-free

Data are not subject to any copyright, patent, trademark or trade secret regulation. Reasonable privacy, security and privilege restrictions may be allowed.

Compliance must be reviewable.

2.4.4 Que met-on derrière le terme « open » (ouvert) ?

Parmi les scientifiques à l’origine du terme, « open » se réfère à un courant de pensée politique et d’action cohérent, dont le logiciel libre, ou logiciel open source est la référence historique, mouvement qui milite plus largement en faveur de connaissances libres de circuler (open knowledge).

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

de circuler (open knowledge). Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

33

Paysage des données ouvertes : historique et clarification du concept

Si parmi les acteurs du web qui se sont emparés de la problématique des données ouvertes, certains sont parfaitement conscients de cette consanguinité entre open data et open source et en assurent même sa promotion (ex : O’Reilly ou Tim Berners-Lee), d’autres manipulent le terme « open » sans en mesurer la portée.

On sait que dans le monde du mobile, « Open OS » ne se réfère pas à un OS en logiciel libre, sous Linux par exemple, mais au fait que l’opérateur peut lui-même installer des applications sans dépendre de l’équipementier. Autrement dit, l’OS est ouvert pour l’opérateur mais fermé aux fournisseurs de service (cf. les récentes controverses autour de la prise de position de la FCC en faveur d’une neutralité du net étendue au monde du mobile).

On constate des glissements sémantiques équivalents lorsque l’on parle d’innovation ouverte. Alors que l’innovation ouverte au sens fort du terme implique un partage de la valeur incarnée par les droits de propriété intellectuelle, le terme open innovation est utilisé de plus en plus souvent sur un mode galvaudé pour désigner toute forme d’innovation qui n’est pas purement « in house » et qui associe des tiers (start ups avec opération de capital risque par exemple).

Pour en revenir aux données dites ouvertes, le degré d’ouverture peut se mesurer à l’aune de différents indicateurs :

Degré et mode d’exposition. Ex : les informations du journal officiel ont toujours été publiques, mais l’exposition n’est pas la même selon qu’on y accède via l’édition papier ou via un site en ligne.

Gratuité ou non de la mise à disposition.

Capacité de réutilisation par un tiers. Il est essentiel de distinguer ici les données réutilisables à travers une API ou un fil RSS de celles qui sont exportables hors de la source (en Dump ou téléchargement). Dans le premier cas, les données restent stockées dans le service d’origine et sont simplement exposées chez un tiers ; dans le second, elles peuvent être stockées, manipulées, transformées et remises en circulation par le tiers.

Propriété intellectuelle des données/de la base de données (cf. section 3.1).

Format des données. Les données peuvent être mises à disposition dans quantité de formats plus ou moins propriétaires, plus ou moins standardisés, et plus ou moins sémantiques. Ceci va conditionner non seulement leur capacité à circuler, mais aussi la possibilité de les articuler entre elle, de les relier, de les croiser, et ce faisant de les exploiter dans toute la profondeur possible des ontologies (cf. section

3.2).

Unicité et/ou réplicabilité possible des données : les données mises à disposition existent-elles par ailleurs et est-il possible de recréer ce jeu de données. Ce critère semble important car l’accès possible d’un développeur à des données équivalentes peut pousser un acteur à effectivement ouvrir ses données (cf. section 4.2 et les données de transports).

2.4.5 Données du monde réel et données du web

Les acteurs du Web agglomèrent souvent dans leur discours les données qui sont nées dans le monde réel (ex : le nombre de voitures qui passent dans une rue chaque jour ou le nombre d’immigrés reconduits à la frontière) et les données qui sont produites dans le

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

données qui sont produites dans le Web des données, données ouvertes © Sofrecom pour FT R&D

34

Paysage des données ouvertes : historique et clarification du concept

web directement (ex : les visites d’une page, les commentaires, les identités virtuelles etc.).

La différence n’est pas neutre, ne serait-ce qu’en termes de coût de recueil de l’information, de sa numérisation et de sa mise à disposition.

Elle est également essentielle en termes de propriété intellectuelle et de vie privée : la donnée fournie par un capteur sur un poteau électrique ou la donnée fournie par un utilisateur au cours de sa navigation n’auront évidemment pas les mêmes statuts.

Au contraire, Tim O’Reilly et John Battelle font de cette distinction la pierre angulaire de leur Web Square. C’est bien parce qu’il y a désormais possibilité de croisement cumulatif entre ces deux catégories de données que le web entre dans une nouvelle étape structurante de son développement.

Monde réel Monde réel Monde du web Monde du web Data produites par monde Data
Monde réel
Monde réel
Monde du web
Monde du web
Data produites par monde
Data produites par monde
Data produites par le web
Data produites par le web
réel
réel
Fermées Fermées
Fermées
Fermées
Fermées Fermées
Fermées
Fermées

Debut du web

Debut du web

Fermées Fermées Ouvertes Ouvertes Fermées Fermées
Fermées
Fermées
Ouvertes
Ouvertes
Fermées
Fermées

Ouverture du web

Ouverture du web

Fermées Fermées Ouvertes Ouvertes Ouvertes Ouvertes Fermées Fermées
Fermées
Fermées
Ouvertes
Ouvertes
Ouvertes
Ouvertes
Fermées
Fermées

“Open data”

“Open data”

Services sur données Services sur données Fermées Fermées Fermées Fermées ouvertes ouvertes
Services sur données
Services sur données
Fermées
Fermées
Fermées
Fermées
ouvertes
ouvertes

Web square

Web square

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web square Web square Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

35

Paysage des données ouvertes : historique et clarification du concept

2.4.6 Concepts connexes

Plusieurs termes connexes à celui d’open data circulent dans la littérature que nous essayons de clarifier ici :

Linked data

Il s’agit de groupes de données (data set) connectés entre eux. Chaque donnée enrichit les autres et multiplie la valeur du tout. C’est certainement le concept le plus clair et le plus structuré.

Il est porté par Tim Bernars Lee, fondateur du Web et directeur du W3C.

Ce concept n’est pas substitutif, mais complémentaire à celui d’open data : les données sont considérées non pas tant du point de vue des stocks mais de celui des flux, en considérant que la valeur d’usage se situe dans les liens que l’on établit entre les données, dans la capacité à les relier. Il s’intéresse plus aux métadonnées qu’aux données en général.

Implied metadata

Ce terme, cité brièvement par O’Reilly et Battelle dans leur article, a été repris par Dion Hinchcliffe 50 , puis explicité par Fred Cavazza 51 , dans leur analyse respective du Web Square. Selon ce dernier, il s’agit de métadonnées générées automatiquement, sans que les utilisateurs aient eu à les saisir, ce qui explique qu’elles soient « implicites », à l’image des coordonnées GPS ajoutées par un appareil photo, ou du travail que propose la plateforme Open Calais (cf. section 3.2.2.1).

Data empowerment

Littéralement, des données « ayant repris le pouvoir sur elles-mêmes ». Ce terme a été mis en avant par Peter Swire, un professeur de droit membre de l’équipe de transition d’Obama et cité par le New York Times 52 , alors qu’il pointait les contradictions entre le mouvement en faveur de la protection de la vie privée et celui du Web 2.0, dans lequel les données sont « empowered ». Le premier a toujours prôné une « minimisation des données » (moins on conserve d’information sur les individus, moins celle-ci risque d’être exploitée par les gouvernements ou les entreprises). Dans le Web 2.0, les individus rassemblent et contrôlent des informations sur eux-mêmes à travers les réseaux sociaux en ligne et autres medias sociaux. L’accès aux données peut créer des mouvements politiques et sociaux, comme les volontaires qui se sont auto organisés pendant la campagne Obama.

50

http://web2.socialcomputingjournal.com/the_evolving_web_in_2009_web_squared_emerges_as_web_20_mai

.htm

51 http://www.fredcavazza.net/2009/07/24/web-squared-transition-vers-le-web-30-ou-nouveau-paradigme/

52 http://bits.blogs.nytimes.com/2009/06/02/the-obama-adminstrations-silence-on-privacy/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v- 36

36

Paysage des données ouvertes : historique et clarification du concept

Actionable data

Littéralement, les données susceptibles d’être « actionnées », mobilisées, sollicitées.

C’est le terme mis en avant par Ken Fromm dans un article du Read Write web 53 pour désigner les données exposées et rendues accessibles, qu’il considère comme une dimension fondamentale de ce qu’il intitule le « real-time web ». Il propose les « actionable data » comme alternative aux « linked data », terme trop complexe selon lui et attaché à une approche spécifique (RDF / W3C).

Portable data

Les données portables désignent des données personnelles auxquelles on a donné les moyens juridiques et techniques d’être transportées par leur propriétaire, d’un service web à un autre. Ce sujet reste très controversé comme l’a montré récemment Google en empêchant les utilisateurs de son réseau social Orkut d’utiliser la fonction d’export de leurs données pour les empêcher de migrer vers Facebook en Inde 54 .

53 http://www.readwriteweb.com/archives/the_real-time_web_a_primer_part_3.php

54

http://www.techcrunch.com/2009/10/01/google-has-a-plan-to-stop-the-mass-exodus-from-orkut-no-friend-

exports-for-you/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

exports-for-you/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

37

Vers une structuration de l’écosystème des données ouvertes

3

Vers une structuration de l’écosystème des données ouvertes

Dans ce monde en émergence et effervescence, quelques initiatives voient le jour, qui cherchent à lever les obstacles techniques et juridiques à la circulation des données.

Derrière ces initiatives commence à se dessiner un écosystème mouvant des données ouvertes.

3.1 Lever les obstacles juridiques : l’émergence de licences ouvertes pour les données

Rappel sur le droit des bases de données en Europe et aux États-Unis

Une base de données est composée de 3 objets : le programme qui permet le fonctionnement ainsi que l’utilisation de la base, et qui est soumis au droit d’auteur ; la structure de la base ; et enfin les éléments de contenu de la base. Sur ces deux derniers points, qui sont ceux qui nous intéressent pour l’heure, les réglementations diffèrent considérablement entre les deux continents.

o En droit européen :

- La structure, c'est-à-dire l’architecture, le contenant, peut être protégée par le droit d’auteur, sous réserve qu’il s’agisse d’un arrangement particulier, que le choix ou la disposition du contenu de la base constitue une création intellectuelle. Il existe quelques exceptions à cette protection pour des usages d’enseignements, de recherche scientifique ou de sécurité publique.

- Les données, c'est-à-dire les contenus, peuvent avoir deux statuts : s’il s’agit d’œuvres (photos, musiques…), elles sont protégées par le droit d’auteur ; s’il s’agit d’informations brutes ou dénuées d’originalité, elles sont libres de parcours du point de vue du droit d’auteur. En revanche, elles peuvent être à certaines conditions couvertes par un droit sui generis, le droit spécial des bases de données ; il s’agit de protéger les fabricants de base de données contre l’appropriation des résultats obtenus et l’investissement financier consenti par celui qui a recherché et rassemblé le contenu. Encore faut-il que ces derniers puissent apporter la preuve d’un investissement substantiel. Dans l’hypothèse positive, le producteur de la base peut s’opposer à l’extraction et à la réutilisation partielle ou totale de celle-ci, et ce pendant une durée de 15 ans.

o En droit des États-Unis :

- La base de données, en tant que compilation, constitue une œuvre réalisée à partir de la collecte et l’assemblage de matières préexistantes. Sous réserve que cet assemblage constitue une œuvre originale du point de vue de l’arrangement des données, elle est protégée par le droit d’auteur. Le travail industrieux (« the sweat of the brow ») a pendant un temps justifié la protection, mais après un retournement de jurisprudence, il ne suffit plus à justifier de l’originalité, au nom du fait que « l’objectif

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

au nom du fait que « l’objectif Web des données, données ouvertes © Sofrecom pour FT

38

Vers une structuration de l’écosystème des données ouvertes

premier du copyright n’est pas de rémunérer le travail des auteurs, mais de promouvoir le progrès de la science et des arts utiles » (Arrêt Feist).

- Les contenus eux ne sont pas protégeables.

- Il existe d’autres dispositifs subsidiaires de protection des bases de données, notamment le contrat (le producteur associe une licence à l’usage de sa base de données).

Au final, si les deux régimes s’accordent sur la protection de la structure par le droit d’auteur, ils divergent quant à la protection des contenus de types « données brutes ». Les producteurs bénéficient en Europe du droit sui generis, alors qu’aux États-Unis ils font appel au droit contractuel.

Les deux principales difficultés juridiques auxquelles les promoteurs de données ouvertes doivent faire face :

o Vérifier que les données ne soient pas protégées

Que ce soit au regard du droit européen sui generis, ou d’une licence liée au droit des contrats des Etats-Unis, la vérification que les données ne sont soumises à aucune forme de protection au regard de la propriété intellectuelle est extrêmement difficile, en particulier pour des non juristes.

o Trouver un régime de protection intermédiaire

Ce problème est spécifique aux États-Unis, en raison de l’absence de droit sui generis. Le domaine public, s’il semble adapté aux données d’origine publique, n’est pas forcément satisfaisant pour des données d’origine privée, pour lesquelles les créateurs veulent pouvoir conserver leur paternité ou d’autres dimensions du copyright. En effet, le domaine public à la fois « libère », au sens où il autorise une circulation totale des créations de l’esprit (œuvres, données…) qui y sont placées, mais dépouille simultanément les auteurs de tout droit de regard sur celles-ci. Par exemple, une entreprise qui met en circulation des données ouvertes, peut voir son concurrent les utiliser sans pour autant remettre à disposition le travail qui en a été dérivé sous un régime équivalent.

Depuis plusieurs années ont émergé du monde du numérique des régimes contractuels autoproduits par les communautés d’intérêt, qui permettent de placer les œuvres dans un espace intermédiaire, à la fois conforme au droit d’auteur, mais répondant à des besoins de circulation conditionnelle des œuvres (par exemple : utilisation uniquement pour des usages non marchands) : chaque auteur accepte volontairement de se placer sous un régime moins protecteur que le droit d’auteur mais plus protecteur que le domaine public. La licence la plus connue est le contrat Creative Commons. Mais ces licences ne répondent pas à la spécificité des données qui, n’étant pas des œuvres originales, ne sont pas couvertes par le droit d’auteur.

Aussi récemment, plusieurs types d’initiatives ont vu le jour et tentent de répondre à l’une ou/et l’autre des difficultés soulevées :

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

des difficultés soulevées : Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

39

Vers une structuration de l’écosystème des données ouvertes

Science Commons Database Protocol 55

Ce protocole, qui répond à la première difficulté, a été élaboré pour permettre l’interopérabilité des bases de données scientifiques. Constatant que les chercheurs sont amenés en permanence à croiser des bases de données et qu’ils se heurtent à la multiplicité des licences sous lesquelles ces bases sont placées, le protocole vise à leur simplifier la vie. Il ne se substitue pas aux licences mais intervient comme un dispositif qui permet de lever les obstacles à la circulation des données.

Avant de pouvoir se revendiquer du Protocole (application du logo, implémentation des métadonnées…), il faut être certain que toutes les restrictions sur les bases de données (droit d’auteur, brevets…) sont entièrement levées, et que le fournisseur des données ne les réclamera pas ultérieurement. C’est ce que les promoteurs du protocole appellent « reconstruire le domaine public ».

Les auteurs du protocole insistent longuement sur le fait qu’il s’agit d’un protocole de domaine public, et non d’une licence de type Creative Commons By SA (paternité, reproduction à l’identique), le justifiant à la fois par un souci de simplicité et par l’impossibilité de vérifier que des données soient réutilisées en respectant de telles contraintes. Autrement dit, ce qui est possible avec des contenus de type photos, vidéos, ou documents écrits, n’est pas pratiquement envisageable avec des données.

Ce protocole est mis en place par Sciences Commons, une des quatre grandes initiatives portées par Creative Commons et lancée en 2005. L’objectif de Sciences Commons est de constituer un vecteur d’ouverture et de partage dans le monde scientifique. Cette initiative porte de nombreux projets (Scholars Copyright Program, Biological Materials Transfer Project, Neurocommons, HealthCommons). Sciences Commons est dirigé par le bureau de Creative commons qui comprend Hal Abelson (professeur de sciences de l’information au MIT), James Boyle, Lawrence Lessig, Michael Carroll (juristes experts en propriété intellectuelle), Eric Saltzman (documentariste), John Wilbanks (Entrepreneur de bioinformatique et expert en métadonnées).

ODbL : Open Database Licence 56

Cette licence est le fruit de l’initiative de deux personnes, Jodran Hatcher et Charlotte Waelde, soutenus par l’entreprise Talis (cf. Section 4.1). Le projet est aujourd’hui porté par la Open Knowledge Foundation 57 , qui gère la licence au quotidien, sous la surveillance d’un Comité Consultatif. Organisme à but non lucratif créé en 2004, la Fondation cherche à « promouvoir les savoirs ouverts (open knowledge) et toute sorte d’information - des sonnets aux statistiques, des gênes aux données géographiques – qui peuvent être librement utilisées, réutilisées et redistribuées ». La Licence ODbL a été publiée le 29 Juin 2009.

55 http://sciencecommons.org/projects/publishing/open-access-data-protocol/

56 http://www.opendatacommons.org/licenses/odbl/

57 http://www.okfn.org/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

5 7 http://www.okfn.org/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010

40

Vers une structuration de l’écosystème des données ouvertes

Cette licence vient répondre à la seconde difficulté évoquée. A notre connaissance, aucune base de données n’a adopté aujourd’hui l’ODbL, mais Open Street Map travaille activement à passer de la CC à l’ODbL. Ce passage devrait être achevé pour la fin de l’année 58 .

PDDL : Public Domain Dedication and Licence 59 .

Également portée par Open Knowledge Foundation, cette initiative place les œuvres dans le domaine public. Elle répond à la première des deux difficultés.

CC0 : Creative communs zero 60

Il s’agit d’une option Creative Commons (et non d’une licence), qui permet là aussi d’abandonner l’ensemble de ses droits d’auteurs sur des œuvres ou des données. Une fois la licence appliquée, l’œuvre n’appartient plus en rien à l’auteur et n’importe qui peut l’utiliser pour n’importe quel usage. Il s’agit d’une option « aucun droit réservé ». Là encore, l’œuvre tombe dans le domaine public.

Relations entre les différentes initiatives

L’Open Knowledge Foundation considère que la PDDL est l’équivalent de la CC0 et que l’une et l’autre sont compatibles avec la Science Commons Database Protocol 61 .

Cette affirmation semble unilatérale :

le Science Commons Database Protocol considère qu’il n’est compatible avec aucune licence, y compris la CC0 pourtant née au même berceau. C’est la notion même de licence appliquée à une base de données qui est réfutée.

Le site de la CC0 répond clairement NON à la question « CC0 et PPDL sont-ils la même chose ? ». Et le justifie ainsi : la PDDL poursuit deux objectifs : permettre à des auteurs de placer leur œuvre dans le domaine public et permettre à des personnes de certifier qu’une œuvre est bien dans le domaine public. Cette dualité d’objectif est source de confusion selon CC0. A l’inverse CC0 poursuit uniquement le premier objectif et surtout se prétend juridiquement plus robuste, de portée universelle alors que la PPDL n’est valable qu’au regard du droit des États-Unis.

Le chapitre français de Creative Commons ne prévoit pas de transposer la CC0, jugeant qu’elle est inutile au regard du droit français.

58 http://wiki.openstreetmap.org/wiki/Open_Data_License/Implementation_Plan

59 http://www.opendatacommons.org/licenses/pddl/

60 http://wiki.creativecommons.org/CC0

61 http://www.opendatacommons.org/faq/

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

http://www.opendatacommons.org/faq/ Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

41

Vers une structuration de l’écosystème des données ouvertes

3.2 Lever les obstacles techniques : un début de structuration des formats et des initiatives de standardisation des ontologies

L’ouverture d’une multitude de bases de données jusqu’alors fermées permet à chacun de développer de nouvelles applications, construites autour de ces données. Néanmoins, les développeurs construisant de nouveaux services en agrégeant ou croisant différentes bases de données sont souvent confrontés à la diversité des formats. Jongler entre différents formats de données et de protocoles devient vite un casse-tête : fichiers Excel, APIs, requêtes SparQL. Les données sont pourtant parfois de même nature.

C’est face à ce besoin d’homogénéisation que des initiatives se mettent en place, avec pour objectif de fédérer un ensemble de données relatives à un même sujet, ou d’une même nature, voire à imposer un standard universel. Leur travail consiste à définir et à faire accepter un format unique dans lequel toutes les données seront rendues accessibles.

Nombreuses sont les initiatives qui se proclament fédératrices de données sur internet. Linked Data s’affiche comme la solution face aux limites du web actuel. Freebase déclare construire la plus grande base de connaissance sémantique. Le gouvernement des États- Unis ouvre ses données à travers un portail unique : data.gov. Pour comprendre ce que sont ces initiatives et où elles se positionnent, il est important de distinguer trois grands types d’acteurs, en fonction de leur rôle quant aux données qu’ils mettent à disposition :

Les producteurs de formats

Les producteurs de sens et d’association

Les producteurs de catalogues

Les premiers, producteurs de formats, sont indispensables car indépendants de toute donnée manipulée. Ils produisent des formats qui sont ensuite réutilisés systématiquement par les acteurs produisant ou enrichissant des données.

Les seconds sont les seuls à intervenir véritablement sur les données. Récupérant les données de différentes sources, en les enrichissant de liens sémantiques, ils produisent véritablement ce que Tim Berners Lee et d’autres défendent comme l’avenir du web des data, à savoir un réseau décentralisé et entremêlé de description des choses, et de l’ensemble des données associées.

Les derniers, simples références de données mises en ligne, sont souvent très intéressants dans la masse de données qu’ils rendent accessible, mais ne manipulent pas les données, et ce faisant ne les enrichissent pas. Leur valeur réside donc dans le volume de contenu accessible à partir d’un seul endroit, ainsi que dans la qualité de l’indexation des bases de données ouvertes. Dans la mesure où les standards d’ouverture donneront probablement aux données des outils de navigation de plus en plus évolués, on peut s’interroger sur la pérennité de ce type d’acteurs. Il est probable que les catalogues de données disparaissent peu à peu, au profit de moteurs de recherche du web, dans la même dynamique que ce qu’a connu le web à ses débuts (faisant disparaître les catalogues de sites web au profit de l’indexation systématique de toutes les pages HTML).

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

de toutes les pages HTML). Web des données, données ouvertes © Sofrecom pour FT R&D -

42

Vers une structuration de l’écosystème des données ouvertes

3.2.1 Formats de données

Le concept d’Open Data implique de repenser la manière de présenter les données sur internet. Cela se fait à travers l’émergence de nouveaux formats de données, mais aussi le retour de certains formats jusqu’alors peu utilisés.

Parmi les formats de données présentés ci-dessous, il est important de distinguer deux catégories. Une première catégorie est composée des formats de représentation des données, c'est-à-dire les standards utilisés par les différentes machines connectées sur le web des data pour communiquer entre elles. Ces standards sont indispensables dans la mesure où les machines souhaitant communiquer doivent s’accorder sur un langage commun.

La seconde catégorie, relative au stockage des données, peut sembler moins importante, dans la mesure où chaque serveur peut organiser le stockage de ses données comme il le souhaite. C’est pourtant dans cette catégorie qu’émergent actuellement des initiatives jeunes mais prometteuses, devant la nécessité de stocker un grand nombre de données de façon structurée, sans que la structure ne soit figée. Des communautés de développeurs s’organisent pour permettre à de nouveaux standards de s’imposer peu à peu, face au manque de souplesse des bases de données relationnelles.

3.2.1.1 La représentation des données

RDF

Le langage HTML est aujourd’hui omniprésent sur le web. Il a pour but de décrire très simplement la mise en page de documents à destination de lecteurs humains. Cette description de mise en page a comme principale caractéristique de n’être constituée que de texte, ce qui rend possible son exploration par des machines (et permet donc aux robots comme ceux de Google d’explorer le web très facilement). A l’opposé, par exemple, le langage de programmation Flash permet aussi de décrire des interfaces, mais sa compilation rend son exploration très complexe pour des robots, raison pour laquelle les sites en flash ne sont que pauvrement indexés par les moteurs.

Le standard HTML a ensuite évolué et a été séparé de la mise en forme pure (confiée aux CSS, Cascading Style Sheets), pour tendre vers une description plus aboutie de la structure des documents, par des blocs, des titres, des paragraphes déclarés de façon plus précise. Néanmoins, le langage n’intègre aucune description de la nature des blocs, ce qui a poussé la montée en puissance du langage RDF.

RDF (Resource Description Framework) est un standard du W3C offrant la possibilité de modéliser tout type d’information et de donnée. Chaque « documents » RDF est identifié par une URI stable permettant d’y accéder via le protocole HTTP. Ainsi, des robots peuvent aisément explorer un document RDF, puis explorer les données de façon très précise, puisque le document contient non seulement les données, mais la description de ce qu’elles sont. Par exemple, un document RDF présentant une ville associera les données de population à des métadonnées sémantiques, afin d’indiquer que les données présentées sont effectivement la population, et par exemple d’en donner la source, la date, etc.

RDF est souvent associé au langage SparQL, qui permet de construire des requêtes structurées dans des données formatées en RDF.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

des données formatées en RDF. Web des données, données ouvertes © Sofrecom pour FT R&D -

43

Vers une structuration de l’écosystème des données ouvertes

Linked Data

Linked Data bénéficie d’une forte visibilité sur internet depuis plusieurs mois, en partie grâce aux interventions répétées de Tim Berners Lee, bénéficiant grâce à son statut de « créateur du web » d’une forte crédibilité lorsqu’il évoque le futur du web.

Le concept de Linked Data est en réalité assez simple pour qui connaît les principes de RDF. En effet, le principe de Linked Data pourrait se résumer à utiliser RDF systématiquement, et pour tout type d’information.

Là où RDF propose de modéliser chaque document par une URI, Linked Data étend le principe à chaque « objet ». Le principe devient très intéressant, dans la mesure où chaque métadonnée devient par elle-même une URI.

Si on reprend l’exemple de la ville et de la population, une description en RDF nous dirait que le champ population de la ville http://serveur/villes/paris est égal à 2 181 371.

En Linked data, nous obtiendrions une description légèrement différente. La métadonnée population serait aussi représentée par une URI : http://serveur/proprietes/population, et sa valeur serait aussi représentée par une URI : http://serveur/villes/paris/population

Ainsi, la valeur http://serveur/proprietes/population de http://serveur/villes/paris serait égale à http://serveur/villes/paris/population. Cette dernière page pourrait alors contenir les données de population de Paris par année, par exemple.

Dans l’idéal de Linked Data, chaque propriété doit être représentée par une URI stable, et unique. On comprend alors l’enjeu qu’il y a autour de ces standards. Par exemple, quelle URI représentera le titre d’un film ? Imaginons qu’IMDB et Allocine proposent des ontologies différentes, chacune proposant une URI pour la propriété titre. http://imdb.com/properties/title ? http://allocine.com/champs/title ? Imaginons maintenant que sur mon site, je souhaite publier des critiques de films en Linked Data, et donc mentionner les films en question ainsi qu’éventuellement leur titre. Utiliserai-je l’ontologie d’IMDB ou celle d’Allocine ? Ou peut-être un acteur tiers universel comme Freebase ?

Il est évident que cette dynamique Linked Data représente un mouvement important dans la dynamique du web, et génère avec elle des jeux stratégiques forts pour les sociétés qui en comprennent les enjeux. Cependant, il ne se dessine actuellement aucun modèle économique autour de la structuration de la connaissance humaine.

3.2.1.2 Le stockage des documents sémantiques

Le mouvement NOSQL

Le mouvement NOSQL (Not Only SQL) défend depuis 2009 une nouvelle approche du stockage des documents et des données, en proposant notamment de s'extraire de la structuration formelle qu'imposent les outils actuels (représentés principalement par le langage SQL, utilisé par la plupart des bases de données, de MySQL à Oracle).

La pauvreté de la structuration des documents actuellement disponibles sur le web est en partie liée à la rigidité des bases de données relationnelles utilisées pour les stocker. En effet, les bases de données relationnelles (majoritairement utilisées sur le web) rendent très difficile l’évolution de la structure d’une table de données lorsqu’un site est déjà en

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

lorsqu’un site est déjà en Web des données, données ouvertes © Sofrecom pour FT R&D -

44

Vers une structuration de l’écosystème des données ouvertes

production. Dans la mesure où il est rarement possible de prévoir à l’avance l’ensemble des champs potentiellement utilisés, la structuration sémantique des documents est souvent limitée à de simples tags, pour optimiser les performances et éviter les contraintes lors des évolutions du service.

L'une des initiatives les plus visibles liées au mouvement NOSQL est CouchDB (http://couchdb.apache.org/), porté par la fondation Apache1, pour permettre de stocker des bases de données comportant un grand nombre de champs et nécessitant une grande souplesse dans les ajouts et suppressions de champs.

Encore récente, l’application est peu utilisée pour le moment, mais répond à un besoin croissant, étant donné le nombre de services fondés sur des documents structurés, évolutifs, distribués, etc. CouchDB permet en outre de stocker de façon souple des bases de données pouvant être très facilement restituées en RDF.

Relaxed, société dont l’activité est étroitement liée à CouchDB, a levé fin 2009 la somme de 2 millions de dollars, ce qui donne à la technologie CouchDB une longueur d’avance sur les autres initiatives de bases de données non-relationnelles. Cette levée de fonds stimulera très certainement une adoption croissante par les entreprises, à travers une meilleure prise en compte des besoins professionnels, ainsi qu’un support technique capable de répondre aux attentes des développeurs en entreprise.

D2R Server

D2R est un outil permettant de mettre à disposition sur internet en RDF/Linked Data des données stockées dans une base de données relationnelle. Par la mise en place d’un mapping des champs de la base, le serveur D2R génère les « rendus » utiles pour la navigation dans les données : accès HTML pour les humains, RDF et SparQL pour les robots.

Le serveur D2R est actuellement utilisé par Linked Movie Database.

3.2.2 Producteurs de sémantique et d’association

3.2.2.1 Open Calais

Objectif

Les articles publiés sur internet sont le plus souvent des textes bruts peu structurés. Leur structuration permet de distinguer le titre du corps, la date de création du message, etc. mais n’intègre que rarement des éléments sémantiques relatifs au contenu du texte. Dans le meilleur des cas, chaque site possède une liste de tags uniques qui sont utilisés pour qualifier chacun des articles.

Open Calais n’a pas pour objectif de fédérer un type de données particulier, mais d’unifier les métadonnées relatives à tout texte publié sur internet. Pour cela, Calais repose sur deux éléments principaux : une liste de « tags » (représentant des entités, des événements et des faits), ainsi qu’un moteur sémantique capable d’analyser le corps de n’importe quel texte, et d’y associer automatiquement les tags appropriés.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

les tags appropriés. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010

45

Vers une structuration de l’écosystème des données ouvertes

une structuration de l’écosystème des données ouvertes Le résultat de cette opération est un index unique

Le résultat de cette opération est un index unique pour chaque entité, chaque fait et chaque événement, ce qui permet par exemple à tous les articles traitant du 11 septembre d’être reliés entre eux, ce qui n’est actuellement pas le cas sur internet. Aucun lien sémantique n’existe entre deux articles publiés l’un dans le Monde, et l’autre dans Libération. Open Calais propose donc de s’intégrer dans tous les sites de publication afin de tisser un réseau sémantique universel. Pour faciliter cette démarche, Open Calais offre, en plus de ses APIs dans différents langages, des « plugins » déjà développés pour les moteurs de publications les plus utilisés. Ces plugins permettent par exemple d’intégrer Open Calais dans un blog Wordpress en installant simplement le plugin, évitant ainsi au développeur tout le travail d’intégration entre Wordpress et l’API Open Calais.

d’intégration entre Wordpress et l’API Open Calais. Briques logicielles pour l’intégration de Calais Sponsors

Briques logicielles pour l’intégration de Calais

Sponsors

Calais est un projet du groupe Thomson Reuters, qui parmi les principaux fournisseurs d’informations et de données, considère le web sémantique comme fondamental dans la stratégie du groupe.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

dans la stratégie du groupe. Web des données, données ouvertes © Sofrecom pour FT R&D -

46

Vers une structuration de l’écosystème des données ouvertes

Modèle économique

Avec 6 000 développeurs enregistrés, Open Calais génère en moyenne un million de requêtes par jour (en décembre 2008). Le modèle économique de Calais repose sur une version « pro » du service, commercialisée 2 000 $ /par mois, permettant de doubler le nombre de requêtes autorisées vers Calais (100 000 par jour contre 50 000 par jour pour la version gratuite), et donnant accès à un SLA 62 quant à la disponibilité du service.

3.2.2.2 DBPedia

Objectif

DBPedia se positionne comme un enrichissement de Wikipedia, en prenant soin d’éviter certaines lacunes inhérentes au format wiki. En effet, la structuration des wiki donne des informations de mise en page, mais aucune information concernant la nature des données intégrées aux pages du wiki.

Le projet de DBPedia consiste donc à extraire les données de Wikipedia, en les structurant à l’aide de balises RDF. L’extraction est automatique, à l’aide d’un logiciel opensource qui permet de définir des motifs dans les pages html de Wikipedia afin d’identifier des données particulières. Ces données sont automatiquement qualifiées, puisque chaque motif est associé à un prédicat.

Il en résulte un contenu identique à celui de Wikipedia, mais dans un format RDF permettant l’exploitation massive des données via des requêtes SparQL par exemple.

Sponsors

DBPedia est développé par deux universités allemandes (Freie Universität Berlin et Universität Leipzig), ainsi que par la société de développement OpenLink, spécialisée dans les bases de données.

3.2.2.3 Freebase

Indépendant de Wikipedia, Freebase est un projet de structuration de la connaissance humaine, initié par la société Metaweb.

Tout comme Wikipedia consiste en une liste de pages, Freebase est constitué d’une liste de topics. Mais Freebase va bien plus loin que Wikipedia dans la structuration. En effet, chaque « topic » (équivalent à une page d’un wiki, donc), est typé, c'est-à-dire associé à des types de données. Une ville est un type de données, une personne est un type de données. De même, musicien et peintre sont des types de données. Ainsi, le « topic » Pat Metheny est une personne, ainsi qu’un musicien, un guitariste, etc. Chacun de ces types sera caractérisé par des propriétés. Les champs associés à chaque type sont communs à tous les topics du même type (seules leurs valeurs changent). Par exemple, le type « personne » contiendra systématiquement les champs « nom », « prénom », « date de naissance », etc.

62 SLA : Service Level Agreement au travers duquel Open Calais s’engage quant au niveau de disponibilité de la plateforme Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

de disponibilité de la plateforme Web des données, données ouvertes © Sofrecom pour FT R&D -
de disponibilité de la plateforme Web des données, données ouvertes © Sofrecom pour FT R&D -
de disponibilité de la plateforme Web des données, données ouvertes © Sofrecom pour FT R&D -
de disponibilité de la plateforme Web des données, données ouvertes © Sofrecom pour FT R&D -

47

Vers une structuration de l’écosystème des données ouvertes

Les données renseignées dans Freebase sont donc systématiquement structurées, et leur structure sera identique pour des « topics » de même « type ». Dès lors, l’accès aux données en RDF et la navigation automatisée dans les données devient extrêmement facile. Il devient possible de croiser l’ensemble des données présentes sur Freebase.

A l’instar de Wikipedia, Freebase est auto-construit par les utilisateurs. La valeur des données saisies relève tout autant des informations (redondantes avec ce que l’on peut trouver sur Wikipedia ou ailleurs) que de la définition des structures de propriétés associées à chaque type de données.

3.2.2.4 Linked movie database

Linked movie database est une base de données cinématographique dont les données sont sémantiquement caractérisées. Tout comme DBPedia et Freebase, Linked Movie database ne crée pas de nouvelles données, mais s’appuie sur des données existantes puis les structure et les enrichit pour en faire une base de données accessible en RDF/SparQL.

La licence d’IMDB 63 ne permettant pas la réutilisation des données, la construction de la base LMDB s’appuie sur les informations présentes sur Wikipedia, et sur Freebase…

Actuellement, LMDB référence près de 40 000 films et 30 000 acteurs, ce qui couvre environ 10% des films présents sur IMDB et 3% des acteurs.

3.2.3 Catalogues de données

3.2.3.1 Data.gov

Projet longtemps attendu, le site data.gov a été lancé et confié à Vivek Kundra (CIO du gouvernement américain) en mai 2009, et vise à rassembler sur un même portail l’ensemble des données rendues publiques par différentes institutions américaines.

Les données disponibles sont de différentes natures : transports, sécurité, santé, environnement, société, urbanisme, finances individuelles, finances publiques, etc. Elles sont accessibles dans différents formats, selon les données : xml, CSV, Excel, KML, etc. Ces données sont des bases complètes (contrairement aux flux proposés par certaines API). Il est donc nécessaire pour y accéder de récupérer l’ensemble d’un fichier, et il est impossible de construire des requêtes pour n’interroger en temps réel qu’une partie des données répondant à un besoin précis.

Par ailleurs, le site data.gov ne contient que l’index des données, les données elles- mêmes restant hébergées sur les sites des différentes institutions. La navigation et les outils proposés sont dans un style « web 1.0 », mais l’initiative reste une première dans la mise à disposition de contenu aux développeurs et dans l’organisation d’une grande quantité de données. En revanche, aucun effort n’est porté du côté de la structuration des données elles-mêmes. Les fichiers sont livrés dans des formats, des standards et des ontologies propres à chaque institution. Les éléments sémantiques ne sont pas référencés de manière unique, ce qui rend le croisement difficile. Tout le travail

63 The Internet Movie Database Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

6 3 The Internet Movie Database Web des données, données ouvertes © Sofrecom pour FT R&D

48

Vers une structuration de l’écosystème des données ouvertes

d’intégration entre les données est à réaliser côté développeur. On est donc loin de linked data et de l’interopérabilité universelle des données présentes sur le réseau, mais plutôt dans un dump de bases de données existantes et jusqu’alors non accessibles sur internet. Au-delà de leur richesse actuelle indéniable, ces données trouveront un nouveau potentiel lorsque leur enrichissement sémantique et leur intégration dans des portails comme Freebase les reliera au reste de la connaissance structurée disponible sur internet.

Aussi, data.gov tente également de rassembler les données locales produites par chacun des États (actuellement, trois États sont référencés : Californie, Utah et Columbia). Là encore, tandis que la majorité des initiatives fédératrices imposent une structure voire un format, data.gov se contente de recenser les portails « data » de chacun des États, sans tendre vers une cohérence des différents portails pointés. Il est donc possible de récupérer et d’utiliser ces données, mais par exemple impossible de construire des outils capables de gérer automatiquement des données de même type diffusées par des Etats différents.

3.2.4 Limites actuelles de la standardisation des données

Parmi les trois catégories d’acteurs évoquées (production de catalogue, production de formats de données, enrichissement sémantique des données), c’est autour de l’enrichissement des données que se joue la principale bataille pour savoir qui parviendra à imposer son ontologie et ses URLs de définition de chaque chose.

Trois pistes semblent aujourd’hui possibles :

Une architecture extrêmement décentralisée, dans laquelle l’information serait référencée de manière unique sur des sites/plateformes différents. Par exemple, les sites officiels des films pourraient contenir l’ensemble des données RDF / Linked Data relatives au film, et l’URL officielle de chaque film pourrait en devenir le point d’entrée Linked Data.

A l’opposé, une architecture ultra centralisée, à l’image de Freebase ou DBPedia, c'est-à-dire le rassemblement au sein d’un même lieu de l’ensemble de la connaissance, quel que soit le domaine traité.

Entre les deux, l’émergence de portails RDF / Linked Data référents pour chaque secteur, comme par exemple Linked Movie Database pour la production cinématographique.

Néanmoins, il faut noter que l’interconnexion idéale de Tim Berners Lee n’est pas encore d’actualité, dans la mesure où les acteurs semblent s’aspirer plutôt que s’interconnecter. Linked Movie Database réintègre par exemple les données de Freebase plutôt que mettre en place des simples pointeurs vers les données déjà structurées par Freebase.

Il est donc actuellement difficile de savoir si le web des données tend vers une architecture extrêmement distribuée ou au contraire totalement centralisée. Il est également trop tôt pour savoir si, à terme, le web des données lissera peu à peu les redondances pour tendre vers une structuration universelle de la connaissance.

Il est aussi important de noter que les ontologies, c'est-à-dire le vocabulaire utilisé dans la description des concepts (par exemple la notion de titre d’un film, ou le nom d’une personne), utilisent exclusivement la langue anglaise. On trouve donc les concepts « title » et « name », plutôt que des identifiants numériques qui pourraient ensuite être

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

qui pourraient ensuite être Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

49

Vers une structuration de l’écosystème des données ouvertes

associés à des chaînes de caractères déclinées selon les langues. Cela risque donc de nuire à la propagation internationale des standards en cours de développement.

3.2.5 Poids des différentes initiatives

Face à la diversité des initiatives et au manque de maturité de l’écosystème entourant l’ouverture des données, il est aujourd’hui difficile de dresser une cartographie réaliste de l’importance de chacun des acteurs présentés précédemment.

Il est donc nécessaire de rester attentif à l’évolution de tous les acteurs/standards évoqués (adoption des standards, partenariat, levée de fonds, prise de position des sociétés aujourd’hui dominantes sur le web, etc.) pour être en mesure de construire une vision précise de ce secteur aujourd’hui très mouvant.

3.3 Organisation des acteurs impliqués dans les données ouvertes

A travers les différents positionnements que prennent les acteurs autour de l’ouverture des données, ou voit peu à peu se mettre en place un écosystème cohérent, représentable par le schéma ci-dessous.

Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier 2010 - v-

par le schéma ci-dessous. Web des données, données ouvertes © Sofrecom pour FT R&D - Janvier

50

Vers une structuration de l’écosystème des données ouvertes

© Sofrecom Janvier 2010 - v - Erreur ! Il n'y a pas de texte répondant à ce style dans ce document.

Web des données, données ouvertes

51

- Erreur ! Il n'y a pas de texte répondant à ce style dans ce document.
- Erreur ! Il n'y a pas de texte répondant à ce style dans ce document.
- Erreur ! Il n'y a pas de texte répondant à ce style dans ce document.

Vers une structuration de l’écosystème des données ouvertes

L’écosystème des données ouvertes repose sur trois catégories d’actions :

La manipulation de données (création, croisement, changements de format, etc.)

L’hébergement des données

L’exploitation des données

3.3.1 Manipulation des données

Les données disponibles sur Internet sont à l’origine de trois formats possibles :

Des informations ou documents non structurés, comme par exemple Wikipedia

Des données dans des formats non standardisées, par exemple celles qui sont distribuées à travers le catalogue de data.gov

Des données ou documents en RDF/Linked Data

Certains acteurs, comme Freebase, DBPedia, Linked Movie Database, se positionnent sur la transformation de formats hétérogènes vers des formats standardisés (RDF/Linked data majoritairement), d’une part pour les documents, et d’autre part pour les données. Cela contribue à accroître la quantité de données/informations structurées présentes sur internet.

3.3.2 Hébergement des données

L’hébergement des données peut-être pris en charge par l’un des acteurs ayant contribué à la mise à disposition des données en question, mais aussi par des plateformes spécialisées (Talis, Amazon S3, etc.). Dans les deux cas, l’hébergement s’appuie sur des outils de stockage pour la conservation des données, et produit des données réutilisables dans des formats de représentation, tels que RDF / Linked Data.

3.3.3 Exploitation de données

L’exploitation des données repose sur leur visibilité. Linked Data défend un web interconnecté, par lequel les données seront automatiquement exposées par d’autres données, à travers les liens qui existent entre elles. Ce réseau étant actuellement très incomplet, la visibilité des données passe généralement par des catalogues (data.gov, New-York Times), permettant d’en prendre connaissance et de comprendre ce qu’elles contiennent.

Ces données pourront ensuite être utilisées pour la création de nouveaux services, à partir du moment où les licences le permettent.

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

à partir du moment où les licences le permettent. Web des données, données ouvertes © Sofrecom

52

Zoom sur quelques initiatives d’ouverture des données

4

Zoom sur quelques initiatives d’ouverture des données

4 Zoom sur quelques initiatives d’ouverture des données Les initiatives en matière d’ouverture de données sont

Les initiatives en matière d’ouverture de données sont aujourd’hui pléthoriques. Cette section ne prétend en aucun cas recenser ces initiatives mais s’attache à décrire plus en détail cinq initiatives ou groupes d’initiatives qui nous semblent emblématiques ou particulièrement intéressantes. Il s’agit de :

- L’ouverture des données de transport. L’étude de ce cas offre des parallèles avec la situation de l’opérateur, en terme de typologie d’acteurs, des opérateurs qui assurent et exploitent des réseaux, financés initialement par des fonds publics et qui aujourd’hui sont des acteurs aussi bien de statut privé que public.

- Talis et la mise en place d’une plateforme d’hébergement et de traitement des données publiques car cela correspond à une potentielle offre de service que pourrait déployer l’opérateur.

- L’exploitation des données de communication d’Enron rendues public lors de la mise en faillite de la société et qui permet d’étudier le type d’usage qui a pu être fait d’un jeu de données de communication et ainsi soulever des pistes de l’exploitation possible de données proches détenues par l’opérateur.

- Pachube et la mise en place d’une plateforme collaborative de partage de données de capteurs et de données environnementales pour étudier les modalités d’apparition de données issues du M2M.

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

modalités d’apparition de données issues du M2M. Web des données, données ouvertes © Sofrecom Janvier 2010

53

Zoom sur quelques initiatives d’ouverture des données

- L’ouverture des données de Backtype, un service d’agrégation de commentaires qui, à l’instar de Twitter est un exemple représentatif des possibilités de valorisation de jeux de données d’utilisateurs de services web communautaires.

4.1

TALIS

Talis est une entreprise dont les activités portent sur :

- le développement et la commercialisation de solutions de gestion de documents pour les universités et les bibliothèques,

- le développement de solutions pour le monde éducatif intégrant des ressources électroniques au cycle d’apprentissage,

- la fourniture d’une plateforme de Software-as-a-Service construite autour des technologies sémantiques et des données liées.

La plateforme Talis

La plateforme Talis est une infrastructure d’hébergement de bases de données et de développement à destination des entités détenant et/ou publiant des données, et des développeurs de services. La plateforme est accessible en mode Software as a Service, fournissant une solution scalable d’hébergement de données et offrant un accès aux données via la mise à disposition des API Talis.

A ce jour, aucun projet de services web indépendant de Talis, s’appuyant sur sa plateforme, n’a été identifié.

Modalités de la plateforme

Stockage de données : Tous types de données, structurées ou non, avec ou sans métadonnées peuvent y être hébergés. Il peut s’agir de données privées ou de données publiques.

Dans le cas des données non structurées, Talis opère comme la plateforme S3 d’Amazon, qui offre la possibilité de stocker des données non structurées et d’y accéder ultérieurement.

Pour le stockage de données structurées, Talis se repose sur RDF, la plateforme fournissant alors un modèle de données 64 gratuit, flexible puisque l’ontologie n’est pas imposée, mais encourageant néanmoins la description des ressources à l’aide d’un identifiant global unique afin de pouvoir lier à terme ces données.

Au

sécurisées.

besoin,

ces

données

stockées

dans

des magasins de

données

peuvent

être

64 Un modèle de données est un modèle qui décrit de façon abstraite comment sont représentées les données dans une organisation métier, un système d'information ou une base de données. Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

système d'information ou une base de données. Web des données, données ouvertes © Sofrecom Janvier 2010
système d'information ou une base de données. Web des données, données ouvertes © Sofrecom Janvier 2010
système d'information ou une base de données. Web des données, données ouvertes © Sofrecom Janvier 2010
système d'information ou une base de données. Web des données, données ouvertes © Sofrecom Janvier 2010

54

Zoom sur quelques initiatives d’ouverture des données

Accessibilité des données : Les données et métadonnées peuvent être découvertes au travers de requêtes SPARQL 65 ou d’un moteur de recherche de texte gratuit. Le recours au format RDF de métadonnées facilite la découverte des liens entres données et l’intégration future de ces données. Ces dernières peuvent être récupérées au format RDF, XML, ou JSON.

Augmentation des données : Une fonctionnalité de la plateforme permet d’enrichir un flux RSS. Chaque élément du flux est enrichi automatiquement de métadonnées présentes sur la plateforme Talis.

Contrôle des données : Le but principal de la plateforme Talis est la promotion et le soutien à la publication de données publiques sur le web ; les espaces dans lesquels sont stockés les données sont par défaut ouverts au public et il est possible de rechercher dans ces données et de s’en servir pour enrichir des flux RSS. Le détenteur des données peut néanmoins modifier les conditions d’accessibilité de ses données. Il est alors possible de partager exclusivement certains jeux de données ou de mettre en place certaines règles pour limiter leur exposition.

Licensing the Platform : L’API de la plateforme est elle-même publiée sous une licence Creative Commons by, ou de paternité, qui permet la ré-implémentation de l’API par d’autres services ou projets.

Les fonctionnalités de la plateforme (extraction de données, recherche, augmentation de flux) sont disponibles gratuitement, que cela soit pour le détenteur des données ou un autre utilisateur.

Le stockage des données publiques

Conditions d’hébergement des données publiques

Dans le but de soutenir la création et la dissémination des données publiques, Talis a crée le programme « Talis Connected Commons », qui permet de publier des données publiques gratuitement dès lors que celles-ci sont publiées sous l’une des deux licences publiques suivantes : Open Data Commons Public Domain Dedication (PDDL) ou Creative Commons CC0 license. 66

Dans ce cas, Talis fournit aux détenteurs de données publiques :

Un hébergement annuel gratuit limité à 50 millions de triplets et 10 Go de contenus

Un accès gratuit aux fonctionnalités avancées de la plateforme

Un accès gratuit à un endpoint SPARQL pour chaque jeu de donnée.

Le détenteur de données ne peut pas monétiser l’accès des utilisateurs à ses données via la plateforme Talis.

65 SPARQL is a standard query language that has been designed to support a range of ways of interacting with RDF data sets. This allows you to not only query for data, but also probe for and find data of interest, and transform that data into alternate vocabularies and structures.

66 Cf Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

alternate vocabularies and structures. 6 6 Cf Web des données, données ouvertes © Sofrecom Janvier 2010

55

Zoom sur quelques initiatives d’ouverture des données

Exploitation faite de la plateforme

Talis

technologique.

décrit

principalement

trois

types

d’exploitation

possibles

de

sa

plateforme

Moteur d’applications : Dès lors que la plateforme technique gère des données structurées ou non, ainsi que de nombreuses modalités de recherche et requête, la plateforme Talis peut donc servir de moteur d’applications pour des services web. Ainsi, la plateforme Talis est déjà utilisée pour de nombreux outils de gestion de bibliothèques (PRISM, CENOTE), interfaces de recherches vers ces catalogues ainsi que des applications à vocation éducative (ASPIRE).

Services autour des données liées : Au delà de l’accès aux données brutes, les développeurs d’applications peuvent se reposer sur la plateforme Talis pour travailler ces données dans un environnement de services de recherches et requêtes enrichi, facilitant la manipulation des données hébergées sur Talis. De plus la dimension scalable de Talis permet de répondre aux besoins variables d’accès à ces données au sein des communautés de développeurs. Pour les organisations publiant d’ores et déjà des données publiques, la plateforme peut faire office de second lieu de partage de ces données.

Plateforme de dissémination des données : la mise à disposition d’une plateforme d’hébergement de données et métadonnées, associée à un modèle économique fondé sur l’exploitation effective de la plateforme, permet aux entreprises et organisations de tester à moindre coût les possibilités et opportunités d’affaires autour de la publication de données.

Une offre de plateforme proche d’Amazon S3

La proposition d’hébergement de la plateforme Talis se positionne comme un concurrent d’Amazon qui propose le service S3, Simple Storage Service et qui héberge d’ores et déjà de nombreux jeux de données publiques. Cependant, la plateforme d’Amazon ne propose pas les briques sémantiques de Talis.

Ci-dessous la liste des jeux de données publiques hébergées par Amazon :

- OpenStreetMap Rendering Database

- Ensembl - FASTA Database Files

- Wikipedia XML Data

- Sloan Digital Sky Survey DR6 Subset

- Daily Global Weather Measurements, 1929-2009 (NCDC, GSOD)

- Wikipedia Page Traffic Statistics

- Twilio/Wigle.net Street Vector Data Set

- 2008 TIGER/Line Shapefiles

- Transportation Databases

- Labor Statistics Databases

- 1990 US Census, 2000 US Census

- 2003-2006 US Economic Data

- Business and Industry Summary Data

- Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

- University of Florida Sparse Matrix Collection

- DBPedia

- Freebase Data Dump

- Wikipedia Extraction (WEX)

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

- Freebase Data Dump - Wikipedia Extraction (WEX) Web des données, données ouvertes © Sofrecom Janvier

56

Zoom sur quelques initiatives d’ouverture des données

- 3D Version of the PubChem Library

- PubChem Library

- GenBank, Unigene, Ensembl Annotated Human Genome Data

- AnthroKids - Anthropometric Data of Children

- Influenza Virus (including updated Swine Flu sequences)

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

Virus (including updated Swine Flu sequences) Web des données, données ouvertes © Sofrecom Janvier 2010 -

57

Zoom sur quelques initiatives d’ouverture des données

4.2 Ouverture des données de transport public

De nombreux organismes de transports se sont orientés vers la mise à disposition des données de transports (itinéraires, horaires, perturbations sur les lignes de transports). Les opérateurs de transports collectifs de New York, Boston, Washington, San Francisco, Portland misent sur cette ouverture pour attirer une communauté de développeurs à produire des services web et mobiles qui faciliteront l’utilisation des transports collectifs par les usagers.

Cependant, de nombreux organismes de transports collectifs s’opposent au développement de ce type d’applications mobiles et visent à conserver l’exclusivité de l’exploitation des données de transports, données aujourd’hui copyrightées.

Ainsi, le Berlin Metro system et la Rail Corporation NSW, l’opérateur gouvernemental australien de transport ferroviaire font pression sur les développeurs indépendants qui exploitent les données et horaires de transports. De même, la National Rail Enquiries, au Royaume-Uni a contraint les créateurs de l’application iPhone MyRail de cesser la distribution de cet utilitaire gratuit, concurrent de l’application de la NRE, vendue 4,99£.

Il est intéressant de souligner ici que certains des acteurs du transport collectif se sont effectivement tournés vers la mise à disposition publique des données, suite à des conflits avec des développeurs indépendants. C’est ainsi le cas du MTA de New York qui faisait pression sur plusieurs développeurs ayant distribué des applications mobiles exploitant les données à disposition sur son site internet 67 . Ces conflits ont notamment soulevé la question des licences appliquées aux données de transports et des formats d’exposition de ces données.

Quelles sont les données couvertes dans le cadre de l’ouverture des bases de données transports aux développeurs ?

Les données mises à disposition des développeurs recouvrent généralement les cartographies des lignes de transports, les horaires d’arrivée et de départ de ces derniers, ainsi que les données relatives aux incidents sur le réseau.

Nous n’avons pas rencontré d’opérateur de transport qui ouvrait des données relatives au trafic global enregistré sur une ligne de transport.

Les formats des données de transport

Une majorité des données de transport sous ouvertes au format GTFS 68 , XML ou texte brut.

67 MTA blogger defends iPhone app :

http://www.wtnh.com/dpp/news/new_haven_cty/news_wtnh_mta_blogger_defends_iphone_app_2009081312

00

68 GTFS: Google transit Feed Specification Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

00 6 8 GTFS: Google transit Feed Specification Web des données, données ouvertes © Sofrecom Janvier

58

Zoom sur quelques initiatives d’ouverture des données

En complément de la mise à disposition au format GTFS, de nombreux organismes fournissent des flux RSS pour les mises à jour des données.

Les licences autour de l’ouverture des données de transport

A ce jour, aucun opérateur de transport, qu’il soit de statut privé ou public n’a mis à

disposition les données sous une des licences Open Data existantes actuellement (CC0, PDDL 69 …). Si les développeurs peuvent exploiter les données, celles-ci restent toujours

la propriété des organismes de transport.

Ci-dessous, un exemple d’accord de licence d’exploitation des données de l’opérateur de transport de San Fransisco. Cet accord est en tout point similaire à ceux que l’on retrouve sur les sites de transports de Washington, New York, Boston…

Exemple représentatif d’accords de licences proposés aux développeurs The San Francisco Bay Area Rapid Transit District (BART) hereby grants you (Licensee) non-exclusive, limited and revocable rights to use, reproduce, and redistribute BART Data (Data) subject to the following Terms:

BART trademarks and copyrighted materials, including any confusingly similar variants, may not be used in association with Data.

Data is provided on an "as is" and "as available" basis. BART makes no representations or warranties of any kind, express or implied. BART disclaims all warranties, express or implied, including but not limited to implied warranties of merchantability and fitness for a particular purpose. BART and its employees, officers, directors and agents will not be liable for damages of any kind arising from the use of Data including but not limited to direct, indirect, incidental, punitive and consequential damages.

BART reserves the right to alter and/or no longer provide Data at any time without prior notice.

BART maintains title, ownership, rights and interest in and to Data.

By using BART Data, you agree to be bound by all of the Terms and Conditions set forth in this agreement.

Exploitations des données de transport : les applications pour smartphones

La très grande majorité des exploitations faites de ces données se concrétise à travers des applications mobiles qui offrent aux usagers la possibilité de consulter les horaires des prochains transports, planifier un déplacement, repérer la station la plus proche. C’est

le cas des applications pour iPhone, terminaux Androïd comme Unibus, iBart, Washington

Metro, iNap, iBus….

69

Cf

Unibus, iBart, Washington Metro, iNap, iBus…. 6 9 Cf Section 3.1: l’émergence de licences ouvertes pour

Section 3.1: l’émergence de licences ouvertes pour les données (page 35)

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

de licences ouvertes pour les données (page 35) Web des données, données ouvertes © Sofrecom Janvier

59

Zoom sur quelques initiatives d’ouverture des données

Certaines applications de géolocalisation intègrent les données de transports dans des applications plus générales permettant aux utilisateurs de trouver un point d’intérêt, de le géolocaliser et de planifier son déplacement jusqu’à cet endroit.

L’application Iphone, Wahington Metro 70 vendue 0,79€ offre les fonctionnalités suivantes :

- Carte du Métro de Washington (visualisation en mode portrait ou paysage).

- Repérage précis de chaque station sur la carte, et sur Google Map.

- Section favoris dans laquelle il est possible d'enregistrer ses stations et trajets.

- Service de recherche du meilleur itinéraire. Une estimation du temps du trajet est fournie.

- Carte interactive pour choisir les stations de son itinéraire.

- L'application ne nécessite aucune connexion réseau (excepté pour la géolocalisation

des stations les plus proches). La recherche d'itinéraire se fait donc sans aucun problème sous terre dans le métro.

- Service de recherche / localisation de la station de Métro la plus proche.

- Une section de Washington Metropolitan Area Transit Authority permettant de suivre en direct l'état du trafic des différentes lignes du métro de Washington.

du trafic des différentes lignes du métro de Washington. 7 0 http://www.presselite.com/iphone/washingtonmetro/

70 http://www.presselite.com/iphone/washingtonmetro/

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

http://www.presselite.com/iphone/washingtonmetro/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v- 60

60

Zoom sur quelques initiatives d’ouverture des données

Animation des communautés de développeurs

Si le fait de trouver un espace “Developer Ressources” sur le site d’un opérateur de transport constitue en soit une belle avancée, les démarches d’ouverture des données de transport se limitent généralement à la fourniture des données brutes.

Néanmoins, certains opérateurs s’engagent plus fortement et initient une démarche d’animation de communauté de développeurs : organisation de barcamp, animation de communauté via Twitter et autres Google Groups, mise en avant au sein du site web de l’opérateur de transport des applications développées en externe.

de transport des applications développées en externe. Google Transit Feed Specification Google se positionne comme

Google Transit Feed Specification

Google se positionne comme un acteur de la mutualisation des données de transport afin d’intégrer des fonctionnalités avancées de guidage (piéton / voiture / transport collectif) au sein de son service de cartographie Google Maps.

au sein de son service de cartographie Google Maps. Google, en partenariat avec des organismes de

Google, en partenariat avec des organismes de transport, a spécifié un format ouvert pour l’échange des données de transport, le Google Transit Feed Specification (GTFS) qui intègre les données relatives aux horaires des transports ainsi qu’aux données géographiques associées. Plus de 115 opérateurs de transports ont à ce jour publié leurs données au format GTFS 71 .

71 http://code.google.com/p/googletransitdatafeed/wiki/PublicFeeds Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

Web des données, données ouvertes © Sofrecom Janvier 2010 - v- 61

61

Zoom sur quelques initiatives d’ouverture des données

Zoom sur quelques initiatives d’ouverture des données Web des données, données ouvertes © Sofrecom Janvier 2010

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

sur quelques initiatives d’ouverture des données Web des données, données ouvertes © Sofrecom Janvier 2010 -

62

Zoom sur quelques initiatives d’ouverture des données

4.3

Backtype

quelques initiatives d’ouverture des données 4.3 Backtype Backtype est agrégateur de commentaires de blogs et

Backtype est agrégateur de commentaires de blogs et réseaux sociaux. Ce service vise deux cibles distinctes :

- Backtype : les utilisateurs finaux, à qui il propose d’agréger les commentaires postés sur les différents services et sites qu’ils fréquentent, de les agréger au sein du service Backtype et de suivre les discussions qu’ils suscitent.

- Backtype Connect : les blogueurs à qui il propose de scanner différentes sources (Twitter, Friendfeed, Digg, Reddit) afin d’y repérer les commentaires sur leurs posts émis par les utilisateurs de Backtype, les liens vers les articles du blogueur et de les intégrer au sein du flux de commentaires en-dessous du post du blog.

Backtype et l’ouverture des données

L’API Backtype Connect correspond à une ouverture de données puisqu’elle permet à un développeur de rechercher des termes au sein de la base de commentaires constituée par Backtype. Le service opère une indexation massive de commentaires, indépendamment de la plateforme initiale sur laquelle ceux-ci sont publiés (Blogger, Wordpress, TypePad et autres Digg, Reddit).

L’ouverture et la possibilité de rechercher au sein de la base de données de Backtype s’inscrit dans les démarches d’ouverture des acteurs du web social, qui visent à valoriser le capital informationnel social ainsi agrégé, à l’instar du service Summize, racheté par Twitter, et qui permet de rechercher dans l’ensemble des tweets publics.

Formats

associées

des

données

et

licences

tweets publics. Formats associées des données et licences Lors des requêtes effectuées par les développeurs, les

Lors des requêtes effectuées par les développeurs, les données sont restituées au format JSON ou XML. L’API est mise à disposition pour tout type d’exploitation, commerciale ou non, mais est limitée à 1000 requêtes par jour.

Selon les conditions d’utilisation du service, les utilisateurs de Backtype peuvent associer des licences d’exploitation de la compilation (et seulement la compilation) de leurs commentaires. Les utilisateurs peuvent théoriquement verser explicitement leurs commentaires dans le domaine public.

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

leurs commentaires dans le domaine public. Web des données, données ouvertes © Sofrecom Janvier 2010 -

63

Zoom sur quelques initiatives d’ouverture des données

Extrait des conditions d’utilisation du service :

User posted content: For your content, you can label your compilations with one of several possible licenses. It is important to note that you can only copyright the compilation itself, not the individual links that make up the compilation. Please also note that just because your compilation does not have a license agreement attached to it does not mean that it is public domain. For a compilation to be classified as such, it must be explicitly labeled as belonging to the public domain. Your use of a license in connection with your compilation does not affect BackType's right to access and use it in connection with the Services, the Site or otherwise in connection with our business

Il faut néanmoins noter qu’il ne nous pas été possible de réaliser ces opérations lors de notre test du service.

Exploitation de l’API de Backtype

Le service Programmable Web recense à ce jour 3 mashups construits autour de l’API de Backtype.

Congress SpaceBook 72 :

Congress SpaceBook est un service web développé dans le cadre du challenge de développeurs « App for America 73 ». Ce service vise à émuler une plateforme de réseau social dont les seuls membres sont ceux du Congrès.

Il repose sur les APIs de BackType, Capitol Words, Eventful, Flickr, FriendFeed, Google Search, Google Social Graph, OpenSecrets, Technorati, Yahoo Search et Youtube. Le service expose une biographie, les dépenses, historiques des votes et projets de lois proposés, ainsi que les influences qui existent entre les membres du congrès.

Le « source code » du service est disponible sur Github.com et l’application a été rendue open source.

72 http://congressspacebook.com

73 http://sunlightlabs.com/appsforamerica/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

7 3 http://sunlightlabs.com/appsforamerica/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v- 64

64

Zoom sur quelques initiatives d’ouverture des données

Zoom sur quelques initiatives d’ouverture des données Spy 7 4 Spy est un service web de

Spy 74

Spy est un service web de suivi de conversation apparaissant sur les plateformes sociales telles que Twitter, Friendfeed, Flickr ainsi que sur les blogs. Le service Spy s’appuie sur les APIs de BackType, Flickr, FriendFeed, Twitter et Yahoo BOSS.

APIs de BackType, Flickr, FriendFeed, Twitter et Yahoo BOSS. 7 4 http://spy.appspot.com/ Web des données, données

74 http://spy.appspot.com/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

et Yahoo BOSS. 7 4 http://spy.appspot.com/ Web des données, données ouvertes © Sofrecom Janvier 2010 -

65

Zoom sur quelques initiatives d’ouverture des données

TweetzCloud 75

TweetzCloud est un outil de tracking de services web conversationnels. Il permet de définir une liste de noms de domaines et de surveiller les liens postés sur Twitter vers ces domaines ou des domaines concurrents.

Le service Spy s’appuie sur les APIs de BackTweets et BackType.

75 http://tweetzcloud.com/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

et BackType. 7 5 http://tweetzcloud.com/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

66

Zoom sur quelques initiatives d’ouverture des données

4.4

Pachube

Description

Pachube est un service web qui permet de connecter et partager en temps réel les données d’un capteur, quel qu’il soit. Ce service vise à faciliter l’interaction entre les environnements physiques et virtuels, les données d’un capteur physique pouvant alimenter un site web ou un objet dans un monde virtuel comme Second Life.

web ou un objet dans un monde virtuel comme Second Life. Format des données En entrée,

Format des données

En entrée, il est possible de fournir les données au service à l’aide d’une interface de type Web Service REST, des APIs, ou via des cartes Arduino 76

En sortie il est possible d’exploiter librement les données du réseau via des flux RSS. Les données sont fournies au format CSV, XML et JSON. Pachube offre également des outils de visualisation de ces données comme un tableau de bord iGoogle.

76 Arduino est un ensemble open-source pour l'expérimentation électronique, qui permet de créer des prototypes d'objets ou d'environnements interactifs. Il est composé d’une partie matérielle, la carte électronique équipée d'un microcontrôleur (l'équivalent d'un ordinateur très compact, peu gourmand en énergie) et d’une partie logicielle. La carte électronique qui peut recueillir des signaux numériques ou analogiques émis par des capteurs de tous types, les analyser et les transmettre. Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

de tous types, les analyser et les transmettre. Web des données, données ouvertes © Sofrecom Janvier
de tous types, les analyser et les transmettre. Web des données, données ouvertes © Sofrecom Janvier
de tous types, les analyser et les transmettre. Web des données, données ouvertes © Sofrecom Janvier
de tous types, les analyser et les transmettre. Web des données, données ouvertes © Sofrecom Janvier

67

Zoom sur quelques initiatives d’ouverture des données

Zoom sur quelques initiatives d’ouverture des données Ces données sont décrites au format EEML. L’Extended

Ces données sont décrites au format EEML. L’Extended Environments Markup Language 77 désigne un format de partage de données de capteurs en cours de spécification. Celui-ci permet de décrire les formats de données de capteurs ainsi que les métadonnées décrivant la capture et la source de ces données.

Ouverture des données

Le format EEML est un projet qui porte en soi la volonté d’ouvrir ces données environnementales, récoltées via des capteurs. Ce format permet en effet aux installations, immeubles, appareils électroniques qui collectent actuellement des données environnementales de partager ces ressources informationnelles en temps réel, au sein de leur propre organisation ou avec une communauté externe, à l’instar de celle de Pachube.

La volonté derrière ce projet est de fournir aux décideurs une perspective élargie en matière environnementale.

une perspective élargie en matière environnementale. 7 7 http://www.eeml.org/ Web des données, données

77 http://www.eeml.org/ Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

Pachube ne propose pas aux utilisateurs de partager des données dans le cadre de licences Open Data. Lors du partage de données, l’utilisateur ne peut donc pas choisir de partager ses données sous licence CC0 ou PDDL.

De même il n’est pas précisé le type d’exploitation qui peut être fait des données rendues accessibles à la communauté Pachube.

pas précisé le type d’exploitation qui peut être fait des données rendues accessibles à la communauté

68

Zoom sur quelques initiatives d’ouverture des données

Application

De nombreux projets de développeurs indépendants gravitent autour de la fourniture ou de la visualisation des données environnementales Pachube. Parmi ces projets, les plus matures jouissent d’une exposition au sein du service via une galerie d’applications. On y retrouve quatre services permettant de nourrir un flux de données et une dizaine de services permettant la visualisation de ces données.

Services d’ajout de données :

- Status2Pachube : service de conversion d’un statut de messagerie instantanée en flux de données Pachube.

- PachTweet : mise à jour d’un flux de données Pachube via Twitter.

- CurrentCost2Pachube : mise à jour d’un flux de données Pachube via les produits de mesure de sa consommation électrique « Current cost » 78 .

- Remote Control Arduino : mise à jour d’un flux de données Pachube via une carte Arduino.

Services de visualisation des données :

- Pachube viewer et PachubeMon : application Android et Iphone de visualisation d’un flux de données Pachube.

- PachuBlog : Widget de visualisation à insérer dans un blog.

- Carbon footprint : outil de conversion d’un flux de consommation énergétique en empreinte carbone.

- PachuDial : Widget de visualisation de flux de données.

- PachuDial : Widget de visualisation de flux de données. - Pachube2SketchUp : outil de conversion

- Pachube2SketchUp : outil de conversion d’un flux de données vers Google Sketchup, le logiciel de partage de modèle 3D.

vers Google Sketchup, le logiciel de partage de modèle 3D. 7 8 http://www.currentcost.com/products.html Web des

78 http://www.currentcost.com/products.html Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

3D. 7 8 http://www.currentcost.com/products.html Web des données, données ouvertes © Sofrecom Janvier 2010 - v- 69

69

Zoom sur quelques initiatives d’ouverture des données

- Pachube Explorer : explorateur en language Flex des flux de données.

- Pachube Viz : outil de création de graphiques à partir des flux de données.

- Pachube Google Gadget : Widget pour Igoole, destiné à la visualisation de flux.

- Trails : création d’une carte de projection des données de géolocalisation d’un flux de données (repose sur Open Street Maps).

Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

flux de données (repose sur Open Street Maps). Web des données, données ouvertes © Sofrecom Janvier

70

Zoom sur quelques initiatives d’ouverture des données

4.5

ENRON

En mai 2002, suite à la mise en faillite d’Enron, un corpus de mails provenant de 160 seniors managers d’Enron a été rendu public par la FERC 79 , qui enquêtait sur les raisons de cette faillite. Près d’un demi million d’emails, recouvrant une période de 3,5 années ont ainsi été mis à disposition du public. Il s’agit du plus grand corpus de mails réels émanant d’une unique entité et aujourd’hui accessible à la communauté de chercheurs.

Le fichier source est aujourd’hui disponible sur le site http://www.cs.cmu.edu/enron et il existe des services en ligne permettant d’effectuer des recherches dans la base de

données

http://orange.sims.berkeley.edu/~atf/enron/enron.cgi ).

et

d’emails

(Enronemail.com

Les chercheurs travaillant sur les réseaux sociaux, les théories de l’organisation, se sont emparés de cette base de données qui offrait une rare opportunité d’étudier les processus sociaux et organisationnels au sein d’une entreprise réelle et ce, sur une longue période. Les données brutes contiennent des communications, connaissances, relations, ressources et évènements relatifs à une entreprise en crise.

De nombreuses études ont pu être menées sur la base de ce corpus de mails :

- Étude des relations entre les entités sociales du groupe et de l’évolution de ces dynamiques avec l’avancée de la crise Enron. 80

- Détermination a posteriori des raisons de l’effondrement d’Enron : étude des comportements des salariés vis-à-vis des emails.

- Étude des réseaux de communications d’email pour la détermination des organisations informelles au sein du Groupe.

- Identification d’acteurs clés d’une organisation : influenceurs, leaders, innovateurs, communicants, fraudeurs et de leurs comportements associés 81 .

- Analyse de la dissémination des informations au sein d’un réseau social. Étude réalisée pour le compte de fournisseurs de services 82 .

- Évaluation de méthodes de classification de bases de données massives 83 .

- Évaluation de méthodes de surveillance des emails 84 .

- Détection de hiérarchie sociale au sein d’un groupe à partir de l’analyse de leurs échanges électroniques 85 .

- Identification du sexe du groupe d’un membre social par l’analyse de ses communications électroniques 86 .

- Évaluation des systèmes de détection automatique d’intrusion 87 .

79 Federal Energy Regulatory Commission

80 Communicatin Network from the Enron Email corpus, Peter A.Gloor

81 Identifying Potential Suspects by Temporal Link Analysis, Deepak P, D. Garg, and V. K. Varshney (IBM)

82 Analyzing the ENRON Communication Network Using Agent-Based Simulation, Shinako Matsuyama (Sony)

83 Enron Data Revisited - Neighborhood Queries with FastBitWin over Popular Commercial Database System, Kurt Stockinger, Doron Rotem, Arie Shoshani, Kesheng Wu

84 Text Mining Approaches for Email Surveillance, Michael W. Berry and Murray Browne

85 Automated Social Hierarchy Detection through Email Network Analysis, Ryan Rowe, Shlomo Hershkop

86 Gender Identification from E-mails, Na Cheng, Xiaoling Chen, R. Chandramouli, K. P. Subbalakshmi

; CHAO

87

Redesign and Implementation of Evaluation Dataset for Intrusion Detection System, JUN QIAN XU; MEILIN SHI Web des données, données ouvertes © Sofrecom Janvier 2010 - v-

Intrusion Detection System, JUN QIAN XU; MEILIN SHI Web des données, données ouvertes © Sofrecom Janvier
Intrusion Detection System, JUN QIAN XU; MEILIN SHI Web des données, données ouvertes © Sofrecom Janvier

71

Évaluer