Vous êtes sur la page 1sur 4

Rponse la consultation CoDesign Data.gouv.

fr
Nom : Samuel Gota [X] Je souhaite la publication de ma contribution Adresse mail : samgoeta [chez] gmail [point] com [X] Je souhaite tre invit aux ateliers de travail

Pouvez-vous prciser brivement les raisons votre intrt pour lopen data : Co-fondateur et administrateur du groupe franais de lOpen Knowledge Foundation, une communaut internationale qui promeut le savoir libre et les donnes ouvertes comme vecteurs de changement social, je participe la promotion de lopen data comme un outil important du rapprochement entre gouvernement, administration et citoyen et comme une des conditions de laccountability, cest dire la capacit de lEtat de rendre compte de son administration aux citoyens (article 15 de la DDHC). Je suis par ailleurs doctorant en sociologie Telecom ParisTech et jtudie limpact des politiques dopen data sur la production et la gouvernance des donnes publiques. Je prcise que les opinions exprimes ici le sont titre personnel et nengagent ni les membres de lOpen Knowledge Foundation ni mon employeur Telecom ParisTech.

Les questions du dbat


1. Comment amliorer la collecte et la pertinence des donnes ? (Sourcing collaboratif, accueil de donnes crowd-sources, indexation collaborative, autres pistes ?) A lheure actuelle, data.gouv.fr ne permet pas aux utilisateurs de commenter les donnes publiques publies ni dapporter des corrections. Cest pourtant un des bnfices attendus de lopen data pour les administrations qui peuvent obtenir un retour sur les donnes publies et ainsi les amliorer. Pour rpondre cet enjeu, plusieurs solutions sont possibles : - proposer un systme de pull requests comme le propose le site GitHub : lutilisateur pourrait alors proposer des modifications directement implmentables dans le fichier (la diffrence entre les deux fichiers est visible) ; ladministration nest pas oblige de prendre en compte mais en les rendant publiques, les utilisateurs peuvent tenir compte des modifications effectues par dautres - disposer de la possibilit de commenter un jeu de donnes - disposer dun espace associ au jeu des donnes dans lequel les utilisateurs peuvent publier en open data la donne modifie. Les pratiques de coproduction de donnes pourraient tre mises en place. Des plateformes comme Crowdcrafting, un projet open source de lOpen Knowledge Foundation (http://crowdcrafting.org/) , permettent nimporte qui daccomplir de petites taches afin de transformer un document en une donne. On pourrait imaginer que la nouvelle plateforme data.gouv.fr permette aux administrations de mettre disposition des documents pour en faire des donnes facilement utilisables en ayant recours aux contributions des citoyens. Des administrations pourraient aussi organiser des cartoparties pour alimenter Open Street Map et disposer de nouvelles donnes dont elles ont besoin. En matire dindexation, il manque pour lutilisateur la possibilit de marquer les jeux de donnes qui paraissent intressants sur une thmatique pour faire des listes de donnes qui pourraient tre publiques. Des pratiques de folksonomie pourraient tre rendues possibles en proposant aux

utilisateurs de complter les mots cls associs un jeu de donnes. Enfin, une volution essentielle de data.gouv.fr consiste en la gestion des versions des donnes publies. Une mise jour dun jeu de donnes ne devrait pas craser la version prcdente car des utilisateurs peuvent y avoir eu recours, une donne publique doit rester publique. A lheure actuelle, chaque mise jour dun jeu de donne cre une nouvelle entit. La page de la donne doit permettre de retrouver les diffrentes versions publies et les associer comme un seul jeu de donnes. 2. Comment faciliter la rutilisation et lexploitation des donnes ? (Quel degr dinterprtation des donnes par Data.gouv.fr ? Transformation des formats ? Prsentation s dindicateurs, de tableaux de bords ? Datavisualisations ?) A mon sens, data.gouv.fr doit proposer pour chaque jeu de donnes deux versions diffrentes : - la donne primaire au sens du fichier dans le format et la disposition dans lesquels lagent publie sa donne ; - la donne retravaille dans un format ouvert et exploitable par la machine, comme le CSV. La premire version doit permettre aux citoyens davoir une comprhension du contexte de production et de traitement de la donne publique. En disposant des fichiers source, le citoyen a une complte connaissance des donnes qui ont servi llaboration des rapports qui guident les politiques publiques. La seconde version, en format CSV retravaill, assure que la donne peut tre utilise facilement par des dveloppeurs et peut tre visualise simplement directement dans le portail open data, une fonctionnalit propose par la plateforme CKAN de lOpen Knowledge Foundation. Plutt que de prsenter des indicateurs et des tableaux de bord qui demandent un investissement couteux, la prochaine version de data.gouv.fr devra proposer des donnes dans ces deux formats et des fonctionnalits de prvisualisation simples sur le portail open data utilisant la donne retravaille. Idalement, les donnes retravailles pourraient tre standardises pour faciliter une rutilisation la plus simple possible des donnes. LOpen Knowledge Foundation propose ainsi depuis peu un standard de donnes utilisables sans friction (frictionless data) dcrit sur le site data.okfn.org et dfini par : - des jeux de donnes versionns utilisant loutil git trs rpandu dans le monde de lopen source - des packages de donnes dans un standard ouvert dit Simple Data Format (http://www.dataprotocols.org/en/latest/simple-data-format.html) comprenant des mtadonnes compltes et si possible indiquant les conditions de production de la donnne publique (essentiel pour une rutilisation qui tient compte de la nature subjective de toute donne) - les donnes dans un format CSV - le schma de la donne dans un format JSON dcrivant la donne. Plutot que de faire un travail de datavisualisation ou de mise en place de tableaux de bord qui serait couteux et ncessiterait de faire limpasse sur certains aspects du travail ncessaire sur les infrastructures de circulation des donnes de lEtat, Etalab pourra faciliter la rutilisation en : - faisant la curation des jeux de donnes les plus intressants pour les citoyens en fonction des centres dintrt ou de lactualit ; - assurant une veille et la promotion des rutilisations les plus pertinentes ; - encourageant et ventuellement stimulant la rutilisation de certains jeux de donnes en organisant des vnements de rutilisation avec les citoyens et les entreprises concernes. Les

applications dveloppes pourraient tre rutilises directement par les organismes producteurs de donnes. 3. Quelle doit re lexprience utilisateur sur le site ? (Exprience de recherche de donnes ? Accompagnement de dbats de socit ? Espaces collaboratifs ? Espace personnel ? Portail de la communaut open data ?) En ce qui concerne la recherche de donnes, deux fonctionnalits doivent tre distingues : 1. la recherche par facettes : cet aspect doit tre privilgi mon sens. En effet, il me semble esssentiel de raccrocher les jeux de donnes lentit qui la produite pour mettre en contexte la production des donnes et valoriser le travail des agents. Par exemple, les donnes des lections nationales sont synthtises et collectes par le Bureau des Elections du Ministre de lIntrieur : si je cherche dans lespace de ce producteur de donnes directement, je peux plus facilement avoir accs toutes les donnes quil produit. En multipliant les facttes comme lanne concerne, je peux rapidement trouver la donne que je recherche. Avantage : cela permet de mieux faire comprendre le fonctionnement des administrations. Inconvnient : cela ncessite de bien connaitre le fonctionnement de lEtat. 2. la recherche par le biais du moteur de recherche : lexprience utilisateur actuelle nest pas satisfaisante et les rsultats sont rarement pertinents. Pour simplifier, je pense quil faudrait proposer une recherche qui prsente les rsultats par niveau : dabord une recherche du mot cl dans le titre puis dans la description et les mtadonnes puis dans la donne elle-mme et enfin dans les tags crowdsourcs. Au del des fonctionnalits de recherche voques prcdemment, la page daccueil pourrait proposer deux autres types dentre : - en fonction de lactualit : les jeux de donnes qui font lactualit ou qui pourrait complter les dbats actuels - une entre communautaire, par thmatique, comme le fait data.gov, proposant une slection de jeux de donnes les plus intressants et des espaces de discussion entre utilisateurs de donnes dans une thmatique avec si possible la participation de reprsentants des adminstrations concernes. Un portail de la communaut open data napporterait pas une grande valeur ajoute, tant donn que cette communaut est dj bien soude et structure. Il serait intressant de renvoyer vers les ressources les plus intressantes pour comprendre lopen data ralise par les diffrentes associations. Le travail danimation de communaut doit mon sens se concentrer sur la prise de conscience des parties prenantes de chaque secteur de la socit de la valeur de lopen data pour leur action. Ainsi, Etalab aura plus un rle jouer pour insister les acteurs de lenvironnement par exemple sintresser aux donnes disponibles. 4. Comment favoriser la rutilisation et linnovation partir de la plateforme ? (Liste de ressources technologiques ? Annuaire de startups ? Outils pour les dveloppeurs ? Exemples de rutilisations possibles) La plateforme CKAN propose aux utilisateurs dindiquer sur la page dun jeu de donnes les liens vers les rutilisations quil a vu ou effectu, cest un bon moyen de montrer la valeur des donnes ouvertes. Il pourrait tre intressant de permettre aux visiteurs de suggrer des ides de rutilisations potentiellees. En complment de ces nouvelles fonctionnalits participatives, Etalab pourrait publier rgulirement des case studies pour prsenter de manire ditorialise des cas de rutilisation de donnes remarquables.

Pour encourager la rutilisation des donnes, des listes doutils ouverts pourraient tre publies avec des liens vers des tutoriaux. En complment, il me semble important de proposer des ressources destination des enseignants qui pourraient avoir recours aux donnes publiques ouvertes dans leurs cours. Par exemple, data.gov publie en partenariat avec le Department of Education une page qui renvoie vers des ressources intressantes pour lutilisation des donnes publiques dans les classes de tous les niveaux : http://www.data.gov/education/page/datagov-classroom. Alors quon voque sans cesse le monde de donnes dans lequel vont grandir les prochaines gnrations, lcole peut favoriser un regard critique des lves sur les donnes tout en leur donnant lenvie de les rutiliser pour leur donner du sens. 5. Comment mieux insrer data.gouv.fr dans le rseau des ressources open data ? (Annuaires des ressources nationales ? Liens avec fichiers complmentaires ? Autres pistes ?) Data.gouv.fr pourrait renvoyer sur des jeux de donnes particuliers vers des ressources similaires ou complmentaires au niveau local comme au niveau international. 6. Comment construire un retour vers les administrations qui partagent leurs donnes ? (Enrichissement des donnes ? Crations de rfrentiels de coproduction avec les citoyens ? Autres suggestions ?) Dj voqu la question 1