Vous êtes sur la page 1sur 12

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/310749385

Évaluation de la qualité des données OpenStreetMap sur la Sarthe et réflexion


sur le processus de contribution

Article · April 2012

CITATION READS

1 215

3 authors, including:

Jean-Michel Follin
Conservatoire National des Arts et Métiers
33 PUBLICATIONS   73 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Fusieau View project

ANCRES View project

All content following this page was uploaded by Jean-Michel Follin on 23 November 2016.

The user has requested enhancement of the downloaded file.


SIG

Évaluation de la qualité des données


OpenStreetMap : sur la Sarthe et
réflexion sur le processus de contribution
Ophélie PETIT - Pierrick BILLON - Jean-Michel FOLLIN

L’École supérieure des géomètres topographes (ESGT) s’intéresse de près à OpenStreetMap


MOTS-CLÉS
(OSM), un projet de cartographie libre et collaborative. Dans le cadre de projets d’élèves de
troisième année se déroulant début 2011, la qualité des données routières d’OSM a été évaluée OpenStreetMap, OSM,
estimation de la qualité,
pour le département de la Sarthe (Auber, Billon et Petit, 2011). La comparaison a été effectuée données géographiques
avec les données de référence françaises (le RGE de l'IGN) selon divers paramètres de qualité collaboratives, précision.
des données spatiales (géométrique, attributaire, exhaustivité). Ce papier offre un tour
d’horizon des études européennes menées autour de la qualité d’OpenStreetMap, propose une méthodologie
de caractérisation des données OSM, explique comment des indices ont été mis en œuvre et enfin présente une analyse
critique des modes de contribution ainsi que des réflexions concernant l’amélioration du processus. Il montre que si le
réseau routier d'OSM se caractérise par une exactitude géométrique suffisante en vue d’une utilisation dans un SIG,
des attributs en nombre réduit mais fréquemment renseignés et une précision sémantique satisfaisante, il présentait,
en janvier 2011, une couverture faible voire inexistante dans les zones rurales. Cependant, ce manque d’exhaustivité
s’est réduit en l’espace d’un an, entre les mois de janvier 2011 et 2012 la longueur du du réseau sarthois représenté
dans OSM a doublé atteignant près de 35 % du réseau présent dans le référentiel à grande échelle.

Introduction nelles ou commerciales (dans le cadre Historique et objectifs du projet


de services) font le succès d’OSM. En réaction au caractère privé de l'in-
Connaissez-vous OpenStreetMap ? Ce
Pour preuve, de nombreux services formation géographique dans la majo-
projet né il y a six ans au Royaume-Uni
émergent, par exemple le calculateur rité des Etats, le britannique Steve
fait partie de la grande famille de l’in-
d'itinéraire à vélo disponible sur le Coast met en place en 2004 un portail
formation géographique volontaire
site de la ville de Paris cartographique pour importer les
(VGI, Volunteered Geographical
(www.vgps.paris.fr) ou encore l'initia- données GPS et produire une carte
Information) et il en est certainement le
tive opennoisemap d'universitaires libre, gratuite et collaborative.
représentant le plus significatif.
allemands (www.opennoisemap.org) Depuis la création en 2006 de la fonda-
OpenStreetMap ou plutôt OSM suit le
qui constitue une cartographie du tion OpenStreetMap, le nombre de
modèle de “peer production” déve-
bruit sur la base de contributions indi- contributeurs augmente de manière
loppé par Wikipedia : son principe est
viduelles. De plus en plus d’entre- exponentielle atteignant à ce jour plus
de créer et faire vivre une base de
prises, d’universités et de particuliers de 500 000.
données géographique vectorielle à
utilisent OSM et de plus en plus de L’objectif premier de constituer une
grande échelle couvrant l'ensemble de
collectivités y participent. Par ailleurs base de données exhaustive du réseau
la planète sous licence “libre”, c'est-à-
des conventions ont été passées avec routier a été élargi avec la prise en
dire librement utilisable et éditable.
des fournisseurs de données comme compte de nombreux autres thèmes
La plupart des cartes actuelles, mêmes la Direction générale des finances tels que les points d’intérêt, l’occupa-
gratuites, sont soumises à des licences publiques (DGFiP) et la société tion du sol et le réseau hydrogra-
souvent restrictives. De même, les Microsoft qui mettent à disposition phique. Toutes les données
services en ligne édités par des institu- leurs données comme source de digi- géolocalisables peuvent être intégrées
tionnels (comme le Géoportail de l'IGN) talisation : respectivement le plan dans OSM à condition de leur définir
et surtout des sociétés privées (comme
Google Maps) limitent l’utilisation de
cadastral informatisé français et l'ima-
gerie aérienne et satellitaire Bing
un “tag” c'est-à-dire un attribut. q
(1) Comité technique de l'ISO visant à
cartes à des consultations dans un Maps. Cependant, à l’ère de l’inter- établir un ensemble de standards pour
l'information géographique numérique.
cadre personnel. opérabilité et des standards de (2) La question de la qualité se pose par
l’ISO/TC 2111, une telle base de rapport à l'utilisation de ces données
La gratuité des données et la possibi- dans un SIG (recherche de rues, divers
données géographique est-elle de traitements simples) comme nous le
lité de les utiliser à des fins person-
qualité2 ? verrons par la suite.

Revue XYZ • N° 131 – 2e trimestre 2012 37


SIG

réalité ? Mais avant toute chose,


comment évaluer la qualité d’une jeu
de données géographique ?

Etat de l’art sur


l’évaluation de la qualité
d’OSM
Les premiers travaux sur la qualité de
l’information géographique sont
apparus dans les années 60 avant de
se multiplier avec le développement
des SIG dans les années 80. (Van Oort
source : WIKI OSM

P., 2006) a recensé les plus significa-


tives et a dégagé les critères de qualité
qui font consensus. Il a ainsi comparé
les travaux d’Aronoff, de l’USA-SDTS4,
de l’International Cartographic
Figure 1. Nombre de contributeurs (échelle logarithmique) Association, du Comité Européen de
Normalisation CEN/TC287 et les
q Limites et avantages Notre objet d’étude, le réseau routier,
normes ISO 19113 (concernant la
Le grand atout d’OpenStreetMap est en plus d’être l’objectif initial
qualité) et ISO 19114 (traitant son
sa licence libre qui permet à la fois une d’OpenStreetMap présente un véri-
évaluation). Il dégage ainsi différents
exploitation large des données mais table enjeu en termes de qualité puis-
critères de qualité dont seuls trois vont
aussi leur protection (licence virale). qu’il est fréquemment utilisé pour la
être explorés dans cette étude :
Une communauté dynamique, impor- simple recherche d'une rue d'après son
- la précision géométrique (positionnal
tante et soudée améliore la coordina- nom ou le calcul d’itinéraires. S’il
accuracy) qui donne une estimation
tion des travaux et encadre l'évolution semble encore trop tôt pour charger le
des écarts entre la position réelle d’un
d'OSM. Par exemple elle a défini à réseau routier OpenStreetMap français
point et sa position décrite dans le jeu
travers les “map features” une dans un GPS de voiture en raison de
de données ;
nomenclature permettant de décrire défauts de couverture et du manque de
- la précision attributaire (attribute
de façon homogène les objets carto- renseignement de certains attributs
accuracy) comprenant selon l’auteur
graphiés avec le système des tags. notamment dans les zones rurales
la précision sémantique (semantic
(sens unique, noms de voie...), l’utilisa-
De plus en plus d’organismes privés accuracy), qui quantifie les erreurs
tion d’OpenStreetMap est envisa-
soutiennent financièrement Open- portant sur les propriétés “littérales”
geable pour certaines fonctions
StreetMap (Microsoft en 2010) ou des données. Pour le cas des
d’analyse spatiale comme, par
offrent de nouveaux services3 basés données routières il s’agirait d’une
exemple, la création d’une zone
sur ses données (applications de smart- route nationale considérée dans la
tampon autour de routes d'importance.
phones, logiciels). Cependant, comme base de données comme une auto-
La Sarthe a été choisie pour cette étude
l’a annoncé Steve Coast en 2011, le route ;
car elle offre un réseau routier diversifié
nouveau défi d’OpenStreetMap est - et l’exhaustivité (completeness) qui
(autoroutes, voies secondaires,
l’amélioration de sa qualité. En effet, il quantifie les manques et les excès,
tertiaires, voies résidentielles,
apparaît dans les études que nous c'est-à-dire la non représentation
chemin…) ainsi qu'une grande variété
présenterons en partie 2 que les d’une donnée présente dans le
de zones en terme d'urbanisation
données OSM souffrent d'un certain monde réel ou inversement.
(zones urbaines densément peuplées,
nombre de défauts liés au fonctionne-
zones périurbaines en développement,
ment même du projet (hétérogénéité, La précision géométrique
zones rurales). La disponibilité des
faiblesse dans les zones peu peuplées, En 2008 Mordechai Haklay rédige une
données et la situation géographique
etc.). des premières analyses de la qualité
de l'ESGT ont également guidé le choix.
d’OSM. Cette étude se concentre sur la
Objectifs de l’étude En plus d’une étude quantitative et ville de Londres et sur l’Angleterre.
Le but de l’étude est non seulement qualitative de différents paramètres de Cette précision géométrique est
d’effectuer un état de l’art des qualité, il s’agit de proposer une
recherches autour de la qualité des méthodologie de contribution. (3) Cloudmade et GeoFabrik depuis 2007,
données VGI, mais aussi d’évaluer la Certains contributeurs affirment, par Mapquest depuis 2010.
(4) USA-SDTS United States of America
qualité des données routières issues exemple, que le GPS offrirait la spatial data transfer standard: format de
d’OpenStreetMap sur le département meilleure qualité en termes d’exacti- fichier permettant la distribution de
données géospatiales et contenant une
de la Sarthe. tude géométrique. Qu'en est-il en partie définition de la qualité.

e
38 Revue XYZ • N° 131 – 2 trimestre 2012
calculée selon deux techniques : une Le COGIT est un laboratoire de l’IGN couverture géométrique s’est
comparaison statistique et une qui étudie les problématiques liées à améliorée de 18,6 % entre mars 2009 et
comparaison visuelle. La comparaison l’utilisation des données topogra- mars 2010 tandis que la progression
statistique est basée sur une analyse phiques vectorielles. De récentes des renseignements attributaires n’a
effectuée par (Zulfiqar N. 2008) où la publications du laboratoire témoi- atteint que 9,6 %. La raison principale
précision de localisation est déter- gnent de l’intérêt grandissant de l’IGN est qu’il est nécessaire de faire un levé
minée en comparant un échantillon de pour les projets collaboratifs comme sur le terrain pour trouver le nom
segments d’autoroutes OSM à des OpenStreetMap. d’une rue (sinon il y a violation des
données bien plus précises : celle de copyrights).
Dans leur article (Girres etTouya, 2009)
l’“Ordonnance Survey”. Elle consi-
présentent leur étude de la qualité Dans les villes couvertes, des produits
dère qu’une analyse point par point ne
d’OSM. Ils expliquent leur démarche : tels que “sightwalk”8 vont s’avérer très
peut être menée en raison des diffé-
l’appariement5, le calcul de distance utile pour renseigner toutes ces bases
rences géométriques entre OSM et les
moyenne6 et de Hausdorff7 et analy- de données, les contributeurs pourront
bases de données de l’Ordonnance
sent leurs résultats. En comparant les retranscrire les noms inscrits sur les
Survey. Elle opte donc pour une
thèmes linéaires routiers, ils obtien- plaques des rues. Pour la France, la diffi-
analyse basée sur une technique de
nent une distance de Hausdorff culté est moindre puisque le Cadastre
zones tampon (Figure 2) développée
moyenne de 13,57 m, donc supérieure permet la copie de ses attributs.
par (Goodchild et Hunter, 1997). Elle
à la précision de la base de données de Dans (Girres et Touya, 2010), la “préci-
crée deux zones tampon : la ligne à
référence dont l’erreur moyenne sion” attributaire correspond à la
tester ayant un petit rayon (générale-
quadratique est de 2 m. Par exemple, qualité interne du jeu de données. Pour
ment 1 m) et la ligne de référence en
en étudiant les carrefours des thèmes son évaluation, les auteurs utilisent
ayant un plus fort. Elle calcule ensuite
routiers, ils obtiennent une distance de soit une approche quantitative avec
le recouvrement de ces deux surfaces.
Hausdorff moyenne de 6,65 m soit une l'indicateur du taux de renseignement
Selon la taille du “buffer”* choisi et le
erreur de position moyenne trois fois de cet attribut9, soit une approche
pourcentage de recouvrement, elle
supérieure à celle garantie par la BD qualitative.
détermine la précision. Par exemple,
TOPO®. En menant des calculs de Selon eux, la précision attributaire est
pour un “buffer” de 20 m et l’autre de
distance euclidienne ils obtiennent des réduite en raison de “l'absence de
1 m, elle obtient un recouvrement de
résultats nettement inférieurs. En effet, spécifications précises avec peu de
80 %. (Haklay M., 2008) montre quant
le principe de la distance de Hausdorff valeurs remplies pour les attributs
à lui que pour une zone tampon de 6
est de ne conserver que les résultats secondaires10 (29 %) et 40 % d'erreurs
m, approximativement 80 % des
les plus “désavantageux”. pour les attributs principaux comme le
données autoroutières des deux jeux
nom des lacs ou la nature de routes.”
se superposaient. Même si leurs méthodes et leurs jeux
de données sont différents, le COGIT et Pour l'évaluation de la précision
Aamer Ather, reprend cette méthode
les universitaires anglais obtiennent sémantique, les auteurs font corres-
dans (Ather A., 2009). Il utilise des zones
des ordres de grandeur similaires. pondre les classes de deux jeux de
tampon de 10 m pour les données du
données (ils associent les tags
“Integrated transport Layer” (données La précision attributaire
“motorway” et “primary” dans OSM
routières anglaises) et de 1 m pour Dans ses dernières recherches (Haklay q
OSM, et obtient entre 98 et 100 % de M., 2010) a évalué la quantité d’attri-
(5) L’appariement est une étape presque
recouvrement. En abaissant le “buffer” buts sur l’ensemble de l’Angleterre. Il a indispensable lorsque l’on souhaite
à 5,6 m, il descend à une classe de [96 - remarqué que cette dernière était très réaliser une étude de qualité
comparée. Son but est de mettre en
98 %] de recouvrement. Il conclut que la faible et progressait beaucoup plus correspondance des objets homo-
précision d’OSM est bonne. lentement que la géométrie. En effet, la logues, représentant la même réalité
afin d’effectuer une comparaison.
(6) La distance moyenne est un rapport
entre la surface séparant deux poly-
lignes et leur longueur moyenne.
(7) La distance de Hausdorff est un indica-
teur de similarité entre deux formes,
elle calcule la plus petite des distances
maximales entre les deux géométries.
Il s’agit donc d’un estimateur de qualité
défavorable.
(8) Concurrent allemand de Google Street
View : http://www.sightwalk.com. La
licence de Street View (Google Maps)
n’autorise pas les produits dérivés à
l'inverse de Sightwalk.
(9) Ce terme apparaît dans (Maué et
Schade, 2008) et dans (Guptill et
Morrison, 1995).
Figure 2 : Principe (10) Pour le réseau routier, les attributs
de la méthode secondaires peuvent être par exemple le
nombre de voies, la vitesse maximum, la
des buffers. nature du revêtement, les sens unique.

Revue XYZ • N° 131 – 2e trimestre 2012 39


SIG

au type de routes “primaire” dans le Heidelberg en Allemagne ont comparé


q référentiel à grande échelle - RGE) puis la quantité d’informations entre
calculent le nombre de correspon- TeleAtlas et OpenStreetMap. La
dances sémantiques exactes pour les comparaison a porté sur trois échelles
routes appariées des 2 jeux11. D’après distinctes : celle du pays, celles de
le COGIT (Girres et Touya, 2009) : “La villes moyennes et celles de grandes
précision sémantique dépend directe- villes. Pour réaliser leur étude sur les
ment de la clarté des spécifications : données de voirie ou “street network”,
les routes de nature "autoroute" ou les auteurs ont calculé la longueur
“principale” sont presque toutes justes totale du réseau choisi dans une zone
sémantiquement (comparaison auto- déterminée pour les deux jeux de
matique avec la BD TOPO®) mais les données. En cas de différence de
routes “résidentielles” ou “tertiaires”, longueur totale, ils ont considéré qu’un
plus floues, sont sémantiquement de leurs jeux de données était plus
fausses à 50 %.”. complet que l’autre. Ils en ont conclu
Cependant, comme l’ont souligné les que dans les grandes villes, OSM était
forums de contributeurs, il est difficile globalement plus riche queTeleAtlas et
de comparer les types de voies car ce dans toutes les catégories. De plus,
OSM et le RGE n’ont pas les mêmes comme l’avait montré Mordechai
critères. En effet les types de voies Haklay, ils ont constaté que la crois-
d'OpenStreetMap ont été conçues sance d’OSM était extrêmement
pour s'appliquer au réseau routier rapide. Les zones peu denses restent
mondial alors que celui du RGE s'ap- cependant insuffisamment couvertes.
plique exclusivement à France. De ce Haklay a montré que fin mars 2010 la
fait les “routes à une chaussée” dans le couverture de l’Angleterre était de
RGE recouvrent aussi bien les routes 69,8 % contre 51,2 % l’année précé-
“résidentielles” que les routes dente. En mai 2011, il a mis au point
Figure 3. Comparaison historique de
“tertiaires” dans OSM. une interface web permettant de
l'exhaustivité autour de Gloucester12
comparer l’exhaustivité d’OSM en
D’après Girres et Touya (2010), il est (carte carroyée ; légende : différence en
2008, 2009, 2010 et 2011 (cf. figure 3).
possible d’expliquer cette faible préci- mètres entre OSM et Meridian2)
Dans chaque cellule de la grille (taille
sion par :
de la maille : 1 km / 1 km), il calcule la
• une utilisation insuffisante de spécifi- (11) Pepijn van Oort regroupe les précisions
différence de longueur entre le réseau sémantiques et attributaires dans la
cations pourtant très détaillées. catégorie “précision attributaire”
OSM et Meridian2 (la base de
• la possibilité de créer de nouveaux comme le fait la norme ISO 19113. Nous
l’Ordonnance Survey au 1:50 000e). en ferons de même dans ce papier.
tags non présents dans les spécifica- (12) http://orca.casa.ucl.ac.uk/~ollie/
Par ailleurs, il a montré que des “cellules
tions, contrepartie d’une trop grande osmcompare/
vides” dans Meridian 2 disposaient de (13) http://beta.letuffe.org/
liberté.
• le manque de recommandations
concernant les noms : aussi bien le
format (capitales, préfixes…) que le
tag utilisé pour nommer un élément.

Les auteurs recommandent donc vive-


ment de standardiser les spécifications
afin d’améliorer aussi bien la précision
attributaire que sémantique. Ils
pensent “que l'amélioration de la
qualité des données OSM nécessite de
trouver l'équilibre idéal entre les spéci-
fications et la liberté de contribution.
Un moyen commode pour atteindre
un tel équilibre serait d'utiliser un
contrôle de cohérence automatique
avec cahier des charges strict.”

L’exhaustivité
Pour estimer l’exhaustivité, (Zielstra et Figure 4. Écart (%) du nombre de km de voirie entre le cadastre vecteur et
Zipf, 2010) de l’université de OpenStreetMap par commune - (auteurs : Frédéric Rodrigo et Sylvain Letuffe13).

e
40 Revue XYZ • N° 131 – 2 trimestre 2012
données dans OSM. Ce qui prouve que d’OSM sont issues de contributeurs sur quel axe il faut se baser. Nous
la communauté OSM crée ses propres volontaires qui ne bénéficient pas des avons été contraints de partir de l’hy-
données et a bien pour but de cartogra- mêmes moyens, mais qui œuvrent pothèse qu’OSM et le RGE avaient la
phier l’intégralité du territoire. pour créer une information dédiée au même notion d’axe de voirie afin d’ef-
SIG, accessible et utilisable pour tous. fectuer nos calculs de comparaison,
En France, des initiatives comparables
Ces deux bases de données n’ont donc mais cette absence de spécification
ont été menées par des contributeurs à
pas la même finalité. doit être prise en compte pour l’ana-
l’image de la carte de l’exhaustivité du
Par ailleurs les deux jeux sont diffé- lyse des résultats.
réseau routier OSM français (Figure 4).
rents aussi bien dans la structuration
Ici la référence est un réseau issu du
des données que dans les spécifica- Les Indicateurs
cadastre, résultant de l’interpolation à
tions (géométrie, attributs). Pour estimer la qualité, nous avons
partir des limites de parcelles. Cette
Dans le RGE, les relations topolo- effectué l’appariement des deux
carte permet aux contributeurs de
giques sont appuyées, comme pour la réseaux à l’aide du plugin Roadmatcher
repérer les communes moins bien
plupart la plupart des données géogra- du logiciel libre OpenJump. Nous
cartographiées dans OpenStreetMap.
phiques, sur une structure de graphe. avons ainsi pu obtenir des liens entre
Dans OpenStreetMap, les données des segments homologues que nous
Proposition d’une sont organisées en “primitives”. Il en avons pu exploiter à la fois pour le
existe trois types : calcul de l’exhaustivité, de l’exactitude
méthodologie d’évaluation
- les nœuds avec un identifiant, des tags géométrique, et de la précision attribu-
appliquée à des données et des coordonnées géographiques taire (taux de renseignement et compa-
sur la Sarthe - les chemins formés d’une succession raison sémantique). Pour effectuer les
Il existe une définition européenne de de nœuds avec un identifiant et des comparaisons OSM/RGE, le décou-
la qualité des données géographiques, tags, page des données a suivi le découpage
cependant, selon les pays, les - les relations rassemblant une ou communal. Cette unité de comparaison
méthodes pour l’estimer sont diffé- plusieurs primitives, chacune ayant est différente de celle de Hakley qui a
rentes. Les contributeurs ont élaboré en plus un attribut type “rôle”. Les opté pour un maillage du territoire.
leurs propres outils d’autocontrôle, relations permettent de lier ou de
Pour l’exhaustivité, un calcul de
comme QualityStreetMap, afin de modéliser des objets sans avoir à
densité du réseau a été mené selon la
produire des informations géogra- dupliquer des géométries (par
formule :
phiques fiables. Ces outils sont essen- exemple un parcours de bus).
Nombre de km de voie dans OSM/
tiellement dédiés :
Afin de normaliser l’acquisition de Nombre de km de voie dans le RGE *100
• à l’évaluation de la complétude attri-
données, l’IGN a mis en place un
butaire, Pour l’exactitude géométrique nous
cahier des charges sur lequel sont indi-
• à la vérification de la cohérence avons retenu la distance de Hausdorff
quées toutes les spécifications pour le
logique, (cf figure 5) utilisée par Girres etTouya.
levé. En ce qui concerne OSM il existe
• au suivi des modifications. La formule est la suivante, pour deux
également un document qui a pour but
Peu d’outils permettent le contrôle de polylignes composées de séries de
d’homogénéiser la représentation du
l’exactitude géométrique et pour sommets A= {a1, …, aNA } et B= {b1, …,
tracé, mais il n’existe pas de spécifica-
cause : des données de référence sont bNB }, la distance de Hausdorff H est :
tions concernant le levé. Par exemple,
nécessaires. Pour cette étude du
pour les tronçons de routes, le RGE H(A, B) = max(h(A,B), h(B,A))
réseau sarthois, la référence choisie est
s’appuie sur l’axe de la voie en tenant Où h(A,B) et h(B,A) sont les distances
le référentiel français : le RGE. Nous
compte du bas-côté, tandis que les euclidiennes entre les deux jeux de
comparerons donc le linéaire routier
spécifications OSM n’indiquent pas données.
d’OpenStreetMap au linéaire du RGE, q
dont la précision est métrique.

OSM et le RGE : deux bases de


données aux logiques différentes
Il faut bien souligner les différences de
finalité entre les données d'OSM et
celle du Référentiel à grande échelle :
Figure 5. Schéma décrivant l’indicateur de distance de Hausdorff
les données du RGE sont des données
de référence à l’échelle de la France,
l’IGN ayant une mission de service
public qui l’oblige à représenter l’en-
semble du territoire de manière
uniforme et avec une excellente
qualité. En revanche les données Figure 6. Schéma décrivant l’indicateur de distance euclienne moyenne

Revue XYZ • N° 131 – 2e trimestre 2012 41


SIG

q Nous lui avons associé un indicateur


de distance euclidienne qui nous a
dans le domaine public (Landsat,
TIGER, Corine Land Cover…),
GPS via des satellites de télécommuni-
cations. L’accès à ce segment d’aug-
paru donner un meilleur aperçu de la • digitaliser ou intégrer des données mentation est gratuit et ne nécessite
qualité globale du réseau. L’indicateur propriétaires (Imagerie aérienne Bing pas d’abonnement. Il permet d’at-
de distance euclidienne moyenne Maps,Yahoo Maps, Cadastre français teindre une précision théorique
consiste, après extraction des nœuds raster et vecteur). métrique, cependant en raison d’une
(points) du réseau routier OSM, à • corriger des erreurs et des bugs. perte fréquente de signaux nous avons
calculer leur distance euclidienne à la Un certain nombre d’outils facilitant la obtenu une précision effective de
référence (RGE) (cf figure 6). contribution à OSM ont été déve- 2,18 m.
loppés14, parmi lesquels :
Contrairement à la “distance Nos choix de contribution se sont
• Potlatch, éditeur en ligne,
moyenne” utilisée par le COGIT, cette portés sur deux communes peu carto-
• JOSM, application Java indépendante
méthode n’est pas pondérée par la graphiées à l'époque de nos travaux :
• le plugin OSM pour QGIS …
distance entre les points ni par la la Chapelle-Saint-Aubin, commune
Parmi toutes ces méthodes, laquelle
longueur des tronçons. Or le réseau péri urbaine couverte par les par les
permet d’obtenir les données de
OSM n’est pas homogène, le risque est ortophotos de Bing (Figure 7) avec une
meilleure qualité ?
donc que les forts écarts soient mini- résolution de 1 pixel pour 50 cm , et sur
misés dans le résultat final. Pour s’assurer de la qualité des la commune de Cogners, commune
Néanmoins elle est permet de donner données, nous avons analysé les diffé- rurale, couverte uniquement par
un aperçu des écarts de l’ensemble des rences entre deux modes : le GPS et la imagerie satellitaire avec une résolu-
points du réseau à la référence et à ce digitalisation. Nous avons donc levé tion moins bonne de 1 pixel pour 4 m.
titre reste un bon indicateur de qualité. une même commune avec les deux
Pour la digitalisation, nous avons
méthodes. Pour la digitalisation nous
Pour l’étude de la précision attributaire choisi de superposer le cadastre et
avons utilisé le logiciel JOSM, outil
nous avons mené deux analyses : l’imagerie Bing car le cadastre permet
simple d’utilisation qui offre des fonc-
- une comparaison des taux de rensei- de bien cerner l’axe des voies, de
tionnalités avancées d’édition de la
gnement (nombre de tronçons connaitre les noms de rues et l’ima-
géométrie ainsi que des “préréglages”
renseignés / nombre total de tron- gerie Bing permet de déterminer l’oc-
qui permettent de renseigner facile-
çons * 100) selon le type de voie ainsi cupation du sol, l’emprise des voies et
ment les attributs.
que le calcul du taux de renseigne- éventuellement de corriger des erreurs
Pour le levé GPS, nous avons utilisé le
ment de l’attribut “nom” par du cadastre.
GPS Juno conçu à des fins SIG, abor-
commune (Nombre de km de voie Pour évaluer nos contributions aussi
dable pour des contributeurs OSM
nommée dans OSM/Nombre de km bien par GPS que par digitalisation,
(640 €). Nous avons également utilisé
de voie nommée dans le RGE*100). nous avons utilisé l’indicateur de
le système d’augmentation EGNOS
- une analyse fine de la précision distance euclidienne moyenne.
qui permet d’améliorer la précision de
sémantique qui a permis d’évaluer la
notre levé. EGNOS est constitué de
similitude stricte de l’attribut “nom” Analyse des résultats
stations terrestres réparties sur toute
et d’analyser les causes des diffé-
l'Europe qui vont recevoir les données L’exhaustivité : le talon d’Achille
rences (orthographe, nom incomplet,
émises par les satellites GPS puis en d’OpenStreetMap
différence, ponctuation) en menant
déduire des corrections pour chaque Quel est l’état d’avancement du projet
une comparaison manuelle.
station. Une grille de correction est OSM ? C’est par cette première ques-
Cette analyse de la précision séman-
calculée et transmise à notre récepteur tion que nous avons débuté nos
tique est quelque peu inédite. Elle
recherches. La figure 8 représente la
apporte un éclairage sur la qualité des
densité du réseau routier d’OSM par
attributs “noms” renseignés dans
rapport au RGE. On constate que la
OpenStreetMap.
Sarthe respecte les tendances euro-
péennes : une grande ville comme Le
Méthodologie de contribution
Mans est très bien représentée et les
Pour contribuer, plusieurs méthodes
campagnes sont généralement délais-
existent :
sées. Ce phénomène peut être expliqué
• le GPS : les contributeurs peuvent
par une probabilité plus forte de trouver
intégrer leur propre trace à OSM et
des contributeurs dans ces zones et le
les traces enregistrées par d’autres
fait que chaque contributeur cartogra-
utilisateurs,
phie en priorité sa ville de résidence.
• la connaissance d’un lieu, notam-
ment en matière de toponymie, qui L’exhaustivité est le grand point faible
permettra de renseigner de la Figure 7. Capture d'écran du logiciel JOSM du réseau routier sarthois. En ne repré-
manière la plus efficace les attributs. avec superposition de la couche cadastre 14 Se référer au e-book http://
• digitaliser ou intégrer des données et des photos aériennes de Bing. fr.flossmanuals.net/openstreetmap/.

e
42 Revue XYZ • N° 131 – 2 trimestre 2012
sentant que 15 % du réseau RGE en
janvier 2011 à l'échelle du département,
il n’était exploitable qu’au sein des
villes majeures comme la Flèche (45 %)
ou le Mans (55 %). Cependant les
manques sont comblés progressive-
ment puisqu’en janvier 2012 la couver-
ture monte à près de 35 % du RGE et
Le Mans est complet à près de 80 %.

Une exactitude géométrique suffisante


pour une utilisation de type SIG
Tableau 1. Écarts entre le RGE et OSM
selon les distances de Hausdorff
Hausdorff (ESGT)
Maximum 45,83 m
Minimum 0,02 m
Moyenne 6,64 m
σ 6,92 m

Sur la Sarthe, la distance de Hausdorff


est en moyenne de 6,6 m avec un écart
type de 7 m. Ces résultats sont infé- Figure 8. La densité du réseau routier OSM par rapport au RGE en janvier 2011
rieurs à ceux obtenus par le COGIT
(calculé sur Hendaye), cet écart peut
être attribué soit à une meilleure
qualité du réseau routier sarthois, soit
à la correction par nos soins d’un
certain nombre d’erreurs aberrantes.
Effectivement, le calcul de cette
distance ne tient pas compte des extré-
mités des polylignes et des polylignes
en boucle. De ce fait un certain nombre
d’enregistrements ont été corrigés
manuellement. Cependant les écarts
obtenus témoignent d’une exactitude
globale satisfaisante en vue d’une utili-
sation de type SIG.

Sur la première carte (Figure 10), on


constate tout d’abord que les zones
bien cartographiées ne se trouvent pas
uniquement dans les zones urbaines.
En effet, on s’aperçoit que le Mans
bénéficie d’une bonne exactitude,
mais c’est également le cas pour le
secteur Nord-Ouest du département
où les distances et les écarts types sont Figure 9. La densité du réseau routier OSM par rapport au RGE en janvier 2012
faibles (environ 1 m). A contrario, on
observe des zones moins bien carto- différences, la commune de Douillet manière globale les écarts types et les
graphiées, comme par exemple le dans le nord-est de la Sarthe présente écarts moyens sont plus importants
secteur Est du département. Si l’on par exemple une distance euclidienne (comme nous l’avons indiqué précé-
regarde à présent la carte basée sur les faible mais une distance de Hausdorff demment, la distance d’Hausdorff ne
distances d’Hausdorff (Figure 11), on forte, ce qui traduit la présence d’er- retient pour chaque polyligne que
s’aperçoit que les tendances de la carte reurs ponctuelles fortes mais une l’écart à la référence le plus important).
précédente sont généralement respec- qualité d’un bon niveau général. La distance de Hausdorff est donc un
tées. On constate cependant certaines Par contre on remarque que d’une indicateur plus exigeant. q
Revue XYZ • N° 131 – 2e trimestre 2012 43
SIG

q Statistiques (m) Autoroute Voies piétonnes Voies secondaires Voies tertiaires Voies primaires Rue
Nb 2 621 3 532 13 577 15 383 4 385 21 062
Max 27,2 29,8 29,8 29,9 29,2 29,9
Min 0,0 0,0 0,0 0,0 0,0 0,0
Moyenne 4,0 3,6 3,2 2,5 2,5 2,0
Écart type 4,0 5,3 3,6 2,9 2,5 2,9

Tableau 2. Tableau des précisions relatives d'OSM en fonction du type de voie sur l’ensemble du département
Ces cartes nous montrent le défaut
d’homogénéité que peuvent avoir les
données d’OSM, directement corrélé à
la qualité du travail du contributeur. Si
plusieurs contributeurs travaillent sur
la même zone, ils vont pouvoir se
corriger entre eux et ainsi améliorer au
fur et à mesure l’exactitude des
données. Sinon, si un seul contribu-
teur cartographie une zone, l’exacti-
tude des données dépendra
directement de son travail.
En s’intéressant à la source des écarts
(Tableau 2), il est apparu que les auto-
routes et les voies piétonnes étaient les
plus éloignées du RGE. Plusieurs
hypothèses peuvent être élaborées
pour expliquer ce phénomène :
• Les phénomènes de masques (GPS)
plus fréquents pour les voies
piétonnes (rues étroites en centre ville,
sous couvert forestier en milieu rural).
Figure 10. Exactitude géométrique par distance euclidienne • La largeur de la chaussée pour les
autoroutes : notre référence le RGE,
représente l’axe de la chaussée. En
l’absence de spécifications pour la digi-
talisation ou le lever des autoroutes,
nous pouvons supposer que les contri-
buteurs n’intègrent que la voie de
droite ou la voie de gauche. Au calcul,
ce biais serait donc mis en évidence.
Par ailleurs, nous ne constatons pas de
différence flagrante d’exactitude entre
zones rurales et zones urbaines.

Des attributs moins nombreux mais


bien renseignés
Dans OpenStreetMap, trois attributs
sont renseignés automatiquement : la
date, le nom du contributeur et la
source lorsqu’il s’agit du cadastre. Dans
le RGE le nombre d'attributs est fixe,
dans OSM il est variable. Le nombre
d’attributs par enregistrement est plus
faible dans OSM que dans le RGE.
Cependant sur le réseau sarthois les
Figure 11. Précision géométrique par distance de Hausdorff contributeurs renseignent fréquem-

e
44 Revue XYZ • N° 131 – 2 trimestre 2012
ment les attributs non automatiques à
savoir le type et le nom ou la référence.
Ainsi sur les routes secondaires,
tertiaires et résidentielles on atteint plus
de 50 % d’attributs renseignés ce qui est
comparable voire supérieur au RGE.

Une sémantique à 71 % identique


En comparant les attributs du réseau
apparié, il est apparu que 71 % de
noms de voie étaient strictement iden-
tiques pour près de 2000 enregistre-
ments sur l’ensemble de la Sarthe.
Comme on peut le voir dans la figure Figure 12. Pourcentage d'attribut “name” renseigné dans OSM selon la nature de la voie
14, les 29 % d’erreurs sémantiques
sont majoritairement dus à une diffé-
rence de ponctuation et d'orthographe.

Contribution à OSM :
La digitalisation offre une bonne
exactitude géométrique
De la même manière que nous avons
étudié les données d’OSM sur le
département de la Sarthe, nous avons
réalisé des tests pour estimer la qualité
des données pour lesquelles nous
avons contribué. Nous avons pour cela Figure 13. Pourcentage d'attribut “nom” renseigné dans le RGE selon la nature de voie
conservé le même protocole. Les
données qui servent de référence sont
toujours celles du RGE.
Pour la Chapelle Saint-Aubin, dont le
réseau routier a été digitalisé à partir
de la superposition du cadastre (PCI) et
des orthophotos de Bing, nous avons
obtenu les résultats résumés dans le
tableau 3.

Voierie
Statistiques (m)
(orthophoto + PCI)
Nb de nœuds 866
Max 10,5
Min 0,0
Moyenne 1,2
Écart type 1,1
Figure 14. La répartition des erreurs sémantiques dans OSM
Tableau 3. Précision géométrique la précision de la référence, ce qui rend Voierie (image
pour la méthode de contribution par plus difficile l’interprétation des résul- Statistiques (m)
satellite + PCI)
digitalisation sur la Chapelle Saint Aubin tats. On pourrait très bien imaginer que
Nb de nœuds 817
nos données sont plus précise que la
En termes d’exactitude géométrique, Max 25,6
référence, mais rien ne nous permet de
nos résultats dépassent toutes nos
l’affirmer, il aurait fallu pour cela bénéfi- Min 0,0
attentes. En effet, la précision relative
cier d’un jeu de données plus précis. Moyenne 2,4
des données est de 1,2 m ± 1,1 m. Il faut
de plus se rappeler que la précision du Sur la commune de Cogners, nous ne Écart type 2,3
RGE au sein de la commune est de disposons pas d’orthophotos. La réso-
1,5 m environ. Nous obtenons donc une lution des images satellites de Bing est Tableau 4. Précision géométrique par
précision relative qui est meilleure que nettement moins bonne. digitalisation sur la commune de Cogners q
Revue XYZ • N° 131 – 2e trimestre 2012 45
SIG

q Cela impacte sur nos résultats comme


nous pouvons le voir sur le tableau 4.
Nous constatons que nos résultats
sont moins bons que ceux obtenus à la
Chapelle Saint Aubain, la précision
relative obtenue est de 2,4 m ± 2,3 m.
On perd 1 m de précision (environ)
lorsqu’on digitalise sur une commune

source : Cloudmade London, auteur : Matt Amos).


uniquement couverte par de l’imagerie
satellitaire.

En comparant nos contributions par


levé GPS au RGE, nous obtenons ainsi
les précisions suivantes sur la
commune de la Chapelle Saint Aubin :

Statistiques (m) Voierie (GPS)


Nb de nœuds 1 388
Max 26,0
Min 0,0 Figure 15. Cartogramme du nombre de points d'intérêts dans OSM par pays du monde
Moyenne 1,9 en 2008 (rapport du nombre de points sur la surface du territoire.
Écart type 1,5

Tableau 5. Tableau des statistiques pour


la méthode de contribution par levé GPS
Les résultats sont tout à fait corrects.
En effet, nous trouvons une précision
relative par rapport au RGE de 2 m ±
1,5 m. Le GPS que nous avons utilisé
peut donner des résultats d’une préci-
sion d’environ 2 à 5 m lorsqu’il capte

source : Geofabrik, auteur : Ophélie Petit).


les données EGNOS. Cela explique les
précisions obtenues.
Nous avons montré que la digitalisa-
tion sur des orthophotos de qualité en
s’aidant du plan cadastral n’avait rien à
envier à la méthode GPS. Cependant
lorsque seules des images de plus
faible résolution sont disponibles, le
GPS reste la meilleure solution. Dans
l’idéal il faudrait coupler une digitalisa- Figure 16. Cartogramme de la densité d'OpenStreetMap en Europe en 2011 (rapport du
tion (rapidité sur les voies bien poids des fichiers OSM (polygone + lignes + points) sur la suface du territoire.
visibles) à une intervention terrain afin
montre que, dès les origines du projet, cadastre français vecteur, de digitaliser
de répertorier les attributs, les points
l’Allemagne, le Royaume-Uni et les des informations depuis le cadastre ou
d’intérêt (panneau de signalisation
Pays-Bas se sont fortement impliqués les images de Bing, mais surtout à
etc.) et lever les chemins sous couvert
dans OpenStreetMap comme en l’augmentation et à l’implication des
forestier. Lorsque l’imagerie Bing est
témoigne cette carte en anamorphose contributeurs. Grâce à tous ces
de mauvaise qualité, le levé GPS sera
(Figure 15) de 2008. facteurs, il est possible d’imaginer
par contre impératif.
Fin 2011, la France semble avoir qu’OpenStreetMap puisse bientôt allier
rattrapé son retard (cf. Figure 16). fiabilité et quantité d’information.
Conclusion Cet accroissement rapide du nombre Évidemment des améliorations
d’entités dans OSM peut être attribué peuvent être envisagées. Notre étude
Jusqu’en 2010, le réseau français dans aux collectivités de plus en plus sur la qualité a montré que les
OSM était moins avancé que chez nos convaincues par le concept d'OpenData données OSM présentaient une forte
voisins européens. La comparaison des (dont la ville du Mans, qui vient d’ouvrir incomplétude, un faible nombre d’at-
études de (Haklay M.2010), (Zielstra D., ses données en février 2012 ), à la possi- tributs et de forts écarts-types du point
Zipf A., 2010 ) et (Girres et Touya, 2010) bilité d’intégrer aisément le bâti du de vue de l’exactitude géométrique. Ce

e
46 Revue XYZ • N° 131 – 2 trimestre 2012
dernier problème résulte probable- Guptill, S.C., Morrison, J.L. (edited by), Neis P., Zielstra D., Zipf A., 2011 The
ment de l’absence de spécifications 1995. Elements of Spatial Data Quality, 1st Street Network Evolution of Crowdsourced
précises pour le levé comme pour la ed. Elsevier Science, pp 1-135. Maps: OpenStreetMap in Germany 2007–2011
digitalisation. En imposant le levé de Langaas, S., “Cartographical Data and Data Van Der Biest F., 2008 OpenStreetMap : un
l’axe des voies, en définissant une Quality Issues”, UNEP et CGIAR Cooperation, état des lieu, Géomatique Expert - N° 62 -
échelle de référence et une résolution disponible sur www.nlh.no/ikf/gis/dcw/ Avril-Mai 2008
minimale pour la digitalisation, la arendal-base-data.pdf, pp. 1-8 (1995).
précision géométrique pourrait être Flavin, R.W., Andrews A.J., Kronvang B.,
Muller-Wohlfeil D., Demuth S., and
Contact
non seulement améliorée mais aussi
homogénéisée. Birkenmayer A., (1998). ERICA European Ophélie PETIT
Rivers and Catchments, pp 4-102 . ophelie.petit.chevalier@gmail.com
Néanmoins la précision des données
VGI est tout à fait respectable pour une Haklay M. 2008. How good is volunteered Pierrick BILLON
utilisation SIG et nous formons de geographical information? A comparative p.billon@ageis-ge.fr
grands espoirs d’amélioration grâce à
study of OpenStreetMap and Ordnance Jean-Michel FOLLIN
Survey datasets. jmfollin@cnam.fr
Bing et au cadastre français.
Les données du RGE qui nous ont servi
Haklay M., 2010. Openstreetmap École Supérieure des géomètres topographes
completeness evaluation,
de référence tout au long de notre (ESGT)
http://povesham.wordpress.com/2010/04
étude bénéficient d’une précision
/04/openstreetmap-completeness-
meilleure que les données d’OSM, evaluation-march-2010/
mais ces données n’ont pas les mêmes
finalités. Nous considérons donc qu’il
Haklay M., 2011. OpenStreetMap and ABSTRACT
Ordnance Survey Meridian 2 comparison –
n’y a pas de concurrence entre les 2008 – 2011, The concept of Volunteered
deux jeux de données. http://povesham.wordpress.com/2011/05 Geographic Information (VGI) makes
Il n’existe pas à l’heure actuelle de /20/openstreetmap-and-ordnance-survey- sense for 7 years with the
métadonnées de qualité sur OSM. Il meridian-2-comparison-2008-2011/ development of OpenStreetMap
pourrait être intéressant de créer un Zulfiqar N, 2008. A Study of the Quality of (OSM). OSM follows the peer
indicateur composite de qualité qui OpenStreetMap.org maps: A comparison of production model that created
aurait une fonction de “certification” et OSM data and Ordnance Survey Data, Thèse Wikipedia: its principles are to create
regrouperaient les différents para- MEng, Londres, Collège universitaire de and support vector geographic
mètres de qualité que nous avons Londres, p.54. databases covering the entire planet
présentés. Cet indicateur pourrait être Goodchild M.,F. et Hunter G,J, 1997. under "free" license, that is to say
intégré dans un fichier de métadon- A simple positional accuracy measure for freely usable and editable.
nées associé à chaque téléchargement linear features. Journal International de la In line with studies by COGIT
depuis la plateforme OpenStreetMap. science de l’information géographique, laboratory in France, and German or
11(3), 299 -306. English researchers, this paper
OpenStreetMap est encore un petit Goodchild M.,F. et Hunter G,J, 1996. evaluates the quality of OSM road
monde. Mais grâce à son organisation, Communicating uncertainty in spatial data for a French Department:
à la volonté et à la motivation de ses databases, Transactions in GIS Sarthe. Various aspects of spatial
membres qui s’activent pour commu- Aamer A., 2009. A Quality Analysis of data quality (geometric, semantics,
niquer sur le projet (l’association OpenStreetMap Data, MEng, Londres, completeness) have been studied,
OpenStreetMap France a vu le jour Collège universitaire de Londres. through comparisons with the French
début octobre 2011), il devrait conti- Girres J.-F. et Touya G., 2009. Première reference data (RGE of the IGN), and
nuer à séduire les collectivités, les évaluation de la qualité des données libres the accuracy of OpenStreetMap has
entreprises et le grand-public. ● d'OpenStreetMap en France, Colloque
been estimated. Furthermore, two
International de Géomatique et d’Analyse
methods of contribution: digitizing
Spatiale SAGEO'09, 25-27 novembre, Paris
(France). and GPS survey were compared in
Bibliographie order to provide clues to contributors.
Girres J.-F. et Touya G., 2010. Quality
Assessment of the French OpenStreetMap Geometry and literal data are
Auber M., Billon P., Petit O., 2011.
Les données routières d’OpenStreetMap Dataset. Transactions in GIS 14 (4), 435-459. consistent with GIS users. The
dans la Sarthe : comparaison avec le RGE et Maué P. et Schade S., 2008. Quality Of weakness of OSM lies rather in a lack
contribution au projet (2011), Rapport Geographic Information Patchwork, 11th of attributes information as well as
de projet; AGILE International Conference on geometry. However the number of
Van Oort P., 2006. Spatial data quality: Geographic Information Science 2008, contributors amounts each day and
from description to application, Wageningen University of Girona, Spain; the recent possibilities of digitizing
Universiteit, Nederland , Zielstra D., Zipf A., 2010. A Comparative from Bing Maps and Cadastre web
Joos G., 2006. Data Quality Standards, Study of Proprietary Geodata and map services provides important
Shaping the Change XXIII FIG Congress Volunteered Geographic Information outlooks.
Munich, Germany, October 8-13, 5/10. for Germany;

Revue XYZ • N° 131 – 2e trimestre 2012 47

View publication stats

Vous aimerez peut-être aussi