Vous êtes sur la page 1sur 12

Données EO et données Web

Rencontre entre 2 univers


...

Romain HUGUES – 2021 – Toulouse Data Science​ 1


Présentations

Romain HUGUES – 2021 – Toulouse Data Science 2


Pitch
Exploiter les richesses contenues dans les données d'observation de la
Terre (EO data) est un défi à la fois économique et technique pour les
acteurs du domaine. Aujourd'hui, ce potentiel est loin d'être
entièrement libéré. Le monde du Web a en grande partie réussi à
relever ce défi et ce depuis près d'une vingtaine d'années.

Au travers d'une comparaison entre les données d'Observation de la


Terre et les données du Web, nous analyserons les raisons de cet état
de fait, identifierons les clés du changement et les perspectives pour
les années à venir.

Romain HUGUES – 2021 – Toulouse Data Science 3


Données du Web (+ social media)
Yottaoctets (1024 octets)
Texte en langage naturel = langue des
humains.
Multiples langues, principalement anglais
Geo référencées : explicitement lat,lon +
date ou dans le texte
http://www.geonames.org/
Milliards de sources interconnectées à sens
unique par un protocole commun (http, IP)
(Ne sont pas prises en compte les autres données images, son,
etc... ni les données déjà structurées type LinkedOpenData) http://internet-map.net/

Romain HUGUES – 2021 – Toulouse Data Science 4


Données d'Observation de la Terre
Données scientifiques : mesures explicites de
paramètres physiques
• Adaptées à des applications : climat, météo, etc...
• Exploitables dans des modèles
Données image. Au contenu implicite
• Initialement pour exploitation humaine (ce qui
nous intéresse)
Exaoctets (1018) ESA Sentinel 5 – TROPOMI – NO2 Map

Pas de couverture globale (pour le moment)


Georéférencées précisément. Quelques index par
lieu, date etc...
Pas d'accès commun, quelques sources assez
isolées.
Quelques standards OGC...

Romain HUGUES – 2021 – Toulouse Data Science https://www.euspaceimaging.com/true-30-cm-imagery/ 5


Comparaison Web / EO data

Web Data EO Data


"Sparse" Dense
Explicite Implicite
Non-controlée Controllée
Données connected Sources Isolées
Sources multiples Quelques sources (satellites)
Revenus : contenus payants, publicité Revenus : vente de contenu, VAS

Romain HUGUES – 2021 – Toulouse Data Science 6


Éléments communs

• Matière brute
• Hautement non structurée
• Dédiée à une exploitation humaine
• Large volumétrie
• Nécessite une indexation, une
structuration

Romain HUGUES – 2021 – Toulouse Data Science 7


Exemple de structuration de données Web
Moteurs de recherche
• Analyse de la matière / crawlers
• Indexation par mot-clé
• Pas besoin d'IA

Knowledge Graph
• Modélisation​
• Raisonnement
Romain HUGUES – 2021 – Toulouse Data Science
• Nécessite NLP 8
Exemple de structuration de données EO
Chaine en 4 étapes
Ne se suffisent pas toujours. Nécessitent des compléments
Très orientées "thématiques"

https://eopen-project.eu/
Romain HUGUES – 2021 – Toulouse Data Science 9
Système de valorisation de données EO
Data collection, data access
• Broker, Data Cube etc...
• Chaque fournisseur a le sien
Extraction d'infos
• Manuel / auto
• Supervisé / non supervisé
Gestion des connaissances
• Utiliser les standards des autres !
Usage applicatif
• Thématique Queryable Earth (Planet Labs)

Romain HUGUES – 2021 – Toulouse Data Science 10


Les 4 défis du succès
1. Data access unique
• Broker universel courtage de données
• Market place
2. Permettre l'indexation par le contenu
grâce à l'extraction systématique
d'information
• Traduction générique image <=> texte
3. Intégrer les données au reste du monde
dans des modélisations sémantiques https://paperswithcode.com/dataset/rsicd

• Gestion des connaissances scalable


4. Business model?

Romain HUGUES – 2021 – Toulouse Data Science 11


Conclusions et perspectives
• Problématiques similaires
• Architectures de solutions largement
transposables d'un monde à l 'autre
• interprétation automatique données Web en
en avance ?
• La donnée EO est toujours en panne d'un
business model innovant
• La donnée EO est insuffisante. Elle sert de
complément aux autres données.

Romain HUGUES – 2021 – Toulouse Data Science 12

Vous aimerez peut-être aussi