Académique Documents
Professionnel Documents
Culture Documents
1
LISTE DES FIGURES ET TABLEAUX
FIGURE 1 LES COUCHES DU WEB SEMANTIQUE SELON LE W3C ............................................................................... 7
FIGURE 2 ÉVOLUTION DU NOMBRE DE JEUX DE DONNEES PUBLIES SELON LES STANDARDS DU WEB DE DONNEES ET
INTERRELIES A D’AUTRES JEUX DE DONNEES SUR LE WEB, DE MAI 2007 A AOUT 2014 ................................. 27
FIGURE 3 INTEROPERABILITE PAR CONVERSION ET COPIE ...................................................................................... 30
FIGURE 4 INTEROPERABILITE BASEE SUR LE PLUS PETIT DENOMINATEUR COMMUN ............................................. 30
FIGURE 5 INTEROPERABILITE BASEE SUR LES LIENS : MODELE « HUB AND SPOKE »................................................ 32
FIGURE 6 INTEROPERABILITE PAR LE LIEN :MODELE « FOLLOW YOUR NOSE » ........................................................ 32
FIGURE 7 EXEMPLE DU CENTRE POMPIDOU ........................................................................................................... 36
FIGURE 8 COMPENDIUM WEB 2.0 AU COMPENDIUM PHYSIQUE............................................................................... 39
TABLEAU 1 EVOLUTION DU WEB, DU WEB 1.0 AU WEB 4.0 (WEB DES OBJETS). .................................................... 37
2
Introduction
Le domaine des sciences de l’information a la caractéristique de regrouper en son sein plusieurs champs
de connaissance particuliers qui ont chacun leurs propres spécificités. La bibliothéconomie et
l’archivistique ont donné naissance à des techniques fiables et reconnues visant l’organisation,
l’évaluation, la collecte, la préservation ainsi que la diffusion d’informations de toute nature, qu’il
s’agisse de documents physiques ou numériques, mais aussi des données qui s’y rattachent. Les
changements qui gravitent autour des formats de documents et des moyens de les partager et les diffuser
créent une nécessité de repenser les pratiques et modèles. L’objectif de ce travail est de présenter le web
et explorer un ensemble des technologies spécifiques au web des données, web des objets et web
sémantique
3
I. Contexte
Pour les professionnels de l’information, la nécessité de s’adapter aux changements technologiques et
aux nouvelles pratiques des utilisateurs en matière de recherche d’information n’est pas inconnue. De
nouveaux formats pour véhiculer et stocker les connaissances ont vu et continuent à voir le jour, ce qui
complique, dans une certaine mesure, le travail de gestion et de diffusion des savoirs, mais aussi crée un
besoin de repenser les pratiques et standards. L’évolution des métiers en bibliothèques fut inévitable
suite à la montée grandissante des médias de masse qui ont changé les habitudes de lecture et de
consommation de la population. Cependant, l’arrivée du Web, et du numérique par le fait même, a non
seulement modifié les comportements informationnels, mais aussi notre façon de consommer et de
traiter les connaissances ainsi que nos interactions. De plus, ces changements sont survenus
brusquement, en un peu moins d’une vingtaine d’années. La multiplication des formats de documents a
eu pour conséquence directe la prolifération de données les décrivant, nécessitant de nouvelles
compétences et connaissances de la part des professionnels de l’information (Stuart, 2011). Malgré
cette réalité, la raison d’être et les missions des bibliothèques sont restées les mêmes : offrir l’accès à
une collection de documents pour sa communauté, acquérir des ressources ainsi que produire des
services et, finalement, agir comme un intermédiaire entre l’usager et les ressources (Leroux et al.,
2009). On comprend aujourd’hui l’importance que peuvent prendre les données relatives aux ressources
numériques et, peu à peu, on évalue la possibilité de les utiliser afin de répondre à ces missions en
saisissant le potentiel d’utilisation qu’elles présentent.
4
Le Web permet la création d’applications et ne se limite plus uniquement à la
propagation d’information. On constate qu’il s’agit d’une plate-forme misant sur le
partage.
Exploiter l’intelligence collective ;
La participation des utilisateurs permet une démocratisation du Web. Ceux-ci peuvent
contribuer au contenu de différents sites Web, que ce soit de par ses connaissances (p.
ex. Wikipédia), des évaluations (p. ex. Amazon), des commentaires ou des
recommandations. Plus les utilisateurs contribuent, plus il y a de valeur à un site Web.
La puissance se trouve dans les données ;
La valeur d’une application dans le Web 2.0 est influencée par les données qu’elle rend
accessible et qu’elle entretient. Par exemple, plusieurs grandes compagnies ouvrent leurs
données, permettant aux développeurs de créer des applications tierces et Google
récupère les données recueillies lors des recherches effectuées par les utilisateurs.
La fin des cycles de release (changements de versions) ;
Contrairement aux logiciels traditionnels, les utilisateurs n’ont pas besoin d’attendre les
différents changements de versions. Les applications évoluent constamment et les
changements aux versions sont disponibles en ligne, s’opérant souvent de manière
automatique.
Les modèles de programmation légers ;
Les outils et les données utilisés pour programmer les applications sont faciles
d’utilisation.
Les logiciels ne dépendent plus d’un seul appareil (l’ordinateur personnel) ;
Les applications sont maintenant accessibles sur un grand nombre de plateformes
différentes telles que les consoles de jeux vidéo, les téléphones intelligents, les lecteurs
MP3, etc.
L’enrichissement de l’expérience utilisateur.
L’utilisation de technologies telles que AJAX ou JavaScript permettent la création
d’interfaces utilisateur plus riches et facilitant la navigation.
Stephens et Collins (2007), pour leur part, indiquent que le Web 2.0 est caractérisé par l’utilisation
d’outils numériques qui permettent aux usagers de créer, modifier et publier du contenu de toute sorte.
L’accent est alors mis sur les médias sociaux. Ils présentent les principes qui définissent cette nouvelle
utilisation du Web :
Conversations ;
La participation des usagers, la discussion et la rétroaction sont encouragées.
Communauté ;
Les conversations peuvent mener à un sentiment d’appartenance à une communauté sur
un réseau social.
Participation ;
De l’information nouvelle est créée grâce à la collaboration entre les usagers et tout le
monde peut créer du contenu qui peut être réutilisé et modifié gratuitement.
Expérience ;
L’engagement au sein de cette communauté est enrichissant et peut mener à un sentiment
de réalisation de soi.
Partage.
Les usagers peuvent ou non discuter de leur vie personnelle.
5
Les bibliothèques ont su rapidement s’approprier les outils de cette nouvelle plateforme, tels que
Facebook, Twitter, YouTube, Flickr, en y assurant une présence continue (Farkas, 2007).Ces tribunes
gratuites donnent la possibilité d’obtenir une meilleure visibilité des différents services offerts,
d’éduquer les usagers aux techniques utilisées (p. ex., la numérisation d’un ouvrage) et d’interagir avec
eux. La question de l’importance et de l’efficacité de la présence des bibliothèques sur les médias
sociaux a été largement étudiée (Aharony, 2009; Bradley, 2015; Koontz et Mon, 2014; Liew,
Wellington, Oliver et Perkins, 2015; Stuart, 2011; Swanson, 2012; Thomsett-Scott, 2014). Grâce à cet
outil, une information partagée par un usager peut rejoindre tout son réseau de contacts en peu de temps,
ce qui permet une plus grande diffusion de l’information.
Le Web actuel est essentiellement syntaxique, dans le sens que la structure des documents (ou
ressources au sens large) est bien définie, mais que son contenu reste quasi inaccessible aux traitements
machines. Seuls les humains peuvent interpréter leurs contenus. La nouvelle génération de Web, Le
Web sémantique a pour ambition de lever cette difficulté. Les ressources du Web seront plus
aisément accessibles aussi bien par l’homme que par la machine, grâce à la représentation sémantique
de leurs contenus.
Le Web sémantique, concrètement, est d’abord une infrastructure pour permettre l’utilisation de
connaissances formalisées en plus du contenu informel actuel du Web, même si aucun consensus
n’existe sur jusqu’où cette formalisation doit aller. Cette infrastructure doit permettre d’abord de
localiser, d’identifier et de transformer des ressources de manière robuste et saine tout en renforçant
l’esprit d’ouverture du Web avec sa diversité d’utilisateurs. Elle doit s’appuyer sur un certain niveau de
consensus portant, par exemple, sur les langages de représentation ou sur les ontologies utilisées. Elle
doit contribuer à assurer, le plus automatiquement possible, l’interopérabilité et les transformations entre
les différents formalismes et les différentes ontologies. Elle doit faciliter la mise en œuvre de calculs
et de raisonnements complexes tout en offrant des garanties supérieures sur leur validité. Elle doit
offrir des mécanismes de protection (droits d’accès, d’utilisation et de reproduction), ainsi que des
mécanismes permettant de qualifier les connaissances afin d’augmenter le niveau de confiance des
utilisateurs.
Mais restreindre le Web sémantique à cette infrastructure serait trop limitatif. Ce sont les applications
développées sur celle-ci qui font et feront vivre cette vision et qui seront, d’une certaine manière, la
preuve du concept. Bien sûr, de manière duale, le développement des outils, intégrant les standards
du Web sémantique, doit permettre de réaliser plus facilement et à moindre coût des applications
ou des services développés aujourd’hui de manière souvent ad-hoc. A titre d’illustration évoquons ici
quelques applications courantes et soulignons les goulots d’étranglements qui devraient trouver une
solution via l’usage des technologies promises du Web sémantique. La recherche d’information
(précision et complétude) : rechercher des documents sur le Web est souvent une tâche laborieuse.
6
Les recherches sont imprécises et requièrent une activité de « tri manuel » des documents retournés
pour espérer trouver le(s) document(s) recherché(s) d’ailleurs sans aucune assurance. Ici, le Web
sémantique devrait largement faciliter l’appariement sémantique entre la requête de l’utilisateur et les
documents indexés (manuellement ou de manière semi-automatique). Maintenance de base
documentaire (passage à l’échelle, cohérence) : créer un site Web est très simple aujourd’hui grâce aux
éditeurs très intuitifs du marché, mais mettre à jour ce site et les bases documentaires associés
deviennent rapidement une très lourde tâche dès que la taille augmente. Ici le passage à l’échelle du
Web (même d’un Intranet) requiert la mise à disposition d’outils d’assistance assurant des mises à jour
(semi-) automatique maintenant la cohérence globale. Le commerce électronique (confiance, passage à
l’échelle des services, cohérence, hétérogénéité) : le commerce de gros (B2B) ou le commerce de détails
(B2C) font appel à un assemblage de technologies de base telles la Recherche d’Information ou bien
l’intégration de sources de produits d’origine très diversifiée et donc très hétérogène dans leur
description. Une intégration aisée se réalise via une couche d’abstraction sémantique (ontologies
de domaine) donnant une vue unifiée aux internautes clients. Enfin dans le domaine des services
immatériels (e.g . e.work et e.business) (système de médiation sémantique, confiance et délégation)
il y a une forte demande d’intégration et d’automatisation des processus. Ceci n’est pas nouveau
(cf. EDI, EbXML) mais le Web sémantique fait espérer une véritable orchestration automatisée de
processus très courants dans le monde de l’industrie et du commerce. C’est la filière Web Services
sémantiques (dont SOAP, UDDI, WSDL ne sont que les briques de bas) qui est ici concernée. Pour
réaliser cette vision les recherches actuellement réalisées s’appuient sur un existant riche venant,
d’abord, des recherches en représentation ou en ingénierie des connaissances, mais aussi de bien d’autres
domaines comme les bases de données, la démonstration automatique de théorèmes, l’apprentissage
automatique, les hypermédia, l’ingénierie linguistique ou bien encore les interactions personne-
machine. Mais l’utilisation et l’acceptation de ces recherches à l’échelle du (ou d’une partie du) Web
posent de nouveaux problèmes et défis : changement d’échelle dû au contexte de déploiement : le Web
sur Internet et ses dérivés (intranet, extranet), la nécessité d’un niveau élevé d’interopérabilité,
d’ouverture, de standardisation, diversités des usages, distribution bien sûr et aussi impossibilité
d’assurer une cohérence globale. Comme l’écrit, en substance, Tim Berners-Lee, le Web sémantique
est ce que nous obtiendrons si nous réalisons le même processus de globalisation sur la représentation
des connaissances que celui que le Web fit initialement sur l’hypertexte.
7
systèmes d’intégration de données hétérogènes ou bien encore la nécessité de faire appel et de combiner
des services Web sémantiques.
Les langages proposés sont à la base de la démarche, ne serait-ce que pour des questions de
standardisation, même si l’infrastructure ne se réduit pas à ceux-ci. Leur problématique est présentée à
la suite. Ils sont souvent l’aspect du Web sémantique le plus connu avec le schéma de la figure
souvent repris sous des formes variées.
Mais les recherches sur le Web sémantique ne se limitent évidemment pas aux langages. Celui-ci
nécessite l’utilisation de ressources adaptées aux différentes tâches comme les schémas de métadonnées
ou les ontologies. Le partie 4 discute, par exemple, du rôle important, pour la réalisation du Web
sémantique, de ces ontologies et des méthodes et outils permettant de les construire et de les mettre en
œuvre. Celles-ci sont souvent indispensables pour l’ensemble des recherches évoquées dans ce travail
et pour les applications du Web sémantique qu’elles utilisent ou non les services Web. En effet, elles
permettent aux logiciels qui communiquent entre eux d’utiliser les mêmes termes avec la même
sémantique. En résumé, il est nécessaire de :
4. appliquer ces technologies à un large champ d’applications et montrer le saut qualitatif obtenu.
8
Certes, il existe déjà des langages développés pour ces activités indépendamment du Web sémantique
(KIF (Genesereth & Fikes, 1992) ou WPDL (WFMC, 1999)). Ils ne sont pas utilisés tels quels dans
le Web sémantique car il est nécessaire de leur permettre d’accepter les caractères propres au Web
à savoir sa distribution (il faut être capable de tirer parti d’information dont on ne dispose pas
localement) et son ouverture (n’importe qui peut ajouter de l’information à tout instant). Disposer de
chacun de ces langages est indispensable au développement des fonctionnalités correspondantes
du Web sémantique. Ces langages permettront diverses applications nouvelles telles que :
Le but du Web sémantique est principalement que les services soient mieux rendus sans engendrer de
surcharge pour les utilisateurs. Dans cette perspective, les usages ne devraient se voir impacter que
positivement par les langages développés. Mais l’idée du Web est que les usagers en soient les
contributeurs. C’est en ce sens que les langages développés pour le Web sémantique pourront avoir un
impact sur ceux qui les utiliseront pour décrire leurs ressources voire leurs services. Par ailleurs, même
si ces langages étaient destinés à rester cachés (c’est-à-dire accessible au travers d’une application
plus conviviale), les langages utilisés risquent d’imposer indirectement leurs contraintes aux usagers.
Ainsi, dans une application de recherche d’information, l’expressivité du langage de requêtes
contraindra la forme et l’étendue de la réponse.
Bien entendu, ceci ne permet pas à une machine de manipuler sémantiquement un document. Mais cela
a la vertu de permettre une manipulation syntaxique de tous les documents. Ainsi, une annotation sera
attachée de la même manière à un paragraphe, un exposant dans une formule mathématique ou un
polygone dans un dessin parce que ceux-ci sont encodés en XML. C’est cette propriété qui permet
d’insérer des éléments du Dublin-core dans une ontologie et d’annoter des documents à l’aide de la
connaissance formalisée.
Cette compatibilité entre les langages décrits en XML permet de construire les langages présentés
ci-dessous et de les considérer comme des documents XML. Mais XML est limité car il ne dispose pas
d’une sémantique (au sens logique de sémantique dénotationnelle d’un langage). Rien ne justifie donc
les raisonnements ou manipulations appliquées à des documents XML. C’est pourquoi il est nécessaire
de développer d’autres langages.
9
d’entités, les relier par spécialisation, décrire et typer leurs attributs) ou assertionnelle (décrire
l’état du monde par des individus en relations entre eux, individus et relations étant décrits dans
l’ontologie).
Depuis une quinzaine d’années ces langages sont définis par leur sémantique et caractérisés par leur
décidabilité et complexité. Ceci permet de développer des moteurs d’inférence dont on connaît
clairement les limites d’application.
Ces langages ont certaines limitations dans la prise en compte de la nécessaire ouverture du Web
(relations entre objets distribués, ajout de connaissance incontrôlé); ils sont donc reconsidérés dans ce
contexte.
Enfin, dans le cadre des descriptions de services, les dernières sources d’inspiration sont les langages de
description de plans et en particulier les langages de description de “Workflow” permettant d’exprimer
de manière abstraite des activités (ou tâches) et leurs dépendances (séquence, parallélisme,
synchronisation…). Ces langages sont exécutables par des logiciels qui contrôlent l’exécution du plan
à l’aide d’événements prédéfinis (envoi d’un mail, remplissage d’un formulaire, signature d’un
engagement…). Le langage le plus emblématique est certainement WPDL, proposé par la “Workflow
Management Coalition”, parce qu’il est compris par différents logiciels de workflow. Il a été
récemment décliné en XML (XPDL (WFMC, 2002)).
Ces langages sont en général destinés à être supervisés par les humains qui exécutent les tâches
du workflow, ils doivent donc acquérir plus de rigueur dans la description des tâches pour pouvoir être
manipulés par des machines dans le cadre du Web sémantique.
10
Associer par exemple une notice comprenant des champs : Auteur, Date de création, Date de
modification, Mots-clés, à une page Web permet de considérer celle-ci non plus seulement comme
comprenant du texte qui ne pourra qu’être traité statistiquement par un robot indexeur, mais
également des informations structurées à la sémantique connue et utilisable comme telle par un agent
logiciel. De la même manière, si ce qui apparaît comme un simple nombre dans une page Web est de
façon explicite marqué comme un couple (valeur, devise), alors un agent pourra faire usage de ces
connaissances.
Associer une information exploitable à une ressource signifie deux choses essentielles.
La première est que cette information doit d’une manière ou d’une autre être structurée – utilisable
– et descriptive – de la ressource, de son utilisation – afin de faciliter et d’en améliorer l’accès dans le
cas d’une ressource directement visualisée par un utilisateur (par exemple en permettant une
recherche d’information plus efficace et plus ciblée), mais aussi l’exploitation dans le cas d’une
ressource exploitée dans le cadre d’un service à l’utilisateur (l’utilisateur n’est alors pas forcément
conscient de l’utilisation de la ressource).
La seconde est que la ressource en question doit exister et pouvoir être exploitée sur le Web
indépendamment des informations qui lui sont associées dans le cadre du Web sémantique : celles-ci
sont utiles, mais non nécessaires pour accéder et utiliser la ressource, la page Web ou le service.
11
Le schéma ci-dessus donne une vision (proposée sur le site http://www.semanticweb.org/) de
l’utilisation des métadonnées sur le Web sémantique. Des pages Web sont annotées à partir de
connaissances disponibles dans une ou plusieurs ontologies (qui ont pour objectif de normaliser
la sémantique des annotations), et ces annotations, regroupées en entrepôts de métadonnées deviennent
utiles pour des agents de recherche d’information, faisant ou non appel à des moteurs d’inférence
permettant de déduire de nouvelles connaissances formelles des annotations.
Au-delà de ce schéma, remarquons que deux termes principaux sont utilisés dans la littérature afin
de décrire les informations associées à des ressources : métadonnées et annotations.
- une métadonnée est « une donnée sur une donnée ». Cette définition est un peu vague voire ambiguë,
et elle est comprise de manière différente par différentes communautés qui conçoivent, créent,
décrivent, préservent et utilisent des systèmes d’information et des ressources. Par exemple, dans
certains cas la donnée sur laquelle la métadonnée porte est considérée comme ayant le même statut
de donnée formalisée, traitable par un système informatique, dans d’autres, la donnée n’est
qu’interprétable par un être humain, et seule la métadonnée en permet le traitement automatique.
- une annotation est à la base une note critique ou explicative accompagnant un texte, et par extension,
une quelconque marque de lecture portée sur un document, que celui-ci soit textuel ou image.
On le voit, les termes de métadonnée ou d’annotation prennent bien en compte cette notion
d’ajout d’information à une ressource, et on pourra a priori les utiliser indifféremment pour décrire ces
informations que le Web sémantique doit ajouter au Web pour le rendre plus utilisable par des machines.
Pour autant, si ces deux termes existent, c’est qu’ils n’ont pas le même sens.
D’un point de vue plus lié à la pratique de l’annotation / métadonnées (du point de vue du processus
de mise en place), et s’il est nécessaire de distinguer, nous proposons ce distinguo :
- une métadonnée sera plutôt attachée à une ressource identifiée en tant que telle sur le Web
– aura plutôt une pertinence a priori et sera plutôt saisie suivant un schéma. Par exemple, la
description normalisée d’un service Web, l’auteur d’un document, qui permettront de mettre en place
des inférences.
- une annotation sera plus située au sein de cette ressource et écriteau cours d’un processus
d’annotation / lecture. Par exemple, un commentaire libre associé à un fragment d’une page Web –
quelques mots, un paragraphe – déterminé au besoin.
Evidemment, cette distinction n’a rien de définitive, il s’agit simplement de mettre l’accent sur le
caractère plus situé au sein de la ressource (du fait de son exploitation par un utilisateur) de l’annotation,
par rapport à une métadonnée plus indépendante, voire ressource en tant que telle. Plusieurs critères,
12
non indépendants que nous illustrerons dans la suite peuvent être envisagés pour considérer les différents
types de métadonnées (annotations) :
- l’utilisation qui en est faite par les agents logiciels, plus ou moins « intelligente ». Remarquons
que pour le Web sémantique, on parlera le plus souvent de métadonnées ou d’annotations sémantiques.
Deux possibilités d’interprétation sont ici disponibles : « sémantique » au sens de « sémantique
formelle », et puis au sens plus vague de « faisant sens dans le cadre d’une tâche pour un utilisateur ».
Si certains tenants du Web sémantique souhaitent limiter la portée de celui-ci au premier sens formel
ces deux interprétations nous semblent pourtant tout à la fois pertinentes et de toutes façons
inextricablement reliées dans le cadre d’un Web sémantique riche et ouvert, à l’image de la richesse et
de la diversité du web actuel, qu’on pourrait qualifier d’ « un peu sémantique ».
- Des ressources « classiques » telles que des articles scientifiques ou des cours numérisés : cours
donnés en présence d’élèves et mis à disposition sous différents formats (textes, vidéos,
présentations multimédia).
- Des ressources composées d’éléments proposés par différentes universités ou écoles, structurées par
un ou plusieurs professeurs pour être accessibles en ligne, qui constituent des parcours cohérents
à destination des étudiants. Certaines de ces ressources sont prévues pour être composées
automatiquement par un logiciel à partir d’une spécification afin d’engendrer dynamiquement un cours
personnalisé. Pour cela, le scénario se divise en trois phases : la première est essentiellement centrée
sur la recherche d’information principalement interprétable par un humain, la constitution d’un corpus
et son indexation pour créer des cours en ligne manuellement, la seconde phase fait appel un
système de composition dynamique de cours adaptatifs spécifiés par un auteur et l’utilisation de
métadonnées sémantiques interprétables par un logiciel et la troisième phase met en scène les
apprenants.
13
II.4. Ontologies pour le Web sémantique
Les ontologies sont un des concepts de base du Web sémantique. Dans cette partie, nous voulons
revenir sur l’origine des travaux sur les ontologies au sein de la communauté Ingénierie des
connaissances pour montrer les acquis sur lesquels les chercheurs se sont appuyés pour développer le
concept au sein du Web sémantique. Dans un souci de clarté et de précision, nous revenons sur
la définition des ontologies pour clarifier les limites de l’approche ontologique et les contraintes qui
s’imposent à elle. Cela nous permet d’aborder les méthodologies de construction d’ontologies et la
question de la généricité. Ceci posé, nous pouvons passer en revue les apports du Web sémantique en
termes de méthodologies, d’outils, d’éditeurs en essayant de préciser les problématiques
particulières dans chaque domaine. Enfin, dans une dernière section, nous tentons de faire le point sur
les problèmes que rencontre le Web sémantique par rapport aux ontologies et les axes de réflexion
ou de recherche qui semblent prometteurs en ce domaine.
Tout programme informatique manipule, à travers des symboles, les objets du domaine modélisé.
L’ensemble de ces objets correspond à ce qui est appelé référentiel dans le domaine des systèmes
d’informations. Pour un domaine mettant en œuvre des connaissances complexes sur lesquelles on veut
effectuer des traitements intelligents le programme élaboré est un système à base de connaissances qui
manipule une base de connaissances. Cette base répertorie, entre autres, et de la même façon que dans
les systèmes d’information, les concepts du domaine hiérarchiquement organisés dans une « ontologie
», nommée ainsi en faisant référence à ARISTOTE
Les ontologies sont alors centrales pour le Web sémantique qui, d’une part, cherche à s’appuyer sur
des modélisations de ressources du Web à partir de représentations conceptuelles des domaines
concernés et, d’autre part, a pour objectif de permettre à des programmes de faire des inférences dessus.
Les recherches à leur sujet sont donc indispensables. Une fois construite et acceptée par une
communauté particulière, une ontologie doit en effet traduire un consensus explicite et un certain niveau
de partage, deux aspects essentiels pour permettre l’exploitation des ressources du Web par
différentes applications ou agents logiciels. D’autre part, la formalisation, autre facette des ontologies,
est nécessaire pour qu’il soit possible de raisonner automatiquement dessus afin de décharger les
utilisateurs d’une partie de leur tâche d’exploitation et de combinaison des ressources du Web. Les
ontologies servent alors (1) pour le vocabulaire, la structuration et l’exploitation des métadonnées, (2)
comme représentation pivot pour l’intégration de sources de données hétérogènes. (3) pour décrire les
services Web et, en général, partout où il va être nécessaire d’appuyer des modules logiciels sur des
représentations sémantiques nécessitant un certain consensus.
14
II.5. Adaptation et personnalisation dans le Web sémantique
Au travers d’Internet, un nombre potentiellement infini de services et de documents est
accessible à tous les usagers. La plupart des services et documents fournis actuellement sur
Internet proposent une organisation, un contenu, un mode d’interaction et une présentation
unique pour tous. Ceci peut être suffisant dans certains cas. Mais tous les utilisateurs ne sont
pas intéressés par les mêmes informations et n’ont pas les mêmes attentes, connaissances,
compétences, centres d’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des
services et des documents dont l’organisation, le contenu, les modes d’interaction et la
présentation sont adaptés à leurs besoins. Parmi les problèmes qui se posent on peut citer :
l’accès à l’information pertinente, la navigation dans un grand espace de ressources et la
compréhension d’une ressource complexe. L’adaptation / personnalisation dans le « Web
sémantique » peut s’appuyer sur les domaines suivants : les hypermédias adaptatifs, la
modélisation utilisateur et les documents virtuels personnalisables. Les travaux actuels sur
l’adaptation dans le Web sémantique peuvent être décomposés en deux parties : l’une sur les
hypermédias adaptatifs et l’autre sur les documents virtuels adaptatifs. Les futures recherches
sur le Web Sémantique pour l’adaptation / personnalisation peuvent s’articuler autour des cinq
points suivants : la modélisation utilisateur et des utilisations, la protection de la vie privée, la
recherche d’information, les services et documents adaptatifs, et l’ergonomie des services et
des documents.
15
(Thüring, Hannemann et al., 1995). Pour augmenter la cohérence d’un document, il faut fournir
à l’utilisateur des repères l’aidant à identifier les composants majeurs du document et sa structure
globale. Pour réduire l’effort mental de compréhension, il n’est pas suffisant d’avoir une
structure globale cohérente. Il faut aussi communiquer cette structure à l’utilisateur. Il est alors
possible de lui fournir les différents composants du document ainsi que leurs relations, par
exemple à l’aide d’outils graphiques. Conklin caractérise le surcoût cognitif comme l’effort
supplémentaire et la concentration nécessaire pour gérer plusieurs tâches en même temps
(Conklin, 1987). Ce phénomène est dû aux capacités cognitives limitées du processus humain
de traitement de l’information (Kaheneman, 1973). Dans un document hypermédia, ces efforts
sont dus à l’orientation et la navigation. Pour éviter la désorientation, l’utilisateur doit non
seulement connaître la structure globale du document, mais aussi ses déplacements dans cette
structure. Il doit en fait savoir où il est, d’où il vient et où il peut aller. Compréhension et
orientation sont en effet très fortement liées. La compréhension d’un document hypermédia ou
autre est donc liée à la compréhension de la structure globale de ce dernier, à sa présentation et
à son contenu. Assurer une bonne compréhension d’une ressource complexe nécessite donc
d’être capable d’adapter la structure globale d’une ressource, son contenu et sa présentation aux
besoins utilisateurs.
Dans l’avenir, l’adaptation et la personnalisation seront des points clés pour l’utilisation, la vente et
l’accès aux services et documents par les entreprises et les particuliers. Toutefois, il est important de
faire la différence entre adaptable et adaptatif (Bra, 1999), même si la conjonction des deux est possible.
Dans un système adaptable, l’utilisateur définit un ensemble de contraintes au travers d’une requête,
d’un questionnaire ou d’un formulaire. Le système propose alors une ressource qui correspond au profil
de l’utilisateur les contraintes. Ce profil peut regrouper les préférences de l’utilisateur en termes de
présentation (couleurs, type de média, style d’apprentissage, etc.) ainsi que son savoir-faire
(qualifications, connaissances). Dans un système adaptatif, ce dernier observe le comportement de
l’utilisateur et utilise ses observations afin d’adapter la présentation de l’information. L’évolution des
préférences et de la connaissance de l’utilisateur est alors déduite (en partie) des accès aux pages Web.
Le plus souvent, l’adaptation est obtenue au travers de la navigation de l’utilisateur, mais parfois le
système peut aussi utiliser le comportement de l’ensemble des autres utilisateurs pour adapter la
ressource. On se placera ici dans le cadre de l’adaptation/personnalisation (adaptable ou adaptatif) pour
des utilisateurs au moyen de ressources liées à ces derniers – on ne se préoccupe pas de problèmes
d’adaptation entre agents ou services qui ne font pas intervenir l’utilisateur ou des informations sur celui-
ci.
Le cadre général que nous proposons est fondé sur le principe général suivant :
- Un ensemble de ressources est disponible sur le web (pages web, documents structurés, résultats
de services, services) ;
- Un utilisateur « demande un résultat » ou pose une requête liée à sa tâche à un module logiciel
en fixant un ensemble de contraintes qui sont des données non persistantes définies à partir d’un
formulaire ou d’un simple hyperlien qui peut avoir été calculé pour ses besoins.
- Le module logiciel, à partir de cette demande, plus éventuellement un « profil » (données
rémanentes caractérisant un utilisateur ou un groupe d’utilisateurs particuliers) sélectionne un
sous-ensemble de ces ressources (requêtes logicielles). Un profil peut contenir des
caractéristiques sur les connaissances, les préférences, les objectifs, les centres d’intérêts, etc.
d’un utilisateur ou d’un groupe d’utilisateurs.
- Puis, le module logiciel compose ces ressources pour fournir à cet utilisateur un document ou
service Web (page simple : liste ordonnée d’URL - adresses de documents, de page web ou de
services - ou encore un site web ou service : portails, cours en ligne, musées virtuels, etc.), avec
lequel l’utilisateur peut interagir à nouveau.
Dans un tel contexte, que peut faire le web sémantique dans le cadre de l’adaptation/personnalisation
pour aider l’utilisateur ?
16
Une aide à l’utilisateur peut se faire aux étapes 2, 3 et 4 :
2) Demande utilisateur : proposer des termes adéquats au contexte de la tâche utilisateur, réécrire
interactivement ou non sa demande en termes « reconnus » par les ressources et/ou les systèmes
de gestion de ressources – hétérogènes, fournir à l’utilisateur un lien activant une requête adaptée
à ses besoins.
3) Recherche et filtrage des ressources pertinentes à partir de la requête utilisateur et de son profil
: la demande initiale et certaines données du profil utilisateur peuvent servir au filtrage des
ressources pertinentes, que celui-ci soit automatique ou interactif. L’enjeu est ici de réduire
l’espace des ressources à celles qui s’apparient ou qui sont adéquates aux contraintes de la
demande, aux besoins utilisateurs (via le profil).
4) Composition des ressources : après sélection des ressources pertinentes, il s’agit de les organiser
pour les présenter à l’utilisateur. Cette organisation est le résultat de l’application de règles de
composition qui peuvent prendre notamment les formes suivantes :
- Une structure implicite résultat d’un calcul comme un simple tri – de type résultat de
moteur de recherche, ordre temporel, etc.
- Une structure explicite comme un modèle de tâche, une structure narrative, etc. qui
organise un site Web (portail, musée virtuel, ...), etc. L’organisation sert de support pour
la navigation et la compréhension. En effet, celle-ci est fortement liée à l’organisation et
l’orientation dans un service ou document. Il est ici possible d’adapter/personnaliser
l’organisation, le contenu, les modes d’interaction et la présentation des services ou
documents.
17
caractéristiques sur les connaissances, les préférences, les objectifs, les centres d’intérêts, etc.
d’un utilisateur (Rich, 1989; Brusilovsky, Schwarz et al., 1996).
Le contexte (Brézillon, 2002) : support de lecture, taille d’écran, vitesse de transfert, conditions
géographiques, météorologiques (Garlatti & Iksal, 2000), etc.
En 1999, Sylvie Ranwez et Michel Crampes définissent les documents virtuels personnalisables comme
les éléments et les mécanismes permettant de réaliser une construction dynamique de documents
adaptatifs. Un DVP peut être considéré comme un ensemble d’éléments (ou fragments) associé à des
mécanismes de filtrage, d’organisation et d’assemblage sous contraintes, c’est-à-dire en respectant un
modèle de l’utilisateur et des principes narratifs (Ranwez & Crampes, 1999). Bien souvent,
l’organisation et la sélection de fragments pertinents nécessitent des mécanismes de recherche
d’information et de filtrage qui utilisent entre autres les index des fragments. L’indexation des fragments
peut aller de l’utilisation d’un simple concept issu d’un modèle de domaine à celle plus complexe d’un
schéma de méta-données. La caractérisation de ces fragments et de leur indexation ne peut pas être
séparée de celle des mécanismes d’un DVP. En effet, un DVP est fondé sur deux étapes principales qui
sont indissociables : la spécification et la composition du document réel. La spécification d’un DVP,
c’est l’ensemble des informations nécessaires au système pour composer le document. Cette étape
dépend bien évidemment des principes mis en oeuvre dans la composition. Elle permet au minimum aux
auteurs d’un DVP de définir les fragments (nature, granularité et indexation), mais aussi les règles
d’organisation et d’assemblage. Les deux dernières ne sont pas toujours accessibles aux auteurs. La
composition a pour objet la construction d’un document réel à partir d’une spécification et des critères
de personnalisation. Spécification et composition sont en quelque sorte deux faces d’une même pièce ;
elles ne peuvent être conçues l’une sans l’autre et forment un tout indissociable.
Dans le cadre des documents virtuels personnalisables sur Internet qui génèrent des hypermédias, il est
intéressant de prendre en compte les méthodes et techniques d’adaptation proposées dans le domaine
des hypermédias adaptatifs. La personnalisation, l’adaptation pour un utilisateur donné est favorisée par
l’utilisation des modèles utilisateurs qui représentent ces utilisateurs. En ce qui nous concerne, les DVP
sont fondés sur des informations provenant de sources hétérogènes, la réutilisation et le partage sont des
enjeux des DVP qui peuvent être assurés par le Web Sémantique.
Les technologies du web sémantique sont de plus en plus appliquées à un large spectre
d’applications au sein desquelles une connaissance de domaine est modélisée et formalisée
(ontologie) afin de servir de support à des traitements très diversifiés (raisonnements)
effectués par des machines. En outre, ces représentations peuventêtre rendues
compréhensibles par l’homme pour assurer un couplage optimal entre raisonnements humains
(cognitifs) et mécaniques (sémantique formelle) confiant à l’homme et à la machine des tâches
complémentaires.
Pour citer quelques-unes de ces applications : Portails d’entreprises et Mémoire
d’entreprises, E-Commerce, E-Work, Traitement Automatique des Langues et Traduction
Automatique, Recherche d’Information, Intégration d’Entreprises et EWork, Communautés
d’Intérêts, Data Mining, etc. D’un point de vue économique et sociétal, cette technologie doit
pouvoir contribuer à la croissance économique, en permettant aux entreprises d’inter-
fonctionner plus aisément et de trouver plus rapidement de nouvelles et meilleures
18
opportunités de marchés, mais également contribuer à la société civile dans sa vie quotidienne
au travail et pour ses loisirs.
Au carrefour d’une maturité technologie émergente et d’une pression économique
pressentant des gains potentiels et l’élargissement ou la création de nouveaux marchés, se
manifeste un intérêt croissant pour l’évaluation des technologies du Web sémantique sous
l’angle des coûts et bénéfices mesurables qu’offre cette nouvelle technologie. Une première
étape dans la mesure objective de l’intérêt de cette nouvelle technologie est d’en présenter
simplement de premiers résultats préindustriels pour des applications prototypes les plus
prometteuses. C’est bien l’objectif de ce document qui essaie de tracer les résultats les plus
significatifs et les plus lisibles à ce jour.
Via la pénétration profonde des technologies numériques au sein de la société de l’information,
le contenu du Web est multiforme, incertain et très dynamique. Cela conduit naturellement à
tenter d’abstraire cette complexité apparente, en fournissant des nouveaux services capables de
raisonner sur des représentations conceptuelles (sémantiques) via des automates – ex. Web
services. Cette couche sémantique, fait l’objet d’une très forte activité de R&D mondiale
dénommée « Web sémantique » (DARPA, IST), OntoWeb (2002), Semantic Web (2001),
ERCIM News (2002), dont les applications premières sont évidentes, mais dont les
prolongements semblent potentiellement très riches de retombées technologiques et de services
pour tous les acteurs de la chaîne de traitement de l’information.
Cette nouvelle technologie est à la croisée de nombreuses disciplines telles les sciences
cognitives, l’apprentissage symbolique, le traitement automatique des langues, les systèmes
multi-agents, l’ingénierie des connaissances, les sciences du raisonnement et de la décision, qui
adoptent une approche formelle, normative et algorithmique des raisonnements de sens
commun et leurs traces fortes dans la langue via la rencontre machinerie-
computationnelle/facteur-humain.
Nous présentons ici quelques applications phares, ayant fait l’objet de travaux importants dans
différents domaines applicatifs, ainsi que leurs résultats.
II.7.1. E-COMMERCE
Les applications du B2C permettent aux offreurs de produits et services de propager et présenter leurs
offres, et aux clients, de trouver et de commander l’offre(s) sélectionnée(s). En fournissant un accès
unique à une large collection d’articles ou de services fréquemment mise à jour, une place de commerce
électronique facilite la rencontre entre l’offre et la demande grâce à des outils de médiation commerciale.
Les applications du B2B ont une plus longue histoire et utilisent les échanges informatisés via des
structures de messages et de protocoles très codifiées, pré-établies et normalisées (EDI – Electronic
19
Data Interchange ou Échange de Données Informatisés) récemment assouplies via des standards basés
sur XML (eXtensible Markup Language).
Une nouvelle génération de services d’échange de messages compatible XML est en développement :
ebXML (electronic business in XML). UN/CEFACT, OASIS et de nombreux acteurs du commerce
électronique ont uni leurs efforts pour concevoir un nouveau standard pour le commerce électronique.
Loin de devoir remplacer EDIFACT, ebXML se positionne dans la complémentarité et dans la
continuité. EDIFACT est particulièrement adapté aux échanges de gros volumes avec des partenaires
stables, alors que ebXML doit répondre, en plus, à la problématique des petits échanges entre partenaires
épisodiques.
Actuellement, les systèmes à base d’ontologies apparaissent comme une technologie clé pour
le développement de solutions d’E-Commerce efficaces, ouvertes et profitables. Cependant, par
manque de normes de modèles de domaine et de processus métier dans les plus larges secteurs
économiques, le E-Commerce peine à décoller.
En effet, la variété d’entreprises et de solutions de commerce électronique déployées faisant
usage de configurations d’échanges très diversifiées, associée au manque de fiabilité et de
sécurité sur Internet, rendent impossible le passage à l’échelle par l’intégration et l’inter-
fonctionnement de ces différentes solutions.
Par ailleurs, dans une situation de marché où coopérations et compétitions interfèrent, l’adoption de
standards de domaines et de transactions économiques est très difficile à atteindre.
De plus,
Les pratiques commerciales sont très variées et rendent très difficiles les alignements normatifs ;
Les entreprises sont complexes : la description des produits et services (seuls ou associés), et leurs
interactions sont difficiles à modéliser ;
Les règles du jeu économique sur des places de marché sont très opportunistes ; L’adoption de
standards pourrait limiter la créativité commerciale.
Malgré toutes ces difficultés, de réels bénéfices pourraient être tirés de l’usage d’ontologies dans les
domaines suivants :
- Catégorisation de produits dans des catalogues,
- Catégorisation de services (dont les Web services),
- Pages Jaunes des sociétés de services,
- Identification des pays, régions et monnaies,
- Identification des organisations, de personnes et d’entités légales,
- Identification de containers de transport (type, situation, routes et contenus), - classification
de données statistiques.
Quelques applications B2B font usage de références codées dans des classifications (ex. UNSPSC,
OTA) pour réduire la taille des données à transmettre entre acteurs économiques. De tels codes
s’affranchissent des ambiguïtés inhérentes de la langue naturelle (polysémie sur les noms de produit et
polymorphisme sur les noms propres). Enfin, pratiquement aucun des schémas de classification utilisés
n’est décrit formellement comme le devrait être une ontologie.
Nous présentons dans la suite deux exemples de tentatives d’usage des technologies du web sémantique
au contexte du E-Commerce.
20
II.7.1.2. LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek
Pour des services de pages jaunes ou des catalogues de produits, une représentation structurée des
contenus couplée à des ontologies linguistiques améliore de manière notable le rappel et la précision des
outils de recherche marchands. Le système ONTOSEEK (1996-1998) a couplé une représentation des
connaissances du domaine (langage à pouvoir d’expression très limité de la famille de graphe conceptuel
GC) à une large ontologie linguistique multilingue (SENSUS basé sur WORDNET) pour une recherche
de produits en langue naturelle multilingue (Guarino et al., 1998).
Ils font usage d’un formalisme de représentation basique des GC pour représenter les requêtes et les
descriptions des produits. Le mécanisme d’intersection sémantique est basé sur un simple calcul de
subsomption sur les arcs et les nœuds du graphe et ne met pas en œuvre un calcul complet
d’endomorphisme de graphe.
ONTOSEEK n’a pas fait l’objet de déploiement commercial mais à son époque a très bien montré les
gains potentiels que les prémisses de technologie du Web sémantique pouvaient apporter aux moteurs
marchands pour le commerce électronique.
MKBEEM (2000–2002) projet IST du FP5 avait pour objectif de développer une plate-forme de
commerce électronique multilingue et multiculturelle principalement centré vers des services pour le
B2C. Les résultats finaux ont clairement indiqué que pour des domaines commerciaux bien délimités –
mais totalement réalistes - les technologies de la connaissance (KRR) couplées à des technologies du
traitement automatique des langues (TAL) fournissent des services de traduction et d’interprétation de
grande qualité et opérationnels à très court terme (Mkbeem, 2002).
L’innovation clé réside dans ce couplage du TAL et du KRR offrant à ce jour les services suivants :
- représentation de la requête langue naturelle dans une représentation sémantique (ontologie) ;
- maintenance aisée de catalogues de produits et services multilingues ;
- création aisée d’offres composites de produits et de services ;
- recherche en langue naturelle de produits ou de services par le contenu sémantique ;
- catégorisation et indexation automatiques des produits ou des services décrits en langue
naturelle ;
- intégration aisée et rapide de nouvelles offres de produits ou de services dans un contexte
multilingue et pluriculturel.
La qualité des résultats a été jugée sur un prototype pan-européen pour le Finnois, le Français, l’Espagnol
et l’Anglais dans les domaines du tourisme (SNCF) et de la vente par correspondance (Redoute-Ellos).
Cette technologie fait l’objet de transfert vers la Redoute et la RMN.
21
II.7.1.3. APPLICATIONS MÉDICALES
La médecine est un des domaines d’applications privilégiés du Web sémantique comme elle l’a été, à
une autre époque, des techniques de l’Intelligence Artificielle, en particulier les systèmes experts. C’est
en effet un domaine complexe où les informations à partager sont nombreuses et où il n’y a pas ou peu
de solutions algorithmiques à ce partage comme à l’usage des connaissances, en particulier cliniques.
Ainsi, un des principaux mécanismes du Web sémantique qui est la description de ressources via des
annotations est de la plus grande importance en bioinformatique, plus particulièrement autour des
questions de partage des ressources génomiques. Dans le contexte, plus ancien, de la recherche
d’information, la médecine a une longue tradition de développement de thésaurus comme le Me SH
(Medical Subject Heading) ou UMLS (Unified Medical Language System –
http://www.nlm.nih.gov/research/umls/umlsmain.html) et les utilise maintenant dans le cadre des
mécanismes du Web sémantique. Enfin, et plus récemment, les services Web proposent des solutions à
la problématique récurrente et non résolue de l’interopérabilité en médecine, en particulier dans le
contexte des SIS (Systèmes d’Information Hospitaliers). C’est dans ces 3 champs de l’informatique
médicale que nous allons décrire les travaux de recherche qui se développent, les résultats et les
perspectives attendues1.
Dans un autre domaine que la génomique mais en utilisant les mêmes mécanismes du Web sémantique
(ontologies, médiateurs), le projet NEUROBASE (Barillot et al.) est un projet soutenu par le ministère
français de la Recherche (MENRT) qui a pour objectif de fédérer au travers d’Internet des bases
d’informations en neuroimagerie, situées dans différents centres d’expérimentation, cliniques
neurologiques ou de recherche en neurosciences. Ce projet consiste à spécifier comment relier et accéder
à ces bases d’informations par la définition d’une architecture informatique permettant l’accès et le
partage de résultats d’expérimentations ou bien encore de méthodes de traitement des données au sein
d’un même site ou entre sites différents. Cette architecture repose sur le concept de médiateurs (Cf. chap.
5). Cela permettra, par exemple et au sein de ces bases d’informations, la recherche de résultats
similaires, la recherche d’images contenant des singularités ou encore des recherches transversales de
type « fouille de données » pour mettre en évidence d’éventuelles régularités. Le médiateur de
NEUROBASE devrait être expérimenté sur une application clinique d’aide à la décision en chirurgie de
l’épilepsie.
22
articles sont indexés à l’aide des termes du MeSH <http://www.nlm.nih.gov/mesh/meshhome.html>, un
thésaurus contenant près de 22 000 descripteurs. La maintenance de PubMed met en lumière un des
problèmes de l’indexation, le travail que représente le choix d’index pertinent pour représenter les
articles. Cela rejoint, comme le projet suivant, la question de la mise en place des annotations (Cf. chap.
3), difficile d’autant plus qu’elle est effectuée a posteriori. La NLM a ainsi un gros projet d’indexation
automatique des ressources fondée sur l’analyse du titre, du résumé de l’article et des index déjà posés
sur les articles cités en référence (Aronson et al., 2000).
Le site CISMeF du CHU de Rouen, reconnu en France comme étant le site de référence en informatique
médicale, « catalogue » et indexe l’ensemble des sites médicaux francophones de qualité (environ 12
000 en 2003 – <http://www.churouen.fr/cismef/>). En dehors du fait que cela ne se fait pas sans méthode
et sans une certaine force de travail, il est intéressant d’explorer d’un peu plus près les modes
d’indexation des sites (Darmoni et al,. 2000) : ainsi, quand une page Web est cataloguée, elle est indexée
pour pouvoir être retrouvée et reproposée aux intéressés. RDF et les balises du Dublin Core sont alors
utilisés pour décrire des informations de type bibliographique au sujet de la page (langue utilisée dans
le document, année, auteurs, sujet (mots-clés), etc.). Des balises nécessaires aux ressources médicales
comme la gratuité de la ressource ou son niveau de preuve s’y ajoutent. Comme pour Medline, c’est le
thésaurus MeSH qui est utilisé pour indexer le contenu médical des ressources.
Ces applications, en particulier CISMeF, nous interrogent sur l’utilisation des thésaurus pour l’indexation
par rapport à la possibilité qu’offriraient les ontologies. Si les thésaurus montrent ici parfois leur limite
avec une organisation des concepts médicaux parfois ambiguë ou incohérente, la mise en place
d’ontologies a un coût (en temps en particulier) non négligeable et dont la rentabilité n’est pas évidente.
De plus, une ontologie manipule des concepts à une telle granularité qu’ils ne sont pas facilement
accessibles dans le contexte du travail courant du praticien. Des solutions semblent se mettre en place
en reliant les concepts de l’ontologie aux termes des thésaurus dans un serveur de terminologie comme
en propose le projet GALEN (Rector et al., 1995) qui rejoint les propositions de thésaurus sémantiques
dans d’autres domaines (Roussey & Calabretto, 2002).
Les propositions du GT11 portent sur une structure permettant de transporter des données et des
documents hétérogènes mais avec des informations associées à ce transport, renseignant sur la finalité
du message et son contenu, et en permettant la gestion et le traitement – c’est le concept d’enveloppe.
Ce concept rejoint totalement le concept récent d’enveloppe ebXML. Il s’en différencie par deux points
principaux :
Le patient comme unique objet de la transaction. Un tel échange ne saurait être anonyme du point
de vue du couple émetteur-récepteur. Il concerne donc un émetteur et un destinataire, qui tous
deux sont impliqués et responsabilisés dans l’échange. Le seul moyen de permettre à un
émetteur de signer un envoi réservé à un récepteur précis, concernant un patient qui a le droit
23
d’exiger d’en connaître le contenu, aboutit à une structure nécessairement unique pour le triplet
{émetteur, récepteur, patient}.
Le caractère multimédia des informations transportées. Une analyse de l’existant fait apparaître
clairement l’existence chez la majorité des acteurs de santé de sources multiples d’informations
concernant un même patient. Ces informations médicales ne sont pas nécessairement liées entre
elles, notamment sur le plan informatique, et se présentent sous des formes et sur des supports
divers (bases de données, documents textuels formatés ou pas, propriétaires ou pas, images,
etc.). Si ces informations ne sont pas toujours gérées de manière centralisée chez l’émetteur, il
peut être fondamental de les réunir à l’occasion d’un échange avec un autre acteur de santé,
qui, lui, saura éventuellement les intégrer dans sa base de données. Même sans lien
informatique structuré, le fait de les envoyer ensemble a un sens sur le plan médical, par rapport
au contexte précis de l’échange, comme par exemple dans le cas de l’échange d’une image et
de son compte rendu. Sur le plan de la traçabilité de l’échange, il est donc fondamental pour
l’émetteur et le récepteur de pouvoir prouver que ces informations ont été transmises ensemble.
L’intérêt d’une telle approche est qu’elle trace un chemin vers l’interopérabilité plus facilement que des
normes spécifiant précisément les items d’information échangés comme le propose le consortium
américain HL7 (Health Level 7) ou l’organisme de normalisation européen CEN TC251 (Charlet et al.,
2002). Elle permet une certaine interopérabilité, loin de l’interopérabilité sémantique que devraient
offrir les ontologies mais plus réaliste dans le contexte de l’informatique médicale à ce jour.
Que peut apporter le Web sémantique au traitement automatique des langues (TAL) ? Le langage humain
est construit de mots individuels (niveau lexical), qui peuvent avoir plusieurs sens, et parfois appartenir
à plusieurs catégories lexicales ou parties du discours. Les textes en langue humaine sont des objets très
structurés, présentant une cohésion inter et intra-phrase très forte (IJCAI-97, 1997).
Quand un auditeur reçoit un message d’un orateur, il essaie de comprendre ce que et pourquoi ce locuteur
a produit ce message en faisant appel à ses compétences linguistiques, sa connaissance en général et en
particulier celles de la situation d’énonciation, ses croyances, etc. L’auditeur construit donc une
représentation (très probablement sémantique) de ce qu’il comprend de la proposition du locuteur, afin
de sélectionner une réaction en retour.
Pour construire cette représentation, il doit partager avec l’orateur quelques croyances et connaissances
:
24
- Reconnaissance phonétique et lexicale (si message vocal),
- Connaissances lexicales,
- Connaissances grammaticales,
- Connaissances sémantiques du domaine du discours, - règles conversationnelles et cohérence
discursive, - connaissances contextuelles.
Selon (Zyl et al., 2000), il y a eu quelques applications faisant usage d’ontologies linguistiques2. En
complément de l’usage traditionnel de ces ontologies pour la génération (Natural Language Generation,
NLG) et la traduction, ces applications les mettaient en œuvre pour l’extraction de sens d’un texte, pour
la recherche d’information, et pour l’intégration d’informations hétérogènes.
Une ontologie linguistique telle que définie dans (Zyl et al., 2000) sert de format pivot entre applications
ou entre interprétations possibles communes de différentes langues. Les ontologies linguistiques ont
généralement pour objet de résoudre les questions suivantes : comment représenter les connaissances
d’un univers donné et comment lier cette représentation à celles aujourd’hui classiques des grammaires
et des lexiques ?
De nombreuses applications (toutes ?) du web sémantique devraient à l’avenir faire appel aux outils
traditionnels du TAL enrichis des représentations et des traitements sémantiques associés.
Les principaux bénéfices attendus sont : de fournir un fondement pour représenter le sens de texte dans
un « interlingua » ; pour permettre à des lexiques de différentes langues de partager un même modèle.
Le modèle ontologique résultant est du coup partagé pour le TAL par l’analyse et la génération.
Le système PANGLOSS® (Knight et al., 95) traduit des textes Espagnols en Anglais. L’ontologie
linguistique utilisée dans Pangloss ® est SENSUS (identique à celle utilisée dans le système
ONTOSEEK cité plus haut).
Le système MIKROKOSMOS® (Viegas, 99 ;Mahesh, 95) traduit des textes Espagnols et Chinois en
Anglais. Il inclut un interlingua (TMR – Text Meaning Representation) qui produit une représentation
25
sémantique pour les langues sources citées. Il propose aussi un outil d’édition et une API pour accéder
à l’ontologie
26
recherche en informatique et en automatique (Inria), le Ministère de la Culture de la France ainsi que
l’association Wikimédia France.
Le Web de données est souvent représenté par un graphe, attribué à Max Schmachtenberg,
Christian Bizer, Anja Jentzsch et Richard Cyganiak, qui permet de constater les différents liens entre
les nombreux jeux de données (des collections de données) (voir annexe 1). Les jeux de données qui
se trouvent dans le graphe répondent aux critères suivants (Schmachtenberg, Bizer, Jentzsch et
Cyganiak, 2014) :
Les jeux de données les plus importants et vers lesquels le plus grand nombre de liens ont été effectués
sont représentés par des sphères plus larges dans le graphe. Ainsi, les DBpedia, GeoNames (une base
de données géographique) et FOAF(un vocabulaire qui permet de décrire les personnes et les relations
qui les unissent) se retrouvent au centre et sont plus imposants que les autres, ce qui démontre leur
importance et leur poids dans le Web de données. Ce graphe est en constante évolution et il est
intéressant de comparer les différentes versions disponibles afin de bien constater à quel point le
mouvement est en croissance (voir figure 1).
Figure 2 Évolution du nombre de jeux de données publiés selon les standards du Web de
données et interreliés à d’autres jeux de données sur le Web, de mai 2007 à août 2014
Dans sa note de 2006, Berners-Lee présente les quatre principes de base du Web de données sur lesquels
plusieurs se baseront par la suite et sur lesquels nous reviendrons :
27
1. Nommer les ressources avec des URI ;
2. Utiliser des URI déréférençables (protocole HTTP) afin qu’il soit possible d’accéder à des
informations sur les ressources ;
3. S’assurer que les URI déréférençables fournissent des informations pertinentes à l’aide des
standards tels que RDF et SPARQL ;
4. Créer un réseau de liens avec d’autres URI provenant d’autres bases de données.
Cette réflexion doit nous encourager à considérerla convergence entre institutions culturelles comme
quelque chose de vital, car on ne pourra pas continuer à attendre de l'usager qu'il comprenne les barrières
institutionnelles et les accepte. Le touriste qui prépare sa visite au musée devrait pouvoir trouver aussi
bien des livres sur Picasso que les reproductions de ses œuvres ; le généalogiste qui trace l'histoirede ses
arrière-grands-parents devrait pouvoir accéder aussi bien aux ressources des bibliothèques qu'à celles
des archives.
Pour aller encore plus loin, on peut souhaiter que dans l'écosystème actuel du Web, les ressources que
l'usager n'a pas cherchées soient poussées vers lui naturellement, au cours de sa recherche, à travers des
résultats fournis par son moteur de recherche favori, des liens depuis une page Wikipédia, des références
entre sites Web.
Si tout ceci semble du domaine de l'évidence quand on parle des sites Web, pourquoi n'en est-il pas de
même pour les données quoi sont cachées dans nos catalogues ? En effet, l’hypertexte et
l’interconnexion des pages Web fonctionnede manière optimale pour les ressources de nature
documentaire, mais pour aller plus loin, ce sont les données elles-mêmes qu’il faudrait sémantiser et
relier pour les rendre interopérables. C’est justement le principe du Web sémantique et du Web de
données.
28
Pour illustrer ceci par unexemple concret, une bibliothèquedispose en général d’un site Web qui est
accessible et relié, via un certain nombre de liens hypertextes, à l’ensemble plus global du Web.
Cependant, les données de la bibliothèque comme le catalogue, font généralement partie du Web dit
profond, ou caché : c’est-à-dire que ces données sont stockées dans une base de données, accessible à
travers un formulaire de recherche, et donc ne peuvent pas être parcourues de lien en lien notamment
par des agents logiciels tels que les moissonneurs (crawlers) des moteurs de recherche. Ainsi,un usager
qui souhaite prendre connaissance de ces données doit obligatoirement accéder à ce formulaire et saisir
une recherche. Si les ressources qui l’intéressent sont disséminées dans les bases de plusieurs
bibliothèques, il devra recommencer autant de fois cette opération.
Bien entendu, les bibliothèques et les institutions culturelles ont pris conscience depuis plusieurs années
de cette problématique, et elles ont mis en place différents moyens pour permettre d’y pallier.
Le protocole Z 39.50, développé dès les années 1980, suivi par une nouvelle génération (SRU/SRW)
reposant sur des standards appartenant davantage à l’ère du Web, en particulier XML, permet
l’interrogation synchrone de plusieurs bases. Toutefois, cette façon de faire présente plusieurs
inconvénients : avant tout, le protocole reste très spécifique au monde des bibliothèques, et ne permet
pas d’interagir avec des ressources d’autres domaines. D’autre part, l’interrogation synchrone de bases
différentes présente des restrictions quant à la précision des requêtes, au temps de réponse, au
dédoublonnage des résultats, etc. Le protocole Z 39.50, très utilisé sur le plan professionnel pour les
échanges de notices entre catalogueurs, débouche sur un mode d'interopérabilité que nous appellerons «
l'interopérabilité par conversion et copie » (map and duplicate interoperability) : si les ressources sont
dans un format différent, on effectue une conversion complexe qui permet de récupérer les données avec
29
un minimum de perte (le niveau de perte n'étant toutefois jamais nul) pour les verser dans une seule base
qui sera chargée de fournir le service d'interrogation à l'utilisateur.
Pour ajouter une couche de complexité à ce panorama, notons que si l’on ne s’intéresse pas seulement
aux bibliothèques, mais aussi à d’autres institutions culturelles telles que les archives et les musées, il
faut prendre en compte la diversité des modèles de données définis par ces trois communautés. Le
modèle de base des bibliothèques repose sur deux concepts complémentaires, les notices
bibliographiques qui décrivent les documents, et les notices d’autorité qui décrivent des entités
(personnes, collectivités, concepts, etc.) que plusieurs notices bibliographiques peuvent avoir en
commun. Le modèle des archives met en avant la notion decontexte et de hiérarchie. Le format EAD,
qui s'appuie sur le modèle de description de l'ISAD-G, permet de représenter les inventaires sous la
30
forme d'une arborescence de composants qui favorise le respect des fonds. Des notions comme le titre
ou l'auteur sont moins pertinentes dans ce contexte, alors qu'elles sont basiques dans celui de
l'information bibliographique. Enfin, l'information des musées est profondément déterminée par le fait
qu'elle porte essentiellement sur des objets uniques. Ainsi, le contexte de ces objets est décrit, pas
seulement comme dans le cas des archives en fonction de l'organisation des ressources, mais en fonction
des différents événements auxquels l'objet est confronté, de sa création à sa conservation en passant par
les différentes opérations de restauration et d'exposition qui ont pu l'affecter. Ce concept d'événement
devient central dans le modèle, et c'est à travers lui que l'on relie les œuvres aux personnes. Ainsi le
modèle CRM du CIDOC accorde une place structurante à l'événement. Ces profondes différences de
modèle au sein même des métiers du patrimoine culturel font de la convergence des données un véritable
challenge. Réduire des données de bibliothèques, d'archives et de musées à un modèle commun implique
de renoncer aux particularités de traitement et de conception de chacun de ces domaines, et réduit la
construction de services communs à son plus simple élément. De plus, ces méthodes d'interopérabilité
ne prennent pas vraiment acte de l'évolution des usages dans le contexte du Web, tel que nous l'avons
évoqué en introduction. En effet, elles impliquent toujours un postulat dedépart qui est que l'usager
connaît l'existence de ces services, et fait la démarche de se rendre sur la page d'accueil de la bibliothèque
ou du portail pour se positionner dans une démarche de recherche.
• utiliser des URI (uniform ressource identifier) pour identifier les ressources : chaque ressource sur
laquelle on veut pouvoir faire des assertions doit se voir affecter un identifiant Web, une URI ;
• ces URI doivent être formulées suivant leprotocole HTTP afin qu'on puisse les actionner pour accéder
à la ressource identifiée, ou à des informations sur cette ressource ;
• lorsqu'on accède à une ressource via son URI, celle-ci doit renvoyer des informations utiles et
pertinentes en utilisant les standards (RDF, SPARQL) ;
• enfin, les ressources doivent être reliées, c'est-à-dire qu'il ne suffit pas de publier des informations,
mais il faut les relier à des informations publiées par d'autres, afin de créer un écosystème basé sur les
liens.
L'objectif est de créer un espace global d'information où les données sont décrites suivant un modèle
commun, le modèle RDF, et reliées par des liens actifs, exploitables par des machines. Grâce aux
principes du modèle RDF, les liens entre les données sont typés, c'est-à-dire qu'ils qualifient le type de
relation qui relie deux ressources : similarité, relation de sujet (« aboutness »), ou autre. Dans cette
approche, il est possible de créer des liens entre des ressources décrites en utilisant divers modèles, à
partir du moment où la grammaire de base, commune à tous ces modèles, est le RDF. Deux modèles
d'interopérabilité permettent dereprésenter cette nouvelle façon de travailler les données : le modèle de
la roue et de l'essieu (« hub and spoke ») et le modèle de la navigation intuitive (« follow your nose »).
31
Les référentiels ou vocabulaires sont appelés à jouer un rôle vital dans le Web de données, en particulier
lorsqu'il s'agit de construire l'interopérabilité entre des données issues de domaines différents. Sur le
Web, un utilisateur a la possibilité de naviguer d'un site Web à un autre sans avoir connaissance des
moyens techniques utilisés pour publier les données, sans même qu'il n'existe véritablement de rupture
ou de frontière entre ce qu'on appelle les sites Web. De la même manière, sur le Web de données, la
navigation de lien en lien doit pouvoir se faire, d'un jeu de données (dataset) à un autre, sans nécessité
de percevoir les limites des différentes bases de données ni leur format. Les référentiels sont volontiers
associés au modèle « hub and spoke » : ils agissent comme un point nodal ou une colonne vertébrale
permettant de créer un point de contact entre des jeux de données différents. Dans le Web de données,
ce point de contact est suffisant pour naviguer sans contrainte d'un jeu de données à l'autre, en utilisant
les URI, que les données soient ou non exprimées suivant le même modèle.
Figure 5 interopérabilité basée sur les liens : modèle « hub and spoke »
Pour aller encore plus loin, dans le Web de données, n'importe quel jeu de données dont on réutilise les
données peut jouer ce même rôle de passerelle, quoique pas de manière centralisée : le fait de parcourir
ces liens permetalors de découvrir denouvelles ressources de façon intuitive (« follow your nose »
interoperability).
32
III.1.3. Le rôle des vocabulairesdans le Web de données
Les vocabulaires sont donc appelés à jouer un rôle vital dans le contexte de l'interopérabilité basée sur
les liens. Dans ses travaux, le groupe Library Linked Data du W3C (LLD XG) a défini deux types de
vocabulaires : les vocabulaires de métadonnées, et les vocabulaires de valeurs (ou référentiels devaleurs)
[LLD XG, 2011].
Grâce au principe du Web de données, l'utilisation d'un référentiel commun tel que les LCSH permet de
faire des liens entre deux jeux de données même si ceux-ci sont exprimés suivant un modèle différent,
en faisant appel à des classes et propriétés différentes. Ils partagent alors un même vocabulaire de
valeurs.La navigation de lien en liendans le Web de données doit rendre possible l'exploitation conjointe
de ressources décrites différemment, pourvu qu'elles aient un point de contact.
Pour les bibliothèques, le modèle des notices bibliographiques et d'autorités fonctionne déjà d'une
manière similaire dès lors que des liens sont créés entre ces deux types de notices, et que leur cohérence
ne repose pas que sur l'emploi de chaînes de caractères (les noms) normalisées. L'évolution vers les
nouveaux modèles avec FRBR, FRAD et FRSAD, et ensuite l'évolution des règles de catalogage vers
RDA qui s'appuie sur les mêmes concepts, prend également acte de la nécessité de mutualiser davantage
les informations par la création de liens, non plus en recopiant les notices d'une base à l'autre, mais à
l'intérieur même d'une notice. Dans ces nouveaux modèles,les notions qui peuvent prétendre au rang de
référentiel, au sens d'informations qui sont partagées et réutilisées dans différentes descriptions et
servent à faire du lien, se multiplient : l'œuvre, l'expression, les personnes, les collectivités, les familles,
les sujets. Ces notions qui deviennent centrales dans les nouveaux modèles de l'information
bibliographique pourront être mutualisées avec d'autres métiers et ainsi contribuer à porter les données
des bibliothèques sur le Web.
Le fait de s'intéresser aux données des archives et des musées implique de prendre en compte une
modélisation principalement déterminée par l'existence d'objets ou de documents uniques.
33
C'est sans doute pour cette raison que ces communautés se sont moins tôt intéressées à la problématique
des référentiels, et longtemps il n'a pas existé l'équivalent des notices d'autorité (qui toutefois se
développent aujourd'hui dans les archives avec l'EAC – encoded archival description). Dans les musées,
il existe des référentiel de valeurs de type thésaurus et classifications (ex. les différents thésaurus du
Getty pour les sujets, les lieux, les artistes, etc., ou encore le système de classification iconographique
IconClass) qui permettent de rendre tangible le contenu des objets graphiques.
Les nouveaux modèles tendent à développer l'idée de mise en relation de ressources entre elles en se
basant sur des liens, favorisant ainsi la découverte de nouvelles ressources par rebond. Les liens qui vont
permettre de connecter ainsi les ressources sont des entités telles que des personnes, des événements,
des lieux, des concepts. Or ce type d'entité, qui correspond aux notices d'autorité des bibliothèques, est
également le type même de ressources qui peuvent être partagées au-delà des limites d'un type
d'institution culturelle en particulier.
De la même manière, les référentiels particuliers que sont les classifications telles que la Dewey, la
CDU, IconClass... utilisent des valeurs chiffrées qui permettent, en plus de jouer le rôle de « hub and
spoke » que nous avons déjà souligné, de construire des services comme le multilinguisme [Dunsire,
2010].
L'utilisation des référentiels de valeurs par différents jeux de données va permettre de créer
naturellement une interopérabilité de type « hub and spoke » sans développements supplémentaires. Un
exemple : les données bibliographiques de la BnF contiennent une référence à un plan de classement
Dewey de haut niveau utilisé pour la Bibliographienationale française notamment. La conversion de ce
plan de classement en lien vers les URI fournies sur le site http://dewey.info est quasiment instantanée,
et facilitée par le fait que les URI de Dewey.info sont construite à partir de l'indice Dewey lui-même
(ex. pour la littérature française de fiction : http://dewey.info/class/843/).Ainsi, les ressources de la BnF
seront dès leur publication reliées au Web de données par ce biais, et on pourra faire des liens avec
d'autres jeux de données qui seraient reliés à Dewey.info [Wenz, 2010].
Pour aller plus loin, on peut dire que certains jeux de données, qui ne sont pas particulièrement conçus
pour jouer le rôle de référentiels devaleur, voient leur usage si largement répandu qu'ils vont finir par se
comporter exactement de la même manière. Si les responsables de jeux de données font le choix
deréutiliser des URI existantes au lieu de générer leurs propres URI locales, on aboutit au modèle de
l'interopérabilité intuitive (« follow your nose ») : on passe directement du nouveau jeu de données ainsi
publié à celui dont on réutilise les URI. Un exemple : DBPedia, extraction en RDF des données de
Wikipédia réalisée par les chercheurs de l'Université Libre de Berlin et de l'Université de Leipzig en
Allemagne, joue actuellement un rôle de « hub » pour leWeb de données : en raison de sa dimension
encyclopédique, DBPedia est souvent le premier choix pour se relier pour les jeux de données de toute
nature. Si une bibliothèque décide, plutôt que de générer des URI pour les auteurs de ses ouvrages, de
réutiliser des URI existantes, celles de DBPedia par exemple, il devient possible de naviguer directement
non seulement de cette bibliothèque à DBPedia, mais aussi directement vers le 9+jeu de données d'une
autre institution, fond d'archives, musée, qui aurait fait le même choix.
Enfin, l'alignement des référentiels entre eux peut aussi créer des passerelles. Par exemple, les Archives
nationales de France utilisent un thésaurus généraliste nommé « Thésaurus W », désormais publié dans
le Web de données(http://www.archivesdefrance.culture.gouv.fr/thesaurus/). Ce thésaurus est relié à
RAMEAU, le vocabulaire des vedettes matières de la Bibliothèque nationale de France. On pourrait
ainsi relier entre elles une ressource des archives et une ressource de la bibliothèque en utilisant ces deux
thésaurus et leurs liens.
34
III.1.4. Exemples
Nous pouvons présenter quelques exemples d'utilisation de ces principes pour construire des
applications favorisant la convergence des données.
Europeana
Il existe dans l'espace d'innovation d'Europeana, le Europeana Labs, un prototype qui démontre ces
principes (http://eculture.c s.vu.nl/europeana/session/search). Ce prototype contient les données du
Rijksmuseum Amsterdam et du Musée du Louvre, de la base Joconde du Ministère de la Culture
français, ainsi que du Rijksbureau voorKunsthistorische Documentatie (Netherlands Institute for Art
History) à La Haye. Des thésaurus de lieux (The Getty Thesaurus of Geographic Names), de personnes
(ULAN – The Union List of Artists Names), de concepts (WordNet et AAT – Art and Architecture
Thesaurus), et une classification iconographique (IconClass) permettent de créer du lien entre les entités
de ces différentes bases.
35
Figure 7 exemple du Centre Pompidou
Cet exemple montre que cette approche peut aussi être intéressante dans un cadre institutionnel. Dans
le cadre de sa stratégique numérique développée depuis 2007, le Centre Pompidou a créé une nouvelle
plateforme de diffusion de contenus numériques culturels sur Internet : le Centre Pompidou Virtuel. Ce
nouveau site offre dans un espace unique l’ensemble de la production numérique du Centre Pompidou
et de ses établissements associés (Bpi, Ircam) : œuvres numérisées, documents sur l’art, vidéos d’artistes,
podcasts, notices des livres de la Bpi, etc. Les contenus artistiques et culturels (œuvres du musée,
captations audiovisuelles...) sont reliés avec les événements (expositions, spectacles, conférences) et
avec d'autres ressources pertinentes (affiches, photos de vernissages, livres, archives d'artistes...),
permettant de parcourir le site de lien en lien pour découvrir ses contenus de façon intuitive.
L'un des principaux enjeux du projet était d'unifier dans un espace commun, permettant de nombreux
liens et rebonds, des données issues de différentes bases structurées suivant des formats variés (EAD
pour les bases archivistiques, MODS et Dublin Core pour les bases de bibliothèque, et des modèles
locaux pour les bases du Musée et des archives audiovisuelles). Pour cela une ontologie RDF a été créée,
et articule autour de concepts majeurs (œuvre – ressource – personne – événement – collection, et
quelques autres) toutes les données de ces différentes bases. Le Centre Pompidou Virtuel démontre ainsi
la valeur ajoutée de l'utilisation des technologies du Web sémantique pour construire des rebonds entre
des ressources et créer une expérience utilisateur innovante
36
IV. Web des objets
Dans le Web des objets, les technologies populaires du Web (HTML, JavaScript, AJAX, …) peuvent
être utilisées pour développer des applications qui font appel à des objets intelligents. Les utilisateurs
peuvent se servir des mécanismes Web bien connus (la navigation, la recherche, l'étiquetage, la mise en
cache, les liaisons) pour interagir avec eux.
Tableau 1 évolution du Web, du Web 1.0 au Web 4.0 (Web des objets).
3.1. Définition
La notion du Web des objets est définie par une architecture commune et très utilisée telle que le World
Wide Web afin d'y intégrer des objets physiques, permettant ainsi de combler le fossé entre les mondes
physiques et numériques.
Ainsi tout objet connecté devient alors une ressource disponible sur le Web. Il peut donc à son tour être
utilisé dans n'importe quelle application basée sur le Web, conçue pour interagir avec le monde
physique.
Le Web des objets consiste essentiellement dans le développement de concepts, d'outils et de systèmes
pour la création et l'exploitation de réseaux d'objets associés à des ressources embarquées (puces RFID,
capteurs et actionneurs, installations informatiques complexes) accessibles par des services web :
37
Web social : partage des objets, des données ou des fonctionnalités vers une utilisation participative et
collaborative.
Web sémantique : en-tête de métadonnées analysées et indexées par des moteurs de recherche pour
permettre à des agents logiciels de partager, de réutiliser ou de combiner ces informations.
Web programmable : accès à des données brutes avec une interaction avec les objets physiques par le
biais d'API ouvertes.
Les objets intelligents sont généralement limités en puissance (CPU6 , RAM7 , mémoire flash, énergie).
Typiquement, sur 1 cm², on trouvera un microprocesseur, très peu de RAM (quelques dizaines d’octets),
un peu de mémoire flash (quelques douzaines de kibioctets), des interfaces et un module radiofréquence
ou CPL8 . Lorsque ces objets disposent de piles et sont connectés en sans-fil, le point critique est leur
consommation en énergie. Les flux de données sont souvent extrêmement limités (quelques paquets par
minute, voire par mois), mais chaque bit transmis a un coût énergétique, et l’objet intelligent doit rester
autonome (sans remplacement de pile) pendant 5 à 10 ans.
Tout appareil possédant une puissance de calcul limitée et/ou une source d’énergie restreinte, équipé
d’une interface de communication avec ou sans fil et de divers capteurs ou actionneurs, est un système
embarqué connecté. Il existe une quantité de systèmes embarqués connectés :
• Sun Spot
• Arduino
• Raspberry Pi
• ...
38
IV.2. Capteurs intelligents ou futés
Un capteur est un dispositif qui transforme une grandeur physique mesurée (température, pression,
niveau) en une grandeur utilisable (intensité électrique, position d’un flotteur) à l'aide d'au moins un
transducteur.
Le qualificatif intelligent correspond principalement à l'intégration dans le corps du capteur d'un organe
de calcul interne (microprocesseur, microcontrôleur), d'un système de conditionnement du signal
(programmable ou contrôlé) et d'une interface de communication bidirectionnelle
Une attaque de grande ampleur a eu lieu le vendredi 21 octobre 2016, mettant hors service pendant
quelques heures plusieurs grands sites Internet comme Amazon, Netflix, Twitter, Reddit, Spotify ou
Tumblr. Ces sites n'étaient pas directement sous le coup d'une attaque, ils ont été les victimes collatérales
39
d'une attaque contre un service DNS11, qui permet de corréler un nom de domaine (comme
"projet.eu.org") en une adresse IP et vice versa.
Il s'agissait d'une attaque par déni de service distribué (DDoS) ayant pour but de rendre un service
indisponible en le noyant d'informations inutiles. L’attaque s'appuyait principalement sur le botnet Mirai
: un malware qui a pris le contrôle de réseaux de machines pour mener une attaque coordonnée.
Traditionnellement, les machines infectées étaient des ordinateurs dont les mises à jour de sécurité
n'avaient pas été faites. Mais les progrès en matière d'antivirus et de solutions d'atténuation d'attaques
DDoS limitent aujourd'hui sérieusement l'intérêt d'utiliser un botnet constitué d'ordinateurs (long et
difficile à mettre en place) pour ce type d'opération (peu rentable car les rançons sont désormais rarement
payées).
La différence avec Mirai, c'est qu'il s'attaque aux objets connectés. Son modus operandi consiste à
parcourir Internet en cherchant à se connecter à toutes les adresses telnet qu'il trouve avec une liste de
62 logins/mots de passe par défaut (dont le classique admin/admin). Une fois l'appareil infecté, Mirai en
bloque certains ports pour empêcher qu'on en reprenne le contrôle. De plus, contrairement aux
ordinateurs, un botnet d'objets connectés n'a aucune utilité réelle autre qu'effectuer des attaques par déni
de service. Le fait que les objets connectés ont tendance à être allumés 24h/24 et 7j/7 facile aussi cet
usage.
40
Conclusion
En somme On constate que le Web de données permet de jeter un nouveau regard sur les
occasions d’innover qui se présentent aux professionnels de l’information. Les comportements
informationnels ayant grandement changé depuis l’arrivée du Web et des ressources
numériques ainsi que l’évolution vers une société de la connaissance, les défis sont nombreux
et les bibliothèques et institutions documentaires doivent s’adapter tout en travaillant au
processus d’évolution du catalogue, cependant Les technologies du Web sémantique offrent de
nouvelles perspectives au communicateur technique. • Les facilités de publication, de
recomposition et de syndication de l’information lui permettent de pallier l’instabilité de
l’information et les obstacles à la communication dans l’entreprise, et de générer de la valeur
en passant du stade de l’information à celui de la connaissance.
Enfin, le Web des Objets est l’occasion de développer de nouveaux marchés autour de la protection
personnelle avec des systèmes de surveillance personnalisés par exemple.
41