Vous êtes sur la page 1sur 41

TABLE DES MATIERES

TABLE DES MATIERES .................................................................................................................................... 1


LISTE DES FIGURES ET TABLEAUX ............................................................................................................ 2
INTRODUCTION ................................................................................................................................................. 3
I. CONTEXTE ................................................................................................................................................. 4
I.1. IMPACTS DU WORLD WIDE WEB ............................................................................................................ 4
I.2. IMPACTS DU WEB 2.0 ............................................................................................................................. 4
II. WEB SEMANTIQUE .................................................................................................................................. 6
II.1. LES LANGAGES DU WEB SEMANTIQUE.................................................................................................... 8
II.1.1. Présentation Et Importance De La Problématique Du Point De Vue Des Usages ....................... 8
II.1.2. Méthodes, Techniques, Outils Existants Sur Lesquels On Peut S’appuyer ................................... 9
II.2. METADONNEES ET ANNOTATIONS DANS LE WEB SEMANTIQUE ............................................................ 10
II.2.1. Présentation Et Importance De La Problématique Du Point De Vue Des Usages ..................... 10
II.3. EXEMPLES D ’ UTILISATION DE META-DONNEES ET D’ANNOTATION ET D’ADAPTATION DANS LE WEB
SEMANTIQUE ..................................................................................................................................................... 13
II.4. ONTOLOGIES POUR LE WEB SEMANTIQUE ............................................................................................ 14
II.4.1. Présentation Et Importance De La Problématique Du Point De Vue Des Usages ..................... 14
II.5. ADAPTATION ET PERSONNALISATION DANS LE WEB SEMANTIQUE ....................................................... 15
II.5.1. Adaptation/Personnalisation Sur Le Web Sémantique ............................................................... 15
II.6. LES DOCUMENTS VIRTUELS PERSONNALISABLES ................................................................................ 17
II.7. APPLICATIONS DU WEB SEMANTIQUE .................................................................................................. 18
II.7.1. E-COMMERCE .......................................................................................................................... 19
II.7.1.1. Quels Usages Des Ontologies Pour Le E-Commerce ? .......................................................................... 19
II.7.1.2. LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek ...................................................... 21
II.7.1.3. APPLICATIONS MÉDICALES ............................................................................................................ 22
II.8. LE PARTAGE DE RESSOURCES .............................................................................................................. 22
II.9. L’INDEXATION ET LE CATALOGAGE .................................................................................................... 22
II.10. DES SERVICES WEB POUR L’INTEROPERABILITE ................................................................................. 23
II.11. TRAITEMENT AUTOMATIQUE DES LANGUES ........................................................................................ 24
II.11.1. L’usage D’ontologies “Linguistiques” Dans Les Applications .................................................. 24
II.12. LA TRADUCTION AUTOMATIQUE ............................................................................................... 25
III. WEB DE DONNEES .................................................................................................................................. 26
III.1. CONVERGENCE ET INTEROPERABILITE : L’APPORT DU WEB DE DONNEES............................................. 28
III.1.1. Interopérabilité et données culturelles : une situation complexe ................................................ 29
III.1.2. Le Web de données et l’interopérabilité basée sur les liens ....................................................... 31
III.1.3. Le rôle des vocabulairesdans le Web de données ....................................................................... 33
III.1.4. Exemples ..................................................................................................................................... 35
IV. WEB DES OBJETS ............................................................................................................................... 37
IV.1. OBJETS INTELLIGENTS .......................................................................................................................... 38
IV.2. CAPTEURS INTELLIGENTS OU FUTES ..................................................................................................... 39
IV.3. INTEGRATION DES OBJETS AU WEB ...................................................................................................... 39
CONCLUSION.................................................................................................................................................... 41

1
LISTE DES FIGURES ET TABLEAUX
FIGURE 1 LES COUCHES DU WEB SEMANTIQUE SELON LE W3C ............................................................................... 7
FIGURE 2 ÉVOLUTION DU NOMBRE DE JEUX DE DONNEES PUBLIES SELON LES STANDARDS DU WEB DE DONNEES ET
INTERRELIES A D’AUTRES JEUX DE DONNEES SUR LE WEB, DE MAI 2007 A AOUT 2014 ................................. 27
FIGURE 3 INTEROPERABILITE PAR CONVERSION ET COPIE ...................................................................................... 30
FIGURE 4 INTEROPERABILITE BASEE SUR LE PLUS PETIT DENOMINATEUR COMMUN ............................................. 30
FIGURE 5 INTEROPERABILITE BASEE SUR LES LIENS : MODELE « HUB AND SPOKE »................................................ 32
FIGURE 6 INTEROPERABILITE PAR LE LIEN :MODELE « FOLLOW YOUR NOSE » ........................................................ 32
FIGURE 7 EXEMPLE DU CENTRE POMPIDOU ........................................................................................................... 36
FIGURE 8 COMPENDIUM WEB 2.0 AU COMPENDIUM PHYSIQUE............................................................................... 39

TABLEAU 1 EVOLUTION DU WEB, DU WEB 1.0 AU WEB 4.0 (WEB DES OBJETS). .................................................... 37

2
Introduction
Le domaine des sciences de l’information a la caractéristique de regrouper en son sein plusieurs champs
de connaissance particuliers qui ont chacun leurs propres spécificités. La bibliothéconomie et
l’archivistique ont donné naissance à des techniques fiables et reconnues visant l’organisation,
l’évaluation, la collecte, la préservation ainsi que la diffusion d’informations de toute nature, qu’il
s’agisse de documents physiques ou numériques, mais aussi des données qui s’y rattachent. Les
changements qui gravitent autour des formats de documents et des moyens de les partager et les diffuser
créent une nécessité de repenser les pratiques et modèles. L’objectif de ce travail est de présenter le web
et explorer un ensemble des technologies spécifiques au web des données, web des objets et web
sémantique

3
I. Contexte
Pour les professionnels de l’information, la nécessité de s’adapter aux changements technologiques et
aux nouvelles pratiques des utilisateurs en matière de recherche d’information n’est pas inconnue. De
nouveaux formats pour véhiculer et stocker les connaissances ont vu et continuent à voir le jour, ce qui
complique, dans une certaine mesure, le travail de gestion et de diffusion des savoirs, mais aussi crée un
besoin de repenser les pratiques et standards. L’évolution des métiers en bibliothèques fut inévitable
suite à la montée grandissante des médias de masse qui ont changé les habitudes de lecture et de
consommation de la population. Cependant, l’arrivée du Web, et du numérique par le fait même, a non
seulement modifié les comportements informationnels, mais aussi notre façon de consommer et de
traiter les connaissances ainsi que nos interactions. De plus, ces changements sont survenus
brusquement, en un peu moins d’une vingtaine d’années. La multiplication des formats de documents a
eu pour conséquence directe la prolifération de données les décrivant, nécessitant de nouvelles
compétences et connaissances de la part des professionnels de l’information (Stuart, 2011). Malgré
cette réalité, la raison d’être et les missions des bibliothèques sont restées les mêmes : offrir l’accès à
une collection de documents pour sa communauté, acquérir des ressources ainsi que produire des
services et, finalement, agir comme un intermédiaire entre l’usager et les ressources (Leroux et al.,
2009). On comprend aujourd’hui l’importance que peuvent prendre les données relatives aux ressources
numériques et, peu à peu, on évalue la possibilité de les utiliser afin de répondre à ces missions en
saisissant le potentiel d’utilisation qu’elles présentent.

I.1. Impacts du World Wide Web


Traditionnellement, le rôle du bibliothécaire était celui d’acquérir, de traiter, d’organiser et de préserver
des documents imprimés et d’aider les usagers à localiser l’information recherchée. Avec l’arrivée du
Web, la numérisation des documents, l’apparition des catalogues de bibliothèques informatisés et des
moteurs de recherche, on a vu la perception du rôle de bibliothécaire changer. En effet, les tâches ont
été redéfinies au fil des ans pour laisser plus de place aux conseils et à l’aide à la recherche ainsi qu’à
une collaboration entre professionnels de l’information et techniciens informatiques. Les qualités
reconnues aux professionnels d’information telles que l’importance accordée aux besoins des usagers et
au partage de connaissances, la capacité d’identifier et d’organiser des documents imprimés et numérisés
ainsi que la connaissance des concepts relatifs à la gestion leur ont permis de comprendre les avantages
qui découlaient de l’arrivée du Web. Cependant, on reconnait une certaine menace en ce qui a trait à la
survie de la profession : vivrons-nous éventuellement dans un monde complètement numérique ? La
profession de bibliothécaire survivra-t-elle à ces nouvelles technologies ? De plus, les bibliothécaires
manquent de connaissances informatiques et doivent faire face à la croyance selon laquelle il est possible
de tout trouver sur Internet par soi-même.

I.2. Impacts du Web 2.0


L’arrivée du Web 2.0, vers la fin des années 2000, s’est traduite elle aussi par un besoin d’adaptation de
la part des bibliothèques. Il est primordial de noter que le Web n’est pas un phénomène statique, mais
toujours en évolution, ce qui fait en sorte que tous les domaines se doivent de s’adapter et de prévoir
que le rôle joué aujourd’hui ou hier ne sera pas nécessairement celui de demain (Stuart, 2011). Plusieurs
définitions du Web 2.0 ont été proposées, la première tentative provenant Tim O’Reilly (2005). Celui-
ci propose sept principes permettant de caractériser le concept :

 Le Web en tant que plateforme ;

4
 Le Web permet la création d’applications et ne se limite plus uniquement à la
propagation d’information. On constate qu’il s’agit d’une plate-forme misant sur le
partage.
 Exploiter l’intelligence collective ;
 La participation des utilisateurs permet une démocratisation du Web. Ceux-ci peuvent
contribuer au contenu de différents sites Web, que ce soit de par ses connaissances (p.
ex. Wikipédia), des évaluations (p. ex. Amazon), des commentaires ou des
recommandations. Plus les utilisateurs contribuent, plus il y a de valeur à un site Web.
 La puissance se trouve dans les données ;
 La valeur d’une application dans le Web 2.0 est influencée par les données qu’elle rend
accessible et qu’elle entretient. Par exemple, plusieurs grandes compagnies ouvrent leurs
données, permettant aux développeurs de créer des applications tierces et Google
récupère les données recueillies lors des recherches effectuées par les utilisateurs.
 La fin des cycles de release (changements de versions) ;
 Contrairement aux logiciels traditionnels, les utilisateurs n’ont pas besoin d’attendre les
différents changements de versions. Les applications évoluent constamment et les
changements aux versions sont disponibles en ligne, s’opérant souvent de manière
automatique.
 Les modèles de programmation légers ;
 Les outils et les données utilisés pour programmer les applications sont faciles
d’utilisation.
 Les logiciels ne dépendent plus d’un seul appareil (l’ordinateur personnel) ;
 Les applications sont maintenant accessibles sur un grand nombre de plateformes
différentes telles que les consoles de jeux vidéo, les téléphones intelligents, les lecteurs
MP3, etc.
 L’enrichissement de l’expérience utilisateur.
 L’utilisation de technologies telles que AJAX ou JavaScript permettent la création
d’interfaces utilisateur plus riches et facilitant la navigation.

Stephens et Collins (2007), pour leur part, indiquent que le Web 2.0 est caractérisé par l’utilisation
d’outils numériques qui permettent aux usagers de créer, modifier et publier du contenu de toute sorte.
L’accent est alors mis sur les médias sociaux. Ils présentent les principes qui définissent cette nouvelle
utilisation du Web :

 Conversations ;
 La participation des usagers, la discussion et la rétroaction sont encouragées.
 Communauté ;
 Les conversations peuvent mener à un sentiment d’appartenance à une communauté sur
un réseau social.
 Participation ;
 De l’information nouvelle est créée grâce à la collaboration entre les usagers et tout le
monde peut créer du contenu qui peut être réutilisé et modifié gratuitement.
 Expérience ;
 L’engagement au sein de cette communauté est enrichissant et peut mener à un sentiment
de réalisation de soi.
 Partage.
 Les usagers peuvent ou non discuter de leur vie personnelle.

5
Les bibliothèques ont su rapidement s’approprier les outils de cette nouvelle plateforme, tels que
Facebook, Twitter, YouTube, Flickr, en y assurant une présence continue (Farkas, 2007).Ces tribunes
gratuites donnent la possibilité d’obtenir une meilleure visibilité des différents services offerts,
d’éduquer les usagers aux techniques utilisées (p. ex., la numérisation d’un ouvrage) et d’interagir avec
eux. La question de l’importance et de l’efficacité de la présence des bibliothèques sur les médias
sociaux a été largement étudiée (Aharony, 2009; Bradley, 2015; Koontz et Mon, 2014; Liew,
Wellington, Oliver et Perkins, 2015; Stuart, 2011; Swanson, 2012; Thomsett-Scott, 2014). Grâce à cet
outil, une information partagée par un usager peut rejoindre tout son réseau de contacts en peu de temps,
ce qui permet une plus grande diffusion de l’information.

II. Web sémantique


L’expression Web sémantique, due à Tim Berners-Lee (Berners-Lee et al., 2001) au sein du W3C, fait
d’abord référence à la vision du Web de demain comme un vaste espace d’échange de ressources entre
êtres humains et machines permettant une exploitation, qualitativement supérieure, de grands
volumes d’informations et de services variés. Espace virtuel, il devrait voir, à la différence du
Web que nous connaissons aujourd’hui, les utilisateurs déchargés d’une bonne partie de leurs tâches
de recherche, de construction et de combinaison des résultats, grâce aux capacités accrues des
machines à accéder aux contenus des ressources et à effectuer des raisonnements sur ceux-ci.

Le Web actuel est essentiellement syntaxique, dans le sens que la structure des documents (ou
ressources au sens large) est bien définie, mais que son contenu reste quasi inaccessible aux traitements
machines. Seuls les humains peuvent interpréter leurs contenus. La nouvelle génération de Web, Le
Web sémantique a pour ambition de lever cette difficulté. Les ressources du Web seront plus
aisément accessibles aussi bien par l’homme que par la machine, grâce à la représentation sémantique
de leurs contenus.

Le Web sémantique, concrètement, est d’abord une infrastructure pour permettre l’utilisation de
connaissances formalisées en plus du contenu informel actuel du Web, même si aucun consensus
n’existe sur jusqu’où cette formalisation doit aller. Cette infrastructure doit permettre d’abord de
localiser, d’identifier et de transformer des ressources de manière robuste et saine tout en renforçant
l’esprit d’ouverture du Web avec sa diversité d’utilisateurs. Elle doit s’appuyer sur un certain niveau de
consensus portant, par exemple, sur les langages de représentation ou sur les ontologies utilisées. Elle
doit contribuer à assurer, le plus automatiquement possible, l’interopérabilité et les transformations entre
les différents formalismes et les différentes ontologies. Elle doit faciliter la mise en œuvre de calculs
et de raisonnements complexes tout en offrant des garanties supérieures sur leur validité. Elle doit
offrir des mécanismes de protection (droits d’accès, d’utilisation et de reproduction), ainsi que des
mécanismes permettant de qualifier les connaissances afin d’augmenter le niveau de confiance des
utilisateurs.

Mais restreindre le Web sémantique à cette infrastructure serait trop limitatif. Ce sont les applications
développées sur celle-ci qui font et feront vivre cette vision et qui seront, d’une certaine manière, la
preuve du concept. Bien sûr, de manière duale, le développement des outils, intégrant les standards
du Web sémantique, doit permettre de réaliser plus facilement et à moindre coût des applications
ou des services développés aujourd’hui de manière souvent ad-hoc. A titre d’illustration évoquons ici
quelques applications courantes et soulignons les goulots d’étranglements qui devraient trouver une
solution via l’usage des technologies promises du Web sémantique. La recherche d’information
(précision et complétude) : rechercher des documents sur le Web est souvent une tâche laborieuse.

6
Les recherches sont imprécises et requièrent une activité de « tri manuel » des documents retournés
pour espérer trouver le(s) document(s) recherché(s) d’ailleurs sans aucune assurance. Ici, le Web
sémantique devrait largement faciliter l’appariement sémantique entre la requête de l’utilisateur et les
documents indexés (manuellement ou de manière semi-automatique). Maintenance de base
documentaire (passage à l’échelle, cohérence) : créer un site Web est très simple aujourd’hui grâce aux
éditeurs très intuitifs du marché, mais mettre à jour ce site et les bases documentaires associés
deviennent rapidement une très lourde tâche dès que la taille augmente. Ici le passage à l’échelle du
Web (même d’un Intranet) requiert la mise à disposition d’outils d’assistance assurant des mises à jour
(semi-) automatique maintenant la cohérence globale. Le commerce électronique (confiance, passage à
l’échelle des services, cohérence, hétérogénéité) : le commerce de gros (B2B) ou le commerce de détails
(B2C) font appel à un assemblage de technologies de base telles la Recherche d’Information ou bien
l’intégration de sources de produits d’origine très diversifiée et donc très hétérogène dans leur
description. Une intégration aisée se réalise via une couche d’abstraction sémantique (ontologies
de domaine) donnant une vue unifiée aux internautes clients. Enfin dans le domaine des services
immatériels (e.g . e.work et e.business) (système de médiation sémantique, confiance et délégation)
il y a une forte demande d’intégration et d’automatisation des processus. Ceci n’est pas nouveau
(cf. EDI, EbXML) mais le Web sémantique fait espérer une véritable orchestration automatisée de
processus très courants dans le monde de l’industrie et du commerce. C’est la filière Web Services
sémantiques (dont SOAP, UDDI, WSDL ne sont que les briques de bas) qui est ici concernée. Pour
réaliser cette vision les recherches actuellement réalisées s’appuient sur un existant riche venant,
d’abord, des recherches en représentation ou en ingénierie des connaissances, mais aussi de bien d’autres
domaines comme les bases de données, la démonstration automatique de théorèmes, l’apprentissage
automatique, les hypermédia, l’ingénierie linguistique ou bien encore les interactions personne-
machine. Mais l’utilisation et l’acceptation de ces recherches à l’échelle du (ou d’une partie du) Web
posent de nouveaux problèmes et défis : changement d’échelle dû au contexte de déploiement : le Web
sur Internet et ses dérivés (intranet, extranet), la nécessité d’un niveau élevé d’interopérabilité,
d’ouverture, de standardisation, diversités des usages, distribution bien sûr et aussi impossibilité
d’assurer une cohérence globale. Comme l’écrit, en substance, Tim Berners-Lee, le Web sémantique
est ce que nous obtiendrons si nous réalisons le même processus de globalisation sur la représentation
des connaissances que celui que le Web fit initialement sur l’hypertexte.

Figure 1 Les couches du Web sémantique selon le W3C


Les propositions faites autour de l’infrastructure du Web sémantique doivent permettre aussi bien la
réalisation d’outils généralistes avec des utilisateurs mal définis (un exemple pourrait être des moteurs
de recherche prenant plus en compte le contenu sémantique de documents) que la réalisation
d’applications pour des tâches plus complexes comme la gestion de connaissances au service des
membres d’une entreprise . Suivant le niveau de complexité, on pourra parfois s’appuyer surtout sur
l’utilisation de métadonnées. Mais, dans beaucoup de cas, on relèvera la nécessité de méthodes et de

7
systèmes d’intégration de données hétérogènes ou bien encore la nécessité de faire appel et de combiner
des services Web sémantiques.

Les langages proposés sont à la base de la démarche, ne serait-ce que pour des questions de
standardisation, même si l’infrastructure ne se réduit pas à ceux-ci. Leur problématique est présentée à
la suite. Ils sont souvent l’aspect du Web sémantique le plus connu avec le schéma de la figure
souvent repris sous des formes variées.

Mais les recherches sur le Web sémantique ne se limitent évidemment pas aux langages. Celui-ci
nécessite l’utilisation de ressources adaptées aux différentes tâches comme les schémas de métadonnées
ou les ontologies. Le partie 4 discute, par exemple, du rôle important, pour la réalisation du Web
sémantique, de ces ontologies et des méthodes et outils permettant de les construire et de les mettre en
œuvre. Celles-ci sont souvent indispensables pour l’ensemble des recherches évoquées dans ce travail
et pour les applications du Web sémantique qu’elles utilisent ou non les services Web. En effet, elles
permettent aux logiciels qui communiquent entre eux d’utiliser les mêmes termes avec la même
sémantique. En résumé, il est nécessaire de :

1. développer des langages de représentation (des connaissances) de la sémantique des contenus


ou des ressources, et quand cela est nécessaire, support de mécanismes d’inférence aux bonnes
propriétés (validité, complétude, complexité) ;

2. développer des ressources linguistiques ou conceptuelles (espaces de noms, thésaurus, ontologies,


…) utilisant ces langages, les standardiser – si possible – et les rendre disponibles ;

3. développer des outils et des architectures ouvertes permettant la rapide expérimentation de


ces nouvelles technologies ;

4. appliquer ces technologies à un large champ d’applications et montrer le saut qualitatif obtenu.

II.1. Les langages du Web sémantique


La manipulation des ressources du Web par des machines requiert l’expression ou la description de ces
ressources. Plusieurs langages sont donc définis à cet effet, ils doivent permettre d’exprimer données et
métadonnées (RDF, Cartes Topiques), de décrire les services et leur fonctionnement (UDDI, WSDL,
DAML-S, etc.) et de disposer d’un modèle abstrait de ce qui est décrit grâce à l’expression d’ontologies
(RDFS, OWL). On présente ci-dessous l’état des travaux visant à doter le Web sémantique de tels
langages. On évoque aussi les questions importantes qui ne sont pas réglées à l’heure actuelle et qui
méritent de plus amples travaux.

II.1.1. Présentation Et Importance De La Problématique Du Point De Vue


Des Usages
Le Web sémantique doit pouvoir être manipulé par les machines. Dans l’état actuel de la technologie, il
est alors nécessaire de disposer de langages pour :

- exprimer les données et les métadonnées ;

- exprimer les ontologies ;

- décrire les services.

8
Certes, il existe déjà des langages développés pour ces activités indépendamment du Web sémantique
(KIF (Genesereth & Fikes, 1992) ou WPDL (WFMC, 1999)). Ils ne sont pas utilisés tels quels dans
le Web sémantique car il est nécessaire de leur permettre d’accepter les caractères propres au Web
à savoir sa distribution (il faut être capable de tirer parti d’information dont on ne dispose pas
localement) et son ouverture (n’importe qui peut ajouter de l’information à tout instant). Disposer de
chacun de ces langages est indispensable au développement des fonctionnalités correspondantes
du Web sémantique. Ces langages permettront diverses applications nouvelles telles que :

- la recherche d’information fondée sur des descriptions formelles ;

- la composition de services en fonction de leurs descriptions ;

- l’interconnexion de catalogues sur la base de leur description.

Le but du Web sémantique est principalement que les services soient mieux rendus sans engendrer de
surcharge pour les utilisateurs. Dans cette perspective, les usages ne devraient se voir impacter que
positivement par les langages développés. Mais l’idée du Web est que les usagers en soient les
contributeurs. C’est en ce sens que les langages développés pour le Web sémantique pourront avoir un
impact sur ceux qui les utiliseront pour décrire leurs ressources voire leurs services. Par ailleurs, même
si ces langages étaient destinés à rester cachés (c’est-à-dire accessible au travers d’une application
plus conviviale), les langages utilisés risquent d’imposer indirectement leurs contraintes aux usagers.
Ainsi, dans une application de recherche d’information, l’expressivité du langage de requêtes
contraindra la forme et l’étendue de la réponse.

II.1.2. Méthodes, Techniques, Outils Existants Sur Lesquels On Peut


S’appuyer
XML est le langage de base. Il a l’avantage d’être fait pour la communication en réseau et de disposer
de nombreux outils. Il est donc naturellement utilisé pour encoder les langages du Web sémantique.
Mais il a surtout la propriété d’être un métalangage (une description de type de document, DTD,
permet de décrire la grammaire des documents admissibles).

Bien entendu, ceci ne permet pas à une machine de manipuler sémantiquement un document. Mais cela
a la vertu de permettre une manipulation syntaxique de tous les documents. Ainsi, une annotation sera
attachée de la même manière à un paragraphe, un exposant dans une formule mathématique ou un
polygone dans un dessin parce que ceux-ci sont encodés en XML. C’est cette propriété qui permet
d’insérer des éléments du Dublin-core dans une ontologie et d’annoter des documents à l’aide de la
connaissance formalisée.

Cette compatibilité entre les langages décrits en XML permet de construire les langages présentés
ci-dessous et de les considérer comme des documents XML. Mais XML est limité car il ne dispose pas
d’une sémantique (au sens logique de sémantique dénotationnelle d’un langage). Rien ne justifie donc
les raisonnements ou manipulations appliquées à des documents XML. C’est pourquoi il est nécessaire
de développer d’autres langages.

La seconde source d’inspiration est celle de la représentation de connaissance et notamment les


langages de représentation de connaissance que sont les logiques de descriptions et les réseaux
sémantiques (que nous considérerons ici sous leur aspect plus avancé des graphes conceptuels). Ces
langages permettent d’exprimer la connaissance de nature ontologique (décrire des classes

9
d’entités, les relier par spécialisation, décrire et typer leurs attributs) ou assertionnelle (décrire
l’état du monde par des individus en relations entre eux, individus et relations étant décrits dans
l’ontologie).

Depuis une quinzaine d’années ces langages sont définis par leur sémantique et caractérisés par leur
décidabilité et complexité. Ceci permet de développer des moteurs d’inférence dont on connaît
clairement les limites d’application.

Ces langages ont certaines limitations dans la prise en compte de la nécessaire ouverture du Web
(relations entre objets distribués, ajout de connaissance incontrôlé); ils sont donc reconsidérés dans ce
contexte.

Enfin, dans le cadre des descriptions de services, les dernières sources d’inspiration sont les langages de
description de plans et en particulier les langages de description de “Workflow” permettant d’exprimer
de manière abstraite des activités (ou tâches) et leurs dépendances (séquence, parallélisme,
synchronisation…). Ces langages sont exécutables par des logiciels qui contrôlent l’exécution du plan
à l’aide d’événements prédéfinis (envoi d’un mail, remplissage d’un formulaire, signature d’un
engagement…). Le langage le plus emblématique est certainement WPDL, proposé par la “Workflow
Management Coalition”, parce qu’il est compris par différents logiciels de workflow. Il a été
récemment décliné en XML (XPDL (WFMC, 2002)).

Ces langages sont en général destinés à être supervisés par les humains qui exécutent les tâches
du workflow, ils doivent donc acquérir plus de rigueur dans la description des tâches pour pouvoir être
manipulés par des machines dans le cadre du Web sémantique.

II.2. Métadonnées et annotations dans le Web sémantique


Le Web sémantique repose sur des langages et une infrastructure dont l’objectif est de se donner la
possibilité d’enrichir le Web actuel à l’aide d’informations dites « sémantiques », utilisables par des
machines, qui faciliteront la recherche et l’usage de ressources Web (pages Web, images, services, etc.).
Il s’agit donc d’associer à ces dernières des informations structurées descriptives sous la forme de
métadonnées (ou annotations). Plusieurs dimensions sont alors à considérer : les types de ressources,
plus ou moins fragmentées, concernées par les annotations / métadonnées; l’automatisation plus ou
moins marquée de la mise en place de ces dernières, la structuration plus ou moins forte de leur « schéma
», les tâches qu’elles soutiennent (ou sous-tendent), ou encore l’utilisation plus ou moins « intelligente
» qui en est faite par les agents logiciels,. Après une rapide discussion de la notion d’annotation
/ métadonnées, nous en proposons un scénario d’utilisation conséquent, dans le domaine de
l’enseignement à distance. Nous montrons ensuite que si la problématique en soi n’est pas nouvelle, et
est déjà traitée dans de nombreux domaines, l’échelle du Web et le niveau d’intégration technologique
nécessaire sont quant à eux novateurs. Nous passons ensuite en revue un certain nombre de systèmes
liés aux annotations / métadonnées pour le Web sémantique, et concluons sur les directions probables
que va prendre la recherche, en insistant sur la nécessité d’intégrer des chercheurs de SHS dans la
réflexion.

II.2.1. Présentation Et Importance De La Problématique Du Point De Vue


Des Usages
Un des grands principes du Web sémantique est qu’il est nécessaire d’associer aux ressources du Web
des informations exploitables par des agents logiciels afin de favoriser l’exploitation de ces ressources.

10
Associer par exemple une notice comprenant des champs : Auteur, Date de création, Date de
modification, Mots-clés, à une page Web permet de considérer celle-ci non plus seulement comme
comprenant du texte qui ne pourra qu’être traité statistiquement par un robot indexeur, mais
également des informations structurées à la sémantique connue et utilisable comme telle par un agent
logiciel. De la même manière, si ce qui apparaît comme un simple nombre dans une page Web est de
façon explicite marqué comme un couple (valeur, devise), alors un agent pourra faire usage de ces
connaissances.

Associer une information exploitable à une ressource signifie deux choses essentielles.

La première est que cette information doit d’une manière ou d’une autre être structurée – utilisable
– et descriptive – de la ressource, de son utilisation – afin de faciliter et d’en améliorer l’accès dans le
cas d’une ressource directement visualisée par un utilisateur (par exemple en permettant une
recherche d’information plus efficace et plus ciblée), mais aussi l’exploitation dans le cas d’une
ressource exploitée dans le cadre d’un service à l’utilisateur (l’utilisateur n’est alors pas forcément
conscient de l’utilisation de la ressource).

La seconde est que la ressource en question doit exister et pouvoir être exploitée sur le Web
indépendamment des informations qui lui sont associées dans le cadre du Web sémantique : celles-ci
sont utiles, mais non nécessaires pour accéder et utiliser la ressource, la page Web ou le service.

11
Le schéma ci-dessus donne une vision (proposée sur le site http://www.semanticweb.org/) de
l’utilisation des métadonnées sur le Web sémantique. Des pages Web sont annotées à partir de
connaissances disponibles dans une ou plusieurs ontologies (qui ont pour objectif de normaliser
la sémantique des annotations), et ces annotations, regroupées en entrepôts de métadonnées deviennent
utiles pour des agents de recherche d’information, faisant ou non appel à des moteurs d’inférence
permettant de déduire de nouvelles connaissances formelles des annotations.

Au-delà de ce schéma, remarquons que deux termes principaux sont utilisés dans la littérature afin
de décrire les informations associées à des ressources : métadonnées et annotations.

Si nous revenons sur ces notions, et de façon générale :

- une métadonnée est « une donnée sur une donnée ». Cette définition est un peu vague voire ambiguë,
et elle est comprise de manière différente par différentes communautés qui conçoivent, créent,
décrivent, préservent et utilisent des systèmes d’information et des ressources. Par exemple, dans
certains cas la donnée sur laquelle la métadonnée porte est considérée comme ayant le même statut
de donnée formalisée, traitable par un système informatique, dans d’autres, la donnée n’est
qu’interprétable par un être humain, et seule la métadonnée en permet le traitement automatique.

- une annotation est à la base une note critique ou explicative accompagnant un texte, et par extension,
une quelconque marque de lecture portée sur un document, que celui-ci soit textuel ou image.

On le voit, les termes de métadonnée ou d’annotation prennent bien en compte cette notion
d’ajout d’information à une ressource, et on pourra a priori les utiliser indifféremment pour décrire ces
informations que le Web sémantique doit ajouter au Web pour le rendre plus utilisable par des machines.

Pour autant, si ces deux termes existent, c’est qu’ils n’ont pas le même sens.

La communauté anglophone du Web sémantique, circonspecte sur la différenciation, considère


par exemple dans le schéma que nous reprenons plus haut que les annotations de pages Web deviennent
des métadonnées dès qu’elles sont stockées dans une base sur un serveur. On différencie alors
l’information en tant qu’elle est attachée à (et présentée avec) une ressource et l’information
manipulable et exploitable de façon plus indépendante de celle-ci.

D’un point de vue plus lié à la pratique de l’annotation / métadonnées (du point de vue du processus
de mise en place), et s’il est nécessaire de distinguer, nous proposons ce distinguo :

- une métadonnée sera plutôt attachée à une ressource identifiée en tant que telle sur le Web

– aura plutôt une pertinence a priori et sera plutôt saisie suivant un schéma. Par exemple, la
description normalisée d’un service Web, l’auteur d’un document, qui permettront de mettre en place
des inférences.

- une annotation sera plus située au sein de cette ressource et écriteau cours d’un processus
d’annotation / lecture. Par exemple, un commentaire libre associé à un fragment d’une page Web –
quelques mots, un paragraphe – déterminé au besoin.

Evidemment, cette distinction n’a rien de définitive, il s’agit simplement de mettre l’accent sur le
caractère plus situé au sein de la ressource (du fait de son exploitation par un utilisateur) de l’annotation,
par rapport à une métadonnée plus indépendante, voire ressource en tant que telle. Plusieurs critères,

12
non indépendants que nous illustrerons dans la suite peuvent être envisagés pour considérer les différents
types de métadonnées (annotations) :

- les types de ressources qu’elles concernent, plus ou moins fragmentées,

- l’automatisation plus ou moins marquée de leur mise en place,

- la structuration plus ou moins forte de leur « schéma »,

- les tâches qu’elles soutiennent (ou sous-tendent),

- l’utilisation qui en est faite par les agents logiciels, plus ou moins « intelligente ». Remarquons
que pour le Web sémantique, on parlera le plus souvent de métadonnées ou d’annotations sémantiques.
Deux possibilités d’interprétation sont ici disponibles : « sémantique » au sens de « sémantique
formelle », et puis au sens plus vague de « faisant sens dans le cadre d’une tâche pour un utilisateur ».
Si certains tenants du Web sémantique souhaitent limiter la portée de celui-ci au premier sens formel
ces deux interprétations nous semblent pourtant tout à la fois pertinentes et de toutes façons
inextricablement reliées dans le cadre d’un Web sémantique riche et ouvert, à l’image de la richesse et
de la diversité du web actuel, qu’on pourrait qualifier d’ « un peu sémantique ».

II.3. Exemples D ’ Utilisation De Méta-Données Et


D’annotation Et D’adaptation Dans Le Web Sémantique
Nous présentons dans la suite un scénario d’utilisation du web sémantique articulé autour de
l’enseignement à distance. Ce scénario s’intéresse autant à l’utilisation des métadonnées qu’à celle de
l’adaptation qui est présentée dans une autre partie. « Le professeur Bern de l’université de Stuttgart est
impliqué dans la création de cours diplômant sur les réseaux à l’intention d’étudiants de toute la
Communauté Européenne. Afin de constituer son cours, il va chercher à utiliser toutes sortes de
ressources trouvées sur le Web :

- Des ressources « classiques » telles que des articles scientifiques ou des cours numérisés : cours
donnés en présence d’élèves et mis à disposition sous différents formats (textes, vidéos,
présentations multimédia).

- Des ressources composées d’éléments proposés par différentes universités ou écoles, structurées par
un ou plusieurs professeurs pour être accessibles en ligne, qui constituent des parcours cohérents
à destination des étudiants. Certaines de ces ressources sont prévues pour être composées
automatiquement par un logiciel à partir d’une spécification afin d’engendrer dynamiquement un cours
personnalisé. Pour cela, le scénario se divise en trois phases : la première est essentiellement centrée
sur la recherche d’information principalement interprétable par un humain, la constitution d’un corpus
et son indexation pour créer des cours en ligne manuellement, la seconde phase fait appel un
système de composition dynamique de cours adaptatifs spécifiés par un auteur et l’utilisation de
métadonnées sémantiques interprétables par un logiciel et la troisième phase met en scène les
apprenants.

13
II.4. Ontologies pour le Web sémantique
Les ontologies sont un des concepts de base du Web sémantique. Dans cette partie, nous voulons
revenir sur l’origine des travaux sur les ontologies au sein de la communauté Ingénierie des
connaissances pour montrer les acquis sur lesquels les chercheurs se sont appuyés pour développer le
concept au sein du Web sémantique. Dans un souci de clarté et de précision, nous revenons sur
la définition des ontologies pour clarifier les limites de l’approche ontologique et les contraintes qui
s’imposent à elle. Cela nous permet d’aborder les méthodologies de construction d’ontologies et la
question de la généricité. Ceci posé, nous pouvons passer en revue les apports du Web sémantique en
termes de méthodologies, d’outils, d’éditeurs en essayant de préciser les problématiques
particulières dans chaque domaine. Enfin, dans une dernière section, nous tentons de faire le point sur
les problèmes que rencontre le Web sémantique par rapport aux ontologies et les axes de réflexion
ou de recherche qui semblent prometteurs en ce domaine.

II.4.1. Présentation Et Importance De La Problématique Du Point De Vue


Des Usages
Permettre un traitement symbolique des connaissances, le but premier de l’Intelligence Artificielle,
rejoint celui du Web sémantique dans les attendus de ses « créateurs », à savoir, se donner les moyens
de faire faire des traitements automatiques à des modules logiciels au sein du Web, que ce soit pour faire
interagir et interopérer des machines entre elles ou faire interagir des machines avec des humains. En
effet, ces traitements rejoignent directement la question de la représentation des connaissances et des
inférences en Intelligence Artificielle.

Tout programme informatique manipule, à travers des symboles, les objets du domaine modélisé.
L’ensemble de ces objets correspond à ce qui est appelé référentiel dans le domaine des systèmes
d’informations. Pour un domaine mettant en œuvre des connaissances complexes sur lesquelles on veut
effectuer des traitements intelligents le programme élaboré est un système à base de connaissances qui
manipule une base de connaissances. Cette base répertorie, entre autres, et de la même façon que dans
les systèmes d’information, les concepts du domaine hiérarchiquement organisés dans une « ontologie
», nommée ainsi en faisant référence à ARISTOTE

Les ontologies sont alors centrales pour le Web sémantique qui, d’une part, cherche à s’appuyer sur
des modélisations de ressources du Web à partir de représentations conceptuelles des domaines
concernés et, d’autre part, a pour objectif de permettre à des programmes de faire des inférences dessus.
Les recherches à leur sujet sont donc indispensables. Une fois construite et acceptée par une
communauté particulière, une ontologie doit en effet traduire un consensus explicite et un certain niveau
de partage, deux aspects essentiels pour permettre l’exploitation des ressources du Web par
différentes applications ou agents logiciels. D’autre part, la formalisation, autre facette des ontologies,
est nécessaire pour qu’il soit possible de raisonner automatiquement dessus afin de décharger les
utilisateurs d’une partie de leur tâche d’exploitation et de combinaison des ressources du Web. Les
ontologies servent alors (1) pour le vocabulaire, la structuration et l’exploitation des métadonnées, (2)
comme représentation pivot pour l’intégration de sources de données hétérogènes. (3) pour décrire les
services Web et, en général, partout où il va être nécessaire d’appuyer des modules logiciels sur des
représentations sémantiques nécessitant un certain consensus.

14
II.5. Adaptation et personnalisation dans le Web sémantique
Au travers d’Internet, un nombre potentiellement infini de services et de documents est
accessible à tous les usagers. La plupart des services et documents fournis actuellement sur
Internet proposent une organisation, un contenu, un mode d’interaction et une présentation
unique pour tous. Ceci peut être suffisant dans certains cas. Mais tous les utilisateurs ne sont
pas intéressés par les mêmes informations et n’ont pas les mêmes attentes, connaissances,
compétences, centres d’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des
services et des documents dont l’organisation, le contenu, les modes d’interaction et la
présentation sont adaptés à leurs besoins. Parmi les problèmes qui se posent on peut citer :
l’accès à l’information pertinente, la navigation dans un grand espace de ressources et la
compréhension d’une ressource complexe. L’adaptation / personnalisation dans le « Web
sémantique » peut s’appuyer sur les domaines suivants : les hypermédias adaptatifs, la
modélisation utilisateur et les documents virtuels personnalisables. Les travaux actuels sur
l’adaptation dans le Web sémantique peuvent être décomposés en deux parties : l’une sur les
hypermédias adaptatifs et l’autre sur les documents virtuels adaptatifs. Les futures recherches
sur le Web Sémantique pour l’adaptation / personnalisation peuvent s’articuler autour des cinq
points suivants : la modélisation utilisateur et des utilisations, la protection de la vie privée, la
recherche d’information, les services et documents adaptatifs, et l’ergonomie des services et
des documents.

II.5.1. Adaptation/Personnalisation Sur Le Web Sémantique


Au travers d’Internet, un nombre potentiellement infini de services et de documents est accessible à tous
les usagers. La plupart des services et documents fournis actuellement sur Internet propose une
organisation, un contenu, un mode d’interaction et une présentation unique pour tous. Ceci peut être
suffisant dans certains cas. Mais tous les utilisateurs ne sont pas intéressés par les mêmes informations
et n’ont pas les mêmes attentes, connaissances, compétences, centres d’intérêts, etc. Ils ne sont capables
de comprendre ou d’accepter que des services et des documents dont l’organisation, le contenu, les
modes d’interaction et la présentation sont adaptés à leurs besoins. Parmi les problèmes qui se posent
on peut citer :
- L’accès à l’information pertinente : la recherche d’information sur Internet par des mots clés
n’est pas satisfaisante. En effet, les critères de rappel et de précision ne sont pas satisfaisants
(précision souvent inférieure à 1%). L’utilisation d’ontologies et donc du « web sémantique »
va grandement améliorer les résultats. Néanmoins, il restera bien souvent un nombre
considérable de ressources qui satisferont les demandes des utilisateurs. Il est donc nécessaire
de mieux cibler les résultats en fonction des besoins utilisateurs afin d’effectuer un filtrage des
ressources.
- La navigation dans un grand espace de ressources : dès que l’espace d’information accessible à
un utilisateur par navigation est important, la perte de repères et la désorientation ne permettent
pas à l’utilisateur de retrouver les informations recherchées ni de savoir d’où il vient, où il peut
aller et comment y aller. Il est important ici de pouvoir guider l’utilisateur dans cet espace
d’information en d’autres termes d’adapter l’accès à l’information en fonction de ses besoins.
- La compréhension d’une ressource complexe – site web, service, etc. : en psychologie cognitive,
la compréhension d’un document est souvent caractérisée par la construction mentale d’une
représentation, d’un modèle de ce document. La lisibilité du document peut être définie comme
l’effort mental nécessaire au processus de construction d’un modèle (Kaheneman, 1973;
Thüring, Hannemann et al., 1995). Afin d’accroître la lisibilité d’un document hypermédia, il
est nécessaire d’assister l’utilisateur dans la construction de ce modèle mental, par exemple en
favorisant les facteurs utiles pour le processus de construction, et en diminuant les facteurs qui
le perturbent. Deux facteurs principaux ont été identifiés : la cohérence et le surcoût cognitif

15
(Thüring, Hannemann et al., 1995). Pour augmenter la cohérence d’un document, il faut fournir
à l’utilisateur des repères l’aidant à identifier les composants majeurs du document et sa structure
globale. Pour réduire l’effort mental de compréhension, il n’est pas suffisant d’avoir une
structure globale cohérente. Il faut aussi communiquer cette structure à l’utilisateur. Il est alors
possible de lui fournir les différents composants du document ainsi que leurs relations, par
exemple à l’aide d’outils graphiques. Conklin caractérise le surcoût cognitif comme l’effort
supplémentaire et la concentration nécessaire pour gérer plusieurs tâches en même temps
(Conklin, 1987). Ce phénomène est dû aux capacités cognitives limitées du processus humain
de traitement de l’information (Kaheneman, 1973). Dans un document hypermédia, ces efforts
sont dus à l’orientation et la navigation. Pour éviter la désorientation, l’utilisateur doit non
seulement connaître la structure globale du document, mais aussi ses déplacements dans cette
structure. Il doit en fait savoir où il est, d’où il vient et où il peut aller. Compréhension et
orientation sont en effet très fortement liées. La compréhension d’un document hypermédia ou
autre est donc liée à la compréhension de la structure globale de ce dernier, à sa présentation et
à son contenu. Assurer une bonne compréhension d’une ressource complexe nécessite donc
d’être capable d’adapter la structure globale d’une ressource, son contenu et sa présentation aux
besoins utilisateurs.
Dans l’avenir, l’adaptation et la personnalisation seront des points clés pour l’utilisation, la vente et
l’accès aux services et documents par les entreprises et les particuliers. Toutefois, il est important de
faire la différence entre adaptable et adaptatif (Bra, 1999), même si la conjonction des deux est possible.
Dans un système adaptable, l’utilisateur définit un ensemble de contraintes au travers d’une requête,
d’un questionnaire ou d’un formulaire. Le système propose alors une ressource qui correspond au profil
de l’utilisateur les contraintes. Ce profil peut regrouper les préférences de l’utilisateur en termes de
présentation (couleurs, type de média, style d’apprentissage, etc.) ainsi que son savoir-faire
(qualifications, connaissances). Dans un système adaptatif, ce dernier observe le comportement de
l’utilisateur et utilise ses observations afin d’adapter la présentation de l’information. L’évolution des
préférences et de la connaissance de l’utilisateur est alors déduite (en partie) des accès aux pages Web.
Le plus souvent, l’adaptation est obtenue au travers de la navigation de l’utilisateur, mais parfois le
système peut aussi utiliser le comportement de l’ensemble des autres utilisateurs pour adapter la
ressource. On se placera ici dans le cadre de l’adaptation/personnalisation (adaptable ou adaptatif) pour
des utilisateurs au moyen de ressources liées à ces derniers – on ne se préoccupe pas de problèmes
d’adaptation entre agents ou services qui ne font pas intervenir l’utilisateur ou des informations sur celui-
ci.
Le cadre général que nous proposons est fondé sur le principe général suivant :

- Un ensemble de ressources est disponible sur le web (pages web, documents structurés, résultats
de services, services) ;
- Un utilisateur « demande un résultat » ou pose une requête liée à sa tâche à un module logiciel
en fixant un ensemble de contraintes qui sont des données non persistantes définies à partir d’un
formulaire ou d’un simple hyperlien qui peut avoir été calculé pour ses besoins.
- Le module logiciel, à partir de cette demande, plus éventuellement un « profil » (données
rémanentes caractérisant un utilisateur ou un groupe d’utilisateurs particuliers) sélectionne un
sous-ensemble de ces ressources (requêtes logicielles). Un profil peut contenir des
caractéristiques sur les connaissances, les préférences, les objectifs, les centres d’intérêts, etc.
d’un utilisateur ou d’un groupe d’utilisateurs.
- Puis, le module logiciel compose ces ressources pour fournir à cet utilisateur un document ou
service Web (page simple : liste ordonnée d’URL - adresses de documents, de page web ou de
services - ou encore un site web ou service : portails, cours en ligne, musées virtuels, etc.), avec
lequel l’utilisateur peut interagir à nouveau.
Dans un tel contexte, que peut faire le web sémantique dans le cadre de l’adaptation/personnalisation
pour aider l’utilisateur ?

16
Une aide à l’utilisateur peut se faire aux étapes 2, 3 et 4 :
2) Demande utilisateur : proposer des termes adéquats au contexte de la tâche utilisateur, réécrire
interactivement ou non sa demande en termes « reconnus » par les ressources et/ou les systèmes
de gestion de ressources – hétérogènes, fournir à l’utilisateur un lien activant une requête adaptée
à ses besoins.
3) Recherche et filtrage des ressources pertinentes à partir de la requête utilisateur et de son profil
: la demande initiale et certaines données du profil utilisateur peuvent servir au filtrage des
ressources pertinentes, que celui-ci soit automatique ou interactif. L’enjeu est ici de réduire
l’espace des ressources à celles qui s’apparient ou qui sont adéquates aux contraintes de la
demande, aux besoins utilisateurs (via le profil).
4) Composition des ressources : après sélection des ressources pertinentes, il s’agit de les organiser
pour les présenter à l’utilisateur. Cette organisation est le résultat de l’application de règles de
composition qui peuvent prendre notamment les formes suivantes :
- Une structure implicite résultat d’un calcul comme un simple tri – de type résultat de
moteur de recherche, ordre temporel, etc.
- Une structure explicite comme un modèle de tâche, une structure narrative, etc. qui
organise un site Web (portail, musée virtuel, ...), etc. L’organisation sert de support pour
la navigation et la compréhension. En effet, celle-ci est fortement liée à l’organisation et
l’orientation dans un service ou document. Il est ici possible d’adapter/personnaliser
l’organisation, le contenu, les modes d’interaction et la présentation des services ou
documents.

II.6. Les Documents Virtuels Personnalisables


Les hypermédias flexibles ont évolué vers la notion de document virtuel. Les documents virtuels sont
nés d’un besoin d’interactivité et d’individualisation des documents, plus particulièrement sur le Web.
Dès 1993, Thomas Gruber définit les documents virtuels comme des documents hypermédia qui sont
générés à la demande en fonction de plusieurs sources d’information et en réponse à une demande de
l’utilisateur (le lecteur) (Gruber, Vemuri et al., 1996). En 1999, lors de la première conférence sur les
documents virtuels, Carolyn Watters et Michael Shepherd (Watters & Shepherd, 1999) définissent
brièvement le document virtuel comme étant un document qui ne possède pas d’état persistant et pour
lequel toutes les instances sont générées lors de la consultation. Maria Milosavljevic (Milosavljevic,
Vitali et al., 1999) lors de l’introduction de la conférence, précise que le document virtuel est composé
de l’information et des mécanismes nécessaires à la génération du document réel qui sera consulté par
le lecteur. Un document virtuel possède donc les caractéristiques suivantes :
- réutilisation de différentes sources d’information,
- génération dynamique du document à la demande en fonction de l’utilisateur.
Il correspond à un espace d’information et des mécanismes de génération.

Si un utilisateur peut adapter/personnaliser le document réel produit en fonction de ses besoins, on


parlera de document virtuel personnalisable (DVP), sinon uniquement de document virtuel. Un
document virtuel peut être personnalisé à partir d’au moins un des trois critères suivants :
- Les contraintes utilisateur sont des données non persistantes définies à partir d’une requête, d’un
formulaire ou d’un simple hyperlien et qui lui sont propres.
- Le modèle utilisateur : il s’agit d’un ensemble de données persistantes qui caractérisent un
utilisateur ou un groupe d’utilisateurs particuliers. Un tel modèle peut contenir des

17
caractéristiques sur les connaissances, les préférences, les objectifs, les centres d’intérêts, etc.
d’un utilisateur (Rich, 1989; Brusilovsky, Schwarz et al., 1996).
Le contexte (Brézillon, 2002) : support de lecture, taille d’écran, vitesse de transfert, conditions
géographiques, météorologiques (Garlatti & Iksal, 2000), etc.

En 1999, Sylvie Ranwez et Michel Crampes définissent les documents virtuels personnalisables comme
les éléments et les mécanismes permettant de réaliser une construction dynamique de documents
adaptatifs. Un DVP peut être considéré comme un ensemble d’éléments (ou fragments) associé à des
mécanismes de filtrage, d’organisation et d’assemblage sous contraintes, c’est-à-dire en respectant un
modèle de l’utilisateur et des principes narratifs (Ranwez & Crampes, 1999). Bien souvent,
l’organisation et la sélection de fragments pertinents nécessitent des mécanismes de recherche
d’information et de filtrage qui utilisent entre autres les index des fragments. L’indexation des fragments
peut aller de l’utilisation d’un simple concept issu d’un modèle de domaine à celle plus complexe d’un
schéma de méta-données. La caractérisation de ces fragments et de leur indexation ne peut pas être
séparée de celle des mécanismes d’un DVP. En effet, un DVP est fondé sur deux étapes principales qui
sont indissociables : la spécification et la composition du document réel. La spécification d’un DVP,
c’est l’ensemble des informations nécessaires au système pour composer le document. Cette étape
dépend bien évidemment des principes mis en oeuvre dans la composition. Elle permet au minimum aux
auteurs d’un DVP de définir les fragments (nature, granularité et indexation), mais aussi les règles
d’organisation et d’assemblage. Les deux dernières ne sont pas toujours accessibles aux auteurs. La
composition a pour objet la construction d’un document réel à partir d’une spécification et des critères
de personnalisation. Spécification et composition sont en quelque sorte deux faces d’une même pièce ;
elles ne peuvent être conçues l’une sans l’autre et forment un tout indissociable.

Dans le cadre des documents virtuels personnalisables sur Internet qui génèrent des hypermédias, il est
intéressant de prendre en compte les méthodes et techniques d’adaptation proposées dans le domaine
des hypermédias adaptatifs. La personnalisation, l’adaptation pour un utilisateur donné est favorisée par
l’utilisation des modèles utilisateurs qui représentent ces utilisateurs. En ce qui nous concerne, les DVP
sont fondés sur des informations provenant de sources hétérogènes, la réutilisation et le partage sont des
enjeux des DVP qui peuvent être assurés par le Web Sémantique.

II.7. Applications du Web sémantique

Les technologies du web sémantique sont de plus en plus appliquées à un large spectre
d’applications au sein desquelles une connaissance de domaine est modélisée et formalisée
(ontologie) afin de servir de support à des traitements très diversifiés (raisonnements)
effectués par des machines. En outre, ces représentations peuventêtre rendues
compréhensibles par l’homme pour assurer un couplage optimal entre raisonnements humains
(cognitifs) et mécaniques (sémantique formelle) confiant à l’homme et à la machine des tâches
complémentaires.
Pour citer quelques-unes de ces applications : Portails d’entreprises et Mémoire
d’entreprises, E-Commerce, E-Work, Traitement Automatique des Langues et Traduction
Automatique, Recherche d’Information, Intégration d’Entreprises et EWork, Communautés
d’Intérêts, Data Mining, etc. D’un point de vue économique et sociétal, cette technologie doit
pouvoir contribuer à la croissance économique, en permettant aux entreprises d’inter-
fonctionner plus aisément et de trouver plus rapidement de nouvelles et meilleures

18
opportunités de marchés, mais également contribuer à la société civile dans sa vie quotidienne
au travail et pour ses loisirs.
Au carrefour d’une maturité technologie émergente et d’une pression économique
pressentant des gains potentiels et l’élargissement ou la création de nouveaux marchés, se
manifeste un intérêt croissant pour l’évaluation des technologies du Web sémantique sous
l’angle des coûts et bénéfices mesurables qu’offre cette nouvelle technologie. Une première
étape dans la mesure objective de l’intérêt de cette nouvelle technologie est d’en présenter
simplement de premiers résultats préindustriels pour des applications prototypes les plus
prometteuses. C’est bien l’objectif de ce document qui essaie de tracer les résultats les plus
significatifs et les plus lisibles à ce jour.
Via la pénétration profonde des technologies numériques au sein de la société de l’information,
le contenu du Web est multiforme, incertain et très dynamique. Cela conduit naturellement à
tenter d’abstraire cette complexité apparente, en fournissant des nouveaux services capables de
raisonner sur des représentations conceptuelles (sémantiques) via des automates – ex. Web
services. Cette couche sémantique, fait l’objet d’une très forte activité de R&D mondiale
dénommée « Web sémantique » (DARPA, IST), OntoWeb (2002), Semantic Web (2001),
ERCIM News (2002), dont les applications premières sont évidentes, mais dont les
prolongements semblent potentiellement très riches de retombées technologiques et de services
pour tous les acteurs de la chaîne de traitement de l’information.

Cette nouvelle technologie est à la croisée de nombreuses disciplines telles les sciences
cognitives, l’apprentissage symbolique, le traitement automatique des langues, les systèmes
multi-agents, l’ingénierie des connaissances, les sciences du raisonnement et de la décision, qui
adoptent une approche formelle, normative et algorithmique des raisonnements de sens
commun et leurs traces fortes dans la langue via la rencontre machinerie-
computationnelle/facteur-humain.

Nous présentons ici quelques applications phares, ayant fait l’objet de travaux importants dans
différents domaines applicatifs, ainsi que leurs résultats.

II.7.1. E-COMMERCE

II.7.1.1. Quels Usages Des Ontologies Pour Le E-Commerce ?


Le commerce électronique doit permettre un échange plus fluide d’information et de transactions entre
tous les acteurs économiques, depuis l’offreur de produits ou services jusqu’aux clients finals. On
distingue usuellement deux scénarios : des offreurs aux clients (B2C – Business-to-Customer) et entre
offreurs et grossistes (B2B – Business-to-Business).

Les applications du B2C permettent aux offreurs de produits et services de propager et présenter leurs
offres, et aux clients, de trouver et de commander l’offre(s) sélectionnée(s). En fournissant un accès
unique à une large collection d’articles ou de services fréquemment mise à jour, une place de commerce
électronique facilite la rencontre entre l’offre et la demande grâce à des outils de médiation commerciale.

Les applications du B2B ont une plus longue histoire et utilisent les échanges informatisés via des
structures de messages et de protocoles très codifiées, pré-établies et normalisées (EDI – Electronic

19
Data Interchange ou Échange de Données Informatisés) récemment assouplies via des standards basés
sur XML (eXtensible Markup Language).

Une nouvelle génération de services d’échange de messages compatible XML est en développement :
ebXML (electronic business in XML). UN/CEFACT, OASIS et de nombreux acteurs du commerce
électronique ont uni leurs efforts pour concevoir un nouveau standard pour le commerce électronique.
Loin de devoir remplacer EDIFACT, ebXML se positionne dans la complémentarité et dans la
continuité. EDIFACT est particulièrement adapté aux échanges de gros volumes avec des partenaires
stables, alors que ebXML doit répondre, en plus, à la problématique des petits échanges entre partenaires
épisodiques.

Actuellement, les systèmes à base d’ontologies apparaissent comme une technologie clé pour
le développement de solutions d’E-Commerce efficaces, ouvertes et profitables. Cependant, par
manque de normes de modèles de domaine et de processus métier dans les plus larges secteurs
économiques, le E-Commerce peine à décoller.
En effet, la variété d’entreprises et de solutions de commerce électronique déployées faisant
usage de configurations d’échanges très diversifiées, associée au manque de fiabilité et de
sécurité sur Internet, rendent impossible le passage à l’échelle par l’intégration et l’inter-
fonctionnement de ces différentes solutions.
Par ailleurs, dans une situation de marché où coopérations et compétitions interfèrent, l’adoption de
standards de domaines et de transactions économiques est très difficile à atteindre.

De plus,
Les pratiques commerciales sont très variées et rendent très difficiles les alignements normatifs ;
Les entreprises sont complexes : la description des produits et services (seuls ou associés), et leurs
interactions sont difficiles à modéliser ;
Les règles du jeu économique sur des places de marché sont très opportunistes ; L’adoption de
standards pourrait limiter la créativité commerciale.

Malgré toutes ces difficultés, de réels bénéfices pourraient être tirés de l’usage d’ontologies dans les
domaines suivants :
- Catégorisation de produits dans des catalogues,
- Catégorisation de services (dont les Web services),
- Pages Jaunes des sociétés de services,
- Identification des pays, régions et monnaies,
- Identification des organisations, de personnes et d’entités légales,
- Identification de containers de transport (type, situation, routes et contenus), - classification
de données statistiques.
Quelques applications B2B font usage de références codées dans des classifications (ex. UNSPSC,
OTA) pour réduire la taille des données à transmettre entre acteurs économiques. De tels codes
s’affranchissent des ambiguïtés inhérentes de la langue naturelle (polysémie sur les noms de produit et
polymorphisme sur les noms propres). Enfin, pratiquement aucun des schémas de classification utilisés
n’est décrit formellement comme le devrait être une ontologie.

Nous présentons dans la suite deux exemples de tentatives d’usage des technologies du web sémantique
au contexte du E-Commerce.

20
II.7.1.2. LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek
Pour des services de pages jaunes ou des catalogues de produits, une représentation structurée des
contenus couplée à des ontologies linguistiques améliore de manière notable le rappel et la précision des
outils de recherche marchands. Le système ONTOSEEK (1996-1998) a couplé une représentation des
connaissances du domaine (langage à pouvoir d’expression très limité de la famille de graphe conceptuel
GC) à une large ontologie linguistique multilingue (SENSUS basé sur WORDNET) pour une recherche
de produits en langue naturelle multilingue (Guarino et al., 1998).

ONTOSEEK combine un mécanisme de recherche par le contenu sémantique (ontologie) avec un


formalisme de représentation assez pauvre (GC). A la différence des systèmes connus, l’utilisateur n’est
pas supposé connaître le vocabulaire de codage des produits mais grâce à l’ontologie linguistique
SENSUS peut s’exprimer avec les termes de son vocabulaire.

Les principaux choix d’architecture fonctionnelle d’ONTOSEEK :


- usage d’une Ontologie linguistique généraliste pour représenter finement les produits ;
- grande flexibilité terminologique dans l’expression des requêtes, grâce à un mécanisme
d’intersection sémantique entre les requêtes et la description des produits ;
- Assistance interactive pour la formulation de la requête par généralisation et spécialisation.

Ils font usage d’un formalisme de représentation basique des GC pour représenter les requêtes et les
descriptions des produits. Le mécanisme d’intersection sémantique est basé sur un simple calcul de
subsomption sur les arcs et les nœuds du graphe et ne met pas en œuvre un calcul complet
d’endomorphisme de graphe.
ONTOSEEK n’a pas fait l’objet de déploiement commercial mais à son époque a très bien montré les
gains potentiels que les prémisses de technologie du Web sémantique pouvaient apporter aux moteurs
marchands pour le commerce électronique.

MKBEEM (2000–2002) projet IST du FP5 avait pour objectif de développer une plate-forme de
commerce électronique multilingue et multiculturelle principalement centré vers des services pour le
B2C. Les résultats finaux ont clairement indiqué que pour des domaines commerciaux bien délimités –
mais totalement réalistes - les technologies de la connaissance (KRR) couplées à des technologies du
traitement automatique des langues (TAL) fournissent des services de traduction et d’interprétation de
grande qualité et opérationnels à très court terme (Mkbeem, 2002).

L’innovation clé réside dans ce couplage du TAL et du KRR offrant à ce jour les services suivants :
- représentation de la requête langue naturelle dans une représentation sémantique (ontologie) ;
- maintenance aisée de catalogues de produits et services multilingues ;
- création aisée d’offres composites de produits et de services ;
- recherche en langue naturelle de produits ou de services par le contenu sémantique ;
- catégorisation et indexation automatiques des produits ou des services décrits en langue
naturelle ;
- intégration aisée et rapide de nouvelles offres de produits ou de services dans un contexte
multilingue et pluriculturel.
La qualité des résultats a été jugée sur un prototype pan-européen pour le Finnois, le Français, l’Espagnol
et l’Anglais dans les domaines du tourisme (SNCF) et de la vente par correspondance (Redoute-Ellos).
Cette technologie fait l’objet de transfert vers la Redoute et la RMN.

21
II.7.1.3. APPLICATIONS MÉDICALES
La médecine est un des domaines d’applications privilégiés du Web sémantique comme elle l’a été, à
une autre époque, des techniques de l’Intelligence Artificielle, en particulier les systèmes experts. C’est
en effet un domaine complexe où les informations à partager sont nombreuses et où il n’y a pas ou peu
de solutions algorithmiques à ce partage comme à l’usage des connaissances, en particulier cliniques.
Ainsi, un des principaux mécanismes du Web sémantique qui est la description de ressources via des
annotations est de la plus grande importance en bioinformatique, plus particulièrement autour des
questions de partage des ressources génomiques. Dans le contexte, plus ancien, de la recherche
d’information, la médecine a une longue tradition de développement de thésaurus comme le Me SH
(Medical Subject Heading) ou UMLS (Unified Medical Language System –
http://www.nlm.nih.gov/research/umls/umlsmain.html) et les utilise maintenant dans le cadre des
mécanismes du Web sémantique. Enfin, et plus récemment, les services Web proposent des solutions à
la problématique récurrente et non résolue de l’interopérabilité en médecine, en particulier dans le
contexte des SIS (Systèmes d’Information Hospitaliers). C’est dans ces 3 champs de l’informatique
médicale que nous allons décrire les travaux de recherche qui se développent, les résultats et les
perspectives attendues1.

II.8. Le Partage De Ressources


Dans le domaine de la génomique fonctionnelle, il est nécessaire d’accéder à une multitude de bases de
données et de connaissances accessibles via le Web, mais hétérogènes dans leur structure et leur
terminologie. Parmi ces ressources, citons les bases de données comme Swissprot, où les produits de
gènes sont annotés par GENEONTOLOGY, GENBANK, etc. En comparant ces ressources, on s’aperçoit
qu’elles proposent de l’information identique – e.g. des références à des articles – sous des formats
extrêmement différents, bien que XMLl soit mis en avant comme langage de description (Mougin et al.,
2003).

Dans un autre domaine que la génomique mais en utilisant les mêmes mécanismes du Web sémantique
(ontologies, médiateurs), le projet NEUROBASE (Barillot et al.) est un projet soutenu par le ministère
français de la Recherche (MENRT) qui a pour objectif de fédérer au travers d’Internet des bases
d’informations en neuroimagerie, situées dans différents centres d’expérimentation, cliniques
neurologiques ou de recherche en neurosciences. Ce projet consiste à spécifier comment relier et accéder
à ces bases d’informations par la définition d’une architecture informatique permettant l’accès et le
partage de résultats d’expérimentations ou bien encore de méthodes de traitement des données au sein
d’un même site ou entre sites différents. Cette architecture repose sur le concept de médiateurs (Cf. chap.
5). Cela permettra, par exemple et au sein de ces bases d’informations, la recherche de résultats
similaires, la recherche d’images contenant des singularités ou encore des recherches transversales de
type « fouille de données » pour mettre en évidence d’éventuelles régularités. Le médiateur de
NEUROBASE devrait être expérimenté sur une application clinique d’aide à la décision en chirurgie de
l’épilepsie.

II.9. L’indexation Et Le Catalogage


Le site PubMed <http://www.ncbi.nlm.nih.gov/PubMed/> de la NLM (National Library of Medicine)
donne accès à la plus grande base d’articles scientifiques dans le domaine de la bioinformatique. Ces

22
articles sont indexés à l’aide des termes du MeSH <http://www.nlm.nih.gov/mesh/meshhome.html>, un
thésaurus contenant près de 22 000 descripteurs. La maintenance de PubMed met en lumière un des
problèmes de l’indexation, le travail que représente le choix d’index pertinent pour représenter les
articles. Cela rejoint, comme le projet suivant, la question de la mise en place des annotations (Cf. chap.
3), difficile d’autant plus qu’elle est effectuée a posteriori. La NLM a ainsi un gros projet d’indexation
automatique des ressources fondée sur l’analyse du titre, du résumé de l’article et des index déjà posés
sur les articles cités en référence (Aronson et al., 2000).

Le site CISMeF du CHU de Rouen, reconnu en France comme étant le site de référence en informatique
médicale, « catalogue » et indexe l’ensemble des sites médicaux francophones de qualité (environ 12
000 en 2003 – <http://www.churouen.fr/cismef/>). En dehors du fait que cela ne se fait pas sans méthode
et sans une certaine force de travail, il est intéressant d’explorer d’un peu plus près les modes
d’indexation des sites (Darmoni et al,. 2000) : ainsi, quand une page Web est cataloguée, elle est indexée
pour pouvoir être retrouvée et reproposée aux intéressés. RDF et les balises du Dublin Core sont alors
utilisés pour décrire des informations de type bibliographique au sujet de la page (langue utilisée dans
le document, année, auteurs, sujet (mots-clés), etc.). Des balises nécessaires aux ressources médicales
comme la gratuité de la ressource ou son niveau de preuve s’y ajoutent. Comme pour Medline, c’est le
thésaurus MeSH qui est utilisé pour indexer le contenu médical des ressources.

Ces applications, en particulier CISMeF, nous interrogent sur l’utilisation des thésaurus pour l’indexation
par rapport à la possibilité qu’offriraient les ontologies. Si les thésaurus montrent ici parfois leur limite
avec une organisation des concepts médicaux parfois ambiguë ou incohérente, la mise en place
d’ontologies a un coût (en temps en particulier) non négligeable et dont la rentabilité n’est pas évidente.
De plus, une ontologie manipule des concepts à une telle granularité qu’ils ne sont pas facilement
accessibles dans le contexte du travail courant du praticien. Des solutions semblent se mettre en place
en reliant les concepts de l’ontologie aux termes des thésaurus dans un serveur de terminologie comme
en propose le projet GALEN (Rector et al., 1995) qui rejoint les propositions de thésaurus sémantiques
dans d’autres domaines (Roussey & Calabretto, 2002).

II.10. Des Services Web Pour L’interopérabilité


Les services Web abordés ci-haut permettent de proposer des solutions au problème de l’interopérabilité
en médecine. C’est ce type d’usage que cherche à promouvoir l’association Edisanté
<http://www.edisante.org/> dans le cadre de son groupe de travail GT11 au sein d’un projet « EDI
données cliniques » soutenu par le MENRT. La proposition consiste à utiliser les propositions de E-
Commerce et les langages des services Web, en particulier ebXML et SOAP (Simple Object Access
Protocol) en les augmentant d’éléments spécifiques à la santé pour proposer une norme d’échange de
données cliniques entre praticiens ou institutions (Cordonnier et al., 2003).

Les propositions du GT11 portent sur une structure permettant de transporter des données et des
documents hétérogènes mais avec des informations associées à ce transport, renseignant sur la finalité
du message et son contenu, et en permettant la gestion et le traitement – c’est le concept d’enveloppe.
Ce concept rejoint totalement le concept récent d’enveloppe ebXML. Il s’en différencie par deux points
principaux :
Le patient comme unique objet de la transaction. Un tel échange ne saurait être anonyme du point
de vue du couple émetteur-récepteur. Il concerne donc un émetteur et un destinataire, qui tous
deux sont impliqués et responsabilisés dans l’échange. Le seul moyen de permettre à un
émetteur de signer un envoi réservé à un récepteur précis, concernant un patient qui a le droit

23
d’exiger d’en connaître le contenu, aboutit à une structure nécessairement unique pour le triplet
{émetteur, récepteur, patient}.

Le caractère multimédia des informations transportées. Une analyse de l’existant fait apparaître
clairement l’existence chez la majorité des acteurs de santé de sources multiples d’informations
concernant un même patient. Ces informations médicales ne sont pas nécessairement liées entre
elles, notamment sur le plan informatique, et se présentent sous des formes et sur des supports
divers (bases de données, documents textuels formatés ou pas, propriétaires ou pas, images,
etc.). Si ces informations ne sont pas toujours gérées de manière centralisée chez l’émetteur, il
peut être fondamental de les réunir à l’occasion d’un échange avec un autre acteur de santé,
qui, lui, saura éventuellement les intégrer dans sa base de données. Même sans lien
informatique structuré, le fait de les envoyer ensemble a un sens sur le plan médical, par rapport
au contexte précis de l’échange, comme par exemple dans le cas de l’échange d’une image et
de son compte rendu. Sur le plan de la traçabilité de l’échange, il est donc fondamental pour
l’émetteur et le récepteur de pouvoir prouver que ces informations ont été transmises ensemble.

L’intérêt d’une telle approche est qu’elle trace un chemin vers l’interopérabilité plus facilement que des
normes spécifiant précisément les items d’information échangés comme le propose le consortium
américain HL7 (Health Level 7) ou l’organisme de normalisation européen CEN TC251 (Charlet et al.,
2002). Elle permet une certaine interopérabilité, loin de l’interopérabilité sémantique que devraient
offrir les ontologies mais plus réaliste dans le contexte de l’informatique médicale à ce jour.

II.11. Traitement Automatique Des Langues

II.11.1. L’usage D’ontologies “Linguistiques” Dans Les Applications


« Ce qui concerne le sens est le point faible des études sur le langage, et le restera jusqu’à ce que nos
connaissances aient avancé bien loin de leur état actuel » conjecturait (Bloomfield, 1933).

Que peut apporter le Web sémantique au traitement automatique des langues (TAL) ? Le langage humain
est construit de mots individuels (niveau lexical), qui peuvent avoir plusieurs sens, et parfois appartenir
à plusieurs catégories lexicales ou parties du discours. Les textes en langue humaine sont des objets très
structurés, présentant une cohésion inter et intra-phrase très forte (IJCAI-97, 1997).

La sémantique pour le traitement automatique s’intéresse à la modélisation des phénomènes sémantiques


intervenant dans le langage humain (anaphore, ellipses, comparatif, références temporelles, attitudes,
verbes, …). Traditionnellement, les approches formelles se sont situées au niveau de la phrase. Elles ont
été ensuite étendues au niveau du discours (FraCaS, a framework for Computational Semantics, –
Fracas, 1998).

Quand un auditeur reçoit un message d’un orateur, il essaie de comprendre ce que et pourquoi ce locuteur
a produit ce message en faisant appel à ses compétences linguistiques, sa connaissance en général et en
particulier celles de la situation d’énonciation, ses croyances, etc. L’auditeur construit donc une
représentation (très probablement sémantique) de ce qu’il comprend de la proposition du locuteur, afin
de sélectionner une réaction en retour.

Pour construire cette représentation, il doit partager avec l’orateur quelques croyances et connaissances
:

24
- Reconnaissance phonétique et lexicale (si message vocal),
- Connaissances lexicales,
- Connaissances grammaticales,
- Connaissances sémantiques du domaine du discours, - règles conversationnelles et cohérence
discursive, - connaissances contextuelles.
Selon (Zyl et al., 2000), il y a eu quelques applications faisant usage d’ontologies linguistiques2. En
complément de l’usage traditionnel de ces ontologies pour la génération (Natural Language Generation,
NLG) et la traduction, ces applications les mettaient en œuvre pour l’extraction de sens d’un texte, pour
la recherche d’information, et pour l’intégration d’informations hétérogènes.

Une ontologie linguistique telle que définie dans (Zyl et al., 2000) sert de format pivot entre applications
ou entre interprétations possibles communes de différentes langues. Les ontologies linguistiques ont
généralement pour objet de résoudre les questions suivantes : comment représenter les connaissances
d’un univers donné et comment lier cette représentation à celles aujourd’hui classiques des grammaires
et des lexiques ?

De nombreuses applications (toutes ?) du web sémantique devraient à l’avenir faire appel aux outils
traditionnels du TAL enrichis des représentations et des traitements sémantiques associés.

II.12. LA TRADUCTION AUTOMATIQUE


Une application de génération de langue naturelle fait traditionnellement appel à une représentation
neutre (pivot) à laquelle on relie les différents termes d’une base lexicale multilingue. Ces applications
sont des systèmes de traduction à base de connaissances (KBMT – Knowledge-Based Machine
Translation), traduisant via le sens (sémantique) un texte d’une langue vers d’autres langues. La
représentation du sens est modélisée dans une ontologie indépendante des langues qui joue le rôle «
d’interlingua ».

Les principaux bénéfices attendus sont : de fournir un fondement pour représenter le sens de texte dans
un « interlingua » ; pour permettre à des lexiques de différentes langues de partager un même modèle.
Le modèle ontologique résultant est du coup partagé pour le TAL par l’analyse et la génération.

WORDNET et EUROWORDNET (Vossen, 1998) en est un archétype. A la différence de WORDNET


dédié à la langue anglaise, EUROWORDNET est une base multilingue (Allemand, Hollandais, Français,
Italien, Espagnol, Tchèque et Estonien). Le réseau est organisé de manière identique à W ORDNET en
« synsets » (ensembles de mots synonymes) lié par des liens basiques de synonymie. Ces ensembles
sont ensuite reliés à un interlingua (Inter-Lingual-Index) basé sur le Princeton Wordnet. Au travers de
cet index, les langages sont interconnectés de telle sorte qu’il est possible de passer des mots d’une
langue aux mots similaires d’une autre langue.

Le système PANGLOSS® (Knight et al., 95) traduit des textes Espagnols en Anglais. L’ontologie
linguistique utilisée dans Pangloss ® est SENSUS (identique à celle utilisée dans le système
ONTOSEEK cité plus haut).

Le système MIKROKOSMOS® (Viegas, 99 ;Mahesh, 95) traduit des textes Espagnols et Chinois en
Anglais. Il inclut un interlingua (TMR – Text Meaning Representation) qui produit une représentation

25
sémantique pour les langues sources citées. Il propose aussi un outil d’édition et une API pour accéder
à l’ontologie

III. Web de données


Le Web de données (Linked Data), pour sa part, est l’une des composantes du Web sémantique et il
s’agit probablement de l’application la plus connue. Il arrive d’ailleurs parfois que certains confondent
les deux et plusieurs ne s’entendent pas encore sur ce point ( Heath, 2009; Hendler, 2009). D’ailleurs,
depuis le 11 décembre 2013, le W3C a cessé de mettre à jour la page Web de son site dédié au Web
sémantique en indiquant aux visiteurs que celle-ci avait été absorbée par une autre page se consacrant à
ce qu’ils nomment le W3C Data Activity . Il est donc intéressant de souligner l’évolution du concept du
Web sémantique, non seulement aux yeux des professionnels du domaine, mais aussi au sein même de
l’organisation qui le chapeaute. Le W3C indique d’ailleurs que les résultats de l’implantation du Web
sémantique démontrent un certain succès, mais qu’ils ne correspondaient pas à ce qui avait été envisagé
au départ. En effet, le consortium s’attendait à ce que les activités de publication de pages Web et de
données soient similaires. Cependant, on a rapidement constaté que la publication de données (dates,
titres, propriétés chimiques, lieux, etc.) est vue comme une activité effectuée par des spécialistes du
domaine et non pas comme une activité que tous pourraient accomp lir (W3C, 2013). Afin d’éviter toute
confusion entre Web sémantique et Web de données, il est possible de dire que le Web de données est
l’une des applications qui entre dans la grande famille du Web sémantique. Comme nous allons le voir
à la section 2.7, les données structurées internes sont aussi une des applications du Web sémantique.
Le Web de données doit être considéré comme l’ensemble des pratiques et des standards permettant
de publier des données structurées sur le Web afin que celles-ci puissent être liées entre elles et
interrogées. En 2006, Tim Berners-Lee publie le premier jet d’un article sur le site du W3C intitulé
Linked Data. Cette page a été modifiée plusieurs fois jusqu’en 2010 avec l’ajout du concept de Linked
Open Data 5 Star sur lequel nous reviendrons sous peu. Cette note a comme objectif de clarifier certains
aspects du Web de données et de rappeler les objectifs derrière l’implantation du projet, soit un partage
des données et le fait d’effectuer des liens entre elles. La mise sur pied du groupe d’intérêt Semantic
Web Education and Outreach Interest Group (SWEO), maintenant fermé depuis 2008, a donc permis
d’assurer l’ accessibilité à des guides permettant à ceux qui le souhaitaient de mieux comprendre les
outils qui étaient mis à leur disposition pour pouvoir publier leurs données liées sur le Web. Il s’agissait
aussi de promouvoir l’idée selon laquelle les données ét aient comparables aux documents et qu’il était
possible de les relier entre elles de la même façon que les documents sont liés entre eux grâce aux liens
hypertextes sur le Web (Bermès, Isaac et Poupeau, 2013; Bizer et Heath, 2011). L’initiative Linking
Open Data community project mise sur pied par le SWEO a permis de sensibiliser les communautés qui
encodaient déjà leurs données pour le Web sémantique à les publier sous licence libre et à les relier entre
elles. Ce projet a donné naissance à DBpedia, un projet communautaire piloté par l’Université de
Leipzig, l’Université de Mannheim et l’entreprise OpenLink Software. Il s’agit d’une base de données
composée d’informations encodées dans le format standard du Web sémantique extraites de Wikipédia.
DBpedia a permis aux usagers d’avoir accès à un assez grand nombre de données provenant de plusieurs
domaines différents pour pouvoir relier leurs propres données à un point d’ancrage (Bermès, Isaac et
Poupeau, 2013). En mars 2012, une version francophone a été présentée par l’Institut national de

26
recherche en informatique et en automatique (Inria), le Ministère de la Culture de la France ainsi que
l’association Wikimédia France.

Le Web de données est souvent représenté par un graphe, attribué à Max Schmachtenberg,
Christian Bizer, Anja Jentzsch et Richard Cyganiak, qui permet de constater les différents liens entre
les nombreux jeux de données (des collections de données) (voir annexe 1). Les jeux de données qui
se trouvent dans le graphe répondent aux critères suivants (Schmachtenberg, Bizer, Jentzsch et
Cyganiak, 2014) :

 Les URI doivent être déréférençables (nous y reviendrons à la section 2.5.1.1) ;


 Les données doivent être des données RDF et être encodées dans l’une des syntaxes de
sérialisation les plus utilisées (RDF/XML, Turtle, N-Triples) (nous y reviendrons à la section
2.5.2) ;
 Le jeu de données doit contenir au moins 1 000 triplets ;
 Le jeu de données doit être lié à au moins un autre jeu de données se trouvant dans le graphe ;
 L’accès au jeu de données dans son entièreté doit être possible grâce des dumps ou un point
d’accès SPARQL (nous y reviendrons à la section 2.5.4).

Les jeux de données les plus importants et vers lesquels le plus grand nombre de liens ont été effectués
sont représentés par des sphères plus larges dans le graphe. Ainsi, les DBpedia, GeoNames (une base
de données géographique) et FOAF(un vocabulaire qui permet de décrire les personnes et les relations
qui les unissent) se retrouvent au centre et sont plus imposants que les autres, ce qui démontre leur
importance et leur poids dans le Web de données. Ce graphe est en constante évolution et il est
intéressant de comparer les différentes versions disponibles afin de bien constater à quel point le
mouvement est en croissance (voir figure 1).

Figure 2 Évolution du nombre de jeux de données publiés selon les standards du Web de
données et interreliés à d’autres jeux de données sur le Web, de mai 2007 à août 2014
Dans sa note de 2006, Berners-Lee présente les quatre principes de base du Web de données sur lesquels
plusieurs se baseront par la suite et sur lesquels nous reviendrons :

27
1. Nommer les ressources avec des URI ;

2. Utiliser des URI déréférençables (protocole HTTP) afin qu’il soit possible d’accéder à des
informations sur les ressources ;

3. S’assurer que les URI déréférençables fournissent des informations pertinentes à l’aide des
standards tels que RDF et SPARQL ;

4. Créer un réseau de liens avec d’autres URI provenant d’autres bases de données.

III.1. Convergence et interopérabilité : l’apport du Web de


données
Ce qui a fait la valeur ajoutée du Web, ce qui a motivé son adoption quasi universelle et est en train d’en
faire le principal média de publication et d’échange d’information, c’est sa globalité et son
interopérabilité. Le Web, c’est avant toutun ensemble de standards, qui permettent la dissémination de
technologies partagées par tous, et indépendantes des environnements matériels et logiciels. Pour aller
plus loin, on pourrait dire qu’aujourd’hui le Web est l’environnement le plus interopérable qui soit.

Le principe de la navigation hypertexte et la généralisation de l'usage des moteurs de recherche a


provoqué un changement de paradigme qui devrait encourager les institutions culturelles, et au premier
chef les bibliothèques, à prendre plus hauteur dans la démarche orientée utilisateur. Il ne s'agit plus
seulement de faciliter l'expérience de l'usager une fois qu'il a pu accéder au service proposé en ligne,
mais de considérer son objectif de manière plus globale. Est-il dans une démarche d'apprentissage ? De
recherche ? De loisir ? Cherche-t-il une réponse pratique à une question sur sa santé, son emploi, sa
maison, son quotidien d'une façon générale ? Tous cesusages existent en bibliothèque, mais pour aucun
d'eux la bibliothèque ne devrait plus seconsidérer comme un passage obligé. C'est maintenant à elle de
se positionner sur le parcours de l'usager dans sa démarche quelle qu'elle soit, et non à l'usager de penser
que la bibliothèque pourrait avoir des ressources pertinentes à lui offrir.

Cette réflexion doit nous encourager à considérerla convergence entre institutions culturelles comme
quelque chose de vital, car on ne pourra pas continuer à attendre de l'usager qu'il comprenne les barrières
institutionnelles et les accepte. Le touriste qui prépare sa visite au musée devrait pouvoir trouver aussi
bien des livres sur Picasso que les reproductions de ses œuvres ; le généalogiste qui trace l'histoirede ses
arrière-grands-parents devrait pouvoir accéder aussi bien aux ressources des bibliothèques qu'à celles
des archives.

Pour aller encore plus loin, on peut souhaiter que dans l'écosystème actuel du Web, les ressources que
l'usager n'a pas cherchées soient poussées vers lui naturellement, au cours de sa recherche, à travers des
résultats fournis par son moteur de recherche favori, des liens depuis une page Wikipédia, des références
entre sites Web.

Si tout ceci semble du domaine de l'évidence quand on parle des sites Web, pourquoi n'en est-il pas de
même pour les données quoi sont cachées dans nos catalogues ? En effet, l’hypertexte et
l’interconnexion des pages Web fonctionnede manière optimale pour les ressources de nature
documentaire, mais pour aller plus loin, ce sont les données elles-mêmes qu’il faudrait sémantiser et
relier pour les rendre interopérables. C’est justement le principe du Web sémantique et du Web de
données.

28
Pour illustrer ceci par unexemple concret, une bibliothèquedispose en général d’un site Web qui est
accessible et relié, via un certain nombre de liens hypertextes, à l’ensemble plus global du Web.
Cependant, les données de la bibliothèque comme le catalogue, font généralement partie du Web dit
profond, ou caché : c’est-à-dire que ces données sont stockées dans une base de données, accessible à
travers un formulaire de recherche, et donc ne peuvent pas être parcourues de lien en lien notamment
par des agents logiciels tels que les moissonneurs (crawlers) des moteurs de recherche. Ainsi,un usager
qui souhaite prendre connaissance de ces données doit obligatoirement accéder à ce formulaire et saisir
une recherche. Si les ressources qui l’intéressent sont disséminées dans les bases de plusieurs
bibliothèques, il devra recommencer autant de fois cette opération.

Bien entendu, les bibliothèques et les institutions culturelles ont pris conscience depuis plusieurs années
de cette problématique, et elles ont mis en place différents moyens pour permettre d’y pallier.

III.1.1. Interopérabilité et données culturelles : une situation complexe


Dans les bibliothèques, les modèles d'échange de données et d'interopérabilité se sont particulièrement
construits sur le fait que les objets décrits sont des objets multiples. Il existait un enjeu important à éviter
la duplication de l'effort de catalogage, et donc à favoriser la récupération des notices d'un catalogue à
un autre. Cette forme d'interopérabilité s'est matérialisée le plus souvent par l'adoption d'un format
commun, ou la construction de passerelles complexes permettant de convertir complètement un format
vers un autre (Marc21 vers Unimarc par exemple.)

Le protocole Z 39.50, développé dès les années 1980, suivi par une nouvelle génération (SRU/SRW)
reposant sur des standards appartenant davantage à l’ère du Web, en particulier XML, permet
l’interrogation synchrone de plusieurs bases. Toutefois, cette façon de faire présente plusieurs
inconvénients : avant tout, le protocole reste très spécifique au monde des bibliothèques, et ne permet
pas d’interagir avec des ressources d’autres domaines. D’autre part, l’interrogation synchrone de bases
différentes présente des restrictions quant à la précision des requêtes, au temps de réponse, au
dédoublonnage des résultats, etc. Le protocole Z 39.50, très utilisé sur le plan professionnel pour les
échanges de notices entre catalogueurs, débouche sur un mode d'interopérabilité que nous appellerons «
l'interopérabilité par conversion et copie » (map and duplicate interoperability) : si les ressources sont
dans un format différent, on effectue une conversion complexe qui permet de récupérer les données avec

29
un minimum de perte (le niveau de perte n'étant toutefois jamais nul) pour les verser dans une seule base
qui sera chargée de fournir le service d'interrogation à l'utilisateur.

Figure 3 interopérabilité par conversion et copie


Le protocole OAI-PMH, mis en place dans les années 1990, propose une approche différente. Issu du
mouvement de l’open access, il implique dès sa conception une préoccupation de convergence entre les
données de la recherche (publications entreposées dans des archives ouvertes) et d’autres données issues
notamment du domaine culturel et des bibliothèques. Pour assurer l’interopérabilité entre ces différentes
sources de données, il exige l’utilisation d’un format de données minimal commun, le Dublin Core dit
« simple ». Les données ainsi formatées sont moissonnées, c’est-à-dire récupérées dans les bases
réparties, pour être versées dans une base commune qui servira de support à la création de nouveaux
services. On parlera alors d'interopérabilité basée sur le plus petit dénominateur commun (smallest
common denominator interoperability).

Figure 4 interopérabilité basée sur le plus petit dénominateur commun


A nouveau, cette approche présente des limites. Les différentes sources sont contraintes d’appauvrir
leurs données pour les faire entrer dans ce format commun, ce qui débouche soit sur la suppression de
nombreuses informations, soit sur leur concaténation dans des champs de métadonnées généralistes,
difficiles à exploiter. Ce n’est pas le Dublin Core lui-même qui est ici mis en cause, mais la façon dont
il est employé dans le protocole OAI-PMH. Si on considère les données de bibliothèque, le Dublin Core
simple fait par exemple perdre tout le bénéfice du système des notices d’autorité, qui fait le lien entre
les notices bibliographiques. Toute l’information se retrouve à plat.

Pour ajouter une couche de complexité à ce panorama, notons que si l’on ne s’intéresse pas seulement
aux bibliothèques, mais aussi à d’autres institutions culturelles telles que les archives et les musées, il
faut prendre en compte la diversité des modèles de données définis par ces trois communautés. Le
modèle de base des bibliothèques repose sur deux concepts complémentaires, les notices
bibliographiques qui décrivent les documents, et les notices d’autorité qui décrivent des entités
(personnes, collectivités, concepts, etc.) que plusieurs notices bibliographiques peuvent avoir en
commun. Le modèle des archives met en avant la notion decontexte et de hiérarchie. Le format EAD,
qui s'appuie sur le modèle de description de l'ISAD-G, permet de représenter les inventaires sous la

30
forme d'une arborescence de composants qui favorise le respect des fonds. Des notions comme le titre
ou l'auteur sont moins pertinentes dans ce contexte, alors qu'elles sont basiques dans celui de
l'information bibliographique. Enfin, l'information des musées est profondément déterminée par le fait
qu'elle porte essentiellement sur des objets uniques. Ainsi, le contexte de ces objets est décrit, pas
seulement comme dans le cas des archives en fonction de l'organisation des ressources, mais en fonction
des différents événements auxquels l'objet est confronté, de sa création à sa conservation en passant par
les différentes opérations de restauration et d'exposition qui ont pu l'affecter. Ce concept d'événement
devient central dans le modèle, et c'est à travers lui que l'on relie les œuvres aux personnes. Ainsi le
modèle CRM du CIDOC accorde une place structurante à l'événement. Ces profondes différences de
modèle au sein même des métiers du patrimoine culturel font de la convergence des données un véritable
challenge. Réduire des données de bibliothèques, d'archives et de musées à un modèle commun implique
de renoncer aux particularités de traitement et de conception de chacun de ces domaines, et réduit la
construction de services communs à son plus simple élément. De plus, ces méthodes d'interopérabilité
ne prennent pas vraiment acte de l'évolution des usages dans le contexte du Web, tel que nous l'avons
évoqué en introduction. En effet, elles impliquent toujours un postulat dedépart qui est que l'usager
connaît l'existence de ces services, et fait la démarche de se rendre sur la page d'accueil de la bibliothèque
ou du portail pour se positionner dans une démarche de recherche.

III.1.2. Le Web de données et l’interopérabilité basée sur les liens


Le Web de données propose une forme d'interopérabilité qui ne repose ni sur l'interrogation synchrone
de bases réparties, ni sur la réduction de bases diverses à un format commun, mais sur la création d'un
espace global d'information, utilisant les liens pour permettre de naviguer de manière transparente d'une
ressource à l'autre. Le Web de données est une extension du Web qui doit permettre de créer un espace
global d'information, au-delà des documents, pour les données. Les règles de bonne pratiques du Web
de données, énoncées par Tim Berners Lee puis adaptées par le groupe SWEO (Semantic Web Education
and Outreach), sont au nombre de quatre :

• utiliser des URI (uniform ressource identifier) pour identifier les ressources : chaque ressource sur
laquelle on veut pouvoir faire des assertions doit se voir affecter un identifiant Web, une URI ;

• ces URI doivent être formulées suivant leprotocole HTTP afin qu'on puisse les actionner pour accéder
à la ressource identifiée, ou à des informations sur cette ressource ;

• lorsqu'on accède à une ressource via son URI, celle-ci doit renvoyer des informations utiles et
pertinentes en utilisant les standards (RDF, SPARQL) ;

• enfin, les ressources doivent être reliées, c'est-à-dire qu'il ne suffit pas de publier des informations,
mais il faut les relier à des informations publiées par d'autres, afin de créer un écosystème basé sur les
liens.

L'objectif est de créer un espace global d'information où les données sont décrites suivant un modèle
commun, le modèle RDF, et reliées par des liens actifs, exploitables par des machines. Grâce aux
principes du modèle RDF, les liens entre les données sont typés, c'est-à-dire qu'ils qualifient le type de
relation qui relie deux ressources : similarité, relation de sujet (« aboutness »), ou autre. Dans cette
approche, il est possible de créer des liens entre des ressources décrites en utilisant divers modèles, à
partir du moment où la grammaire de base, commune à tous ces modèles, est le RDF. Deux modèles
d'interopérabilité permettent dereprésenter cette nouvelle façon de travailler les données : le modèle de
la roue et de l'essieu (« hub and spoke ») et le modèle de la navigation intuitive (« follow your nose »).

31
Les référentiels ou vocabulaires sont appelés à jouer un rôle vital dans le Web de données, en particulier
lorsqu'il s'agit de construire l'interopérabilité entre des données issues de domaines différents. Sur le
Web, un utilisateur a la possibilité de naviguer d'un site Web à un autre sans avoir connaissance des
moyens techniques utilisés pour publier les données, sans même qu'il n'existe véritablement de rupture
ou de frontière entre ce qu'on appelle les sites Web. De la même manière, sur le Web de données, la
navigation de lien en lien doit pouvoir se faire, d'un jeu de données (dataset) à un autre, sans nécessité
de percevoir les limites des différentes bases de données ni leur format. Les référentiels sont volontiers
associés au modèle « hub and spoke » : ils agissent comme un point nodal ou une colonne vertébrale
permettant de créer un point de contact entre des jeux de données différents. Dans le Web de données,
ce point de contact est suffisant pour naviguer sans contrainte d'un jeu de données à l'autre, en utilisant
les URI, que les données soient ou non exprimées suivant le même modèle.

Figure 5 interopérabilité basée sur les liens : modèle « hub and spoke »

Pour aller encore plus loin, dans le Web de données, n'importe quel jeu de données dont on réutilise les
données peut jouer ce même rôle de passerelle, quoique pas de manière centralisée : le fait de parcourir
ces liens permetalors de découvrir denouvelles ressources de façon intuitive (« follow your nose »
interoperability).

Figure 6 interopérabilité par le lien :modèle « follow your nose »

32
III.1.3. Le rôle des vocabulairesdans le Web de données
Les vocabulaires sont donc appelés à jouer un rôle vital dans le contexte de l'interopérabilité basée sur
les liens. Dans ses travaux, le groupe Library Linked Data du W3C (LLD XG) a défini deux types de
vocabulaires : les vocabulaires de métadonnées, et les vocabulaires de valeurs (ou référentiels devaleurs)
[LLD XG, 2011].

On englobe sous le terme de vocabulaires de métadonnées, ou jeux de métadonnées (metadata element


sets), les vocabulaires qui servent à exprimer des propriétés et des classes (des types de ressources)
réutilisables pour créer des descriptions. Ces vocabulaires sont exprimés à l'aide de schémas RDF
(RDFS)ou d'ontologies en OWL (Web Ontology Language.) Les Dublin Core metadata terms sont un
bon exemple d'un tel vocabulaire : ils fournissent un ensemble de classes et de propriétés utiles pour
décrire des ressources documentaires (exemples de classes : Agent, Document... Exemples de propriétés
: Creator, Format...) D'une certaine façon, les vocabulaires de métadonnées contribuent à créer du lien
dans le Web de données, en autorisant le partage de typologies et de relations communes. Le projet
Vocabulary Mapping Framework (http://cdlr.strath.ac.uk/VMF/) proposait une intéressante application
de ce principe, dans laquelle différents vocabulaires de métadonnées étaient reliés suivant un modèle «
hub and spoke » à une matrice commune permettant de gérer les conversions d'un format à un autre.

On parle de vocabulaire de valeurs ou référentiel de valeurs (value vocabulary) pour désigner un


ensemble de termes organisés en système de connaissance (Knowledge OrganizationSystem ou KOS)
pour être utilisés, notamment, en tant qu'objet dans les triplets. Les vocabulaires de valeur sont
généralement utilisés pour lister des valeurs contrôlées dans le cadre de notices bibliographiques. On
peut citer par exemple les LCSH(Library of Congress Subject Headings) ou encore le référentiel des
codes de langues ISO 639-2, tous deux publiés en RDF sur le site http://id.loc.gov maintenu par la
Bibliothèque du Congrès.

Grâce au principe du Web de données, l'utilisation d'un référentiel commun tel que les LCSH permet de
faire des liens entre deux jeux de données même si ceux-ci sont exprimés suivant un modèle différent,
en faisant appel à des classes et propriétés différentes. Ils partagent alors un même vocabulaire de
valeurs.La navigation de lien en liendans le Web de données doit rendre possible l'exploitation conjointe
de ressources décrites différemment, pourvu qu'elles aient un point de contact.

Pour les bibliothèques, le modèle des notices bibliographiques et d'autorités fonctionne déjà d'une
manière similaire dès lors que des liens sont créés entre ces deux types de notices, et que leur cohérence
ne repose pas que sur l'emploi de chaînes de caractères (les noms) normalisées. L'évolution vers les
nouveaux modèles avec FRBR, FRAD et FRSAD, et ensuite l'évolution des règles de catalogage vers
RDA qui s'appuie sur les mêmes concepts, prend également acte de la nécessité de mutualiser davantage
les informations par la création de liens, non plus en recopiant les notices d'une base à l'autre, mais à
l'intérieur même d'une notice. Dans ces nouveaux modèles,les notions qui peuvent prétendre au rang de
référentiel, au sens d'informations qui sont partagées et réutilisées dans différentes descriptions et
servent à faire du lien, se multiplient : l'œuvre, l'expression, les personnes, les collectivités, les familles,
les sujets. Ces notions qui deviennent centrales dans les nouveaux modèles de l'information
bibliographique pourront être mutualisées avec d'autres métiers et ainsi contribuer à porter les données
des bibliothèques sur le Web.

Le fait de s'intéresser aux données des archives et des musées implique de prendre en compte une
modélisation principalement déterminée par l'existence d'objets ou de documents uniques.

33
C'est sans doute pour cette raison que ces communautés se sont moins tôt intéressées à la problématique
des référentiels, et longtemps il n'a pas existé l'équivalent des notices d'autorité (qui toutefois se
développent aujourd'hui dans les archives avec l'EAC – encoded archival description). Dans les musées,
il existe des référentiel de valeurs de type thésaurus et classifications (ex. les différents thésaurus du
Getty pour les sujets, les lieux, les artistes, etc., ou encore le système de classification iconographique
IconClass) qui permettent de rendre tangible le contenu des objets graphiques.

Les nouveaux modèles tendent à développer l'idée de mise en relation de ressources entre elles en se
basant sur des liens, favorisant ainsi la découverte de nouvelles ressources par rebond. Les liens qui vont
permettre de connecter ainsi les ressources sont des entités telles que des personnes, des événements,
des lieux, des concepts. Or ce type d'entité, qui correspond aux notices d'autorité des bibliothèques, est
également le type même de ressources qui peuvent être partagées au-delà des limites d'un type
d'institution culturelle en particulier.

De la même manière, les référentiels particuliers que sont les classifications telles que la Dewey, la
CDU, IconClass... utilisent des valeurs chiffrées qui permettent, en plus de jouer le rôle de « hub and
spoke » que nous avons déjà souligné, de construire des services comme le multilinguisme [Dunsire,
2010].

L'utilisation des référentiels de valeurs par différents jeux de données va permettre de créer
naturellement une interopérabilité de type « hub and spoke » sans développements supplémentaires. Un
exemple : les données bibliographiques de la BnF contiennent une référence à un plan de classement
Dewey de haut niveau utilisé pour la Bibliographienationale française notamment. La conversion de ce
plan de classement en lien vers les URI fournies sur le site http://dewey.info est quasiment instantanée,
et facilitée par le fait que les URI de Dewey.info sont construite à partir de l'indice Dewey lui-même
(ex. pour la littérature française de fiction : http://dewey.info/class/843/).Ainsi, les ressources de la BnF
seront dès leur publication reliées au Web de données par ce biais, et on pourra faire des liens avec
d'autres jeux de données qui seraient reliés à Dewey.info [Wenz, 2010].

Pour aller plus loin, on peut dire que certains jeux de données, qui ne sont pas particulièrement conçus
pour jouer le rôle de référentiels devaleur, voient leur usage si largement répandu qu'ils vont finir par se
comporter exactement de la même manière. Si les responsables de jeux de données font le choix
deréutiliser des URI existantes au lieu de générer leurs propres URI locales, on aboutit au modèle de
l'interopérabilité intuitive (« follow your nose ») : on passe directement du nouveau jeu de données ainsi
publié à celui dont on réutilise les URI. Un exemple : DBPedia, extraction en RDF des données de
Wikipédia réalisée par les chercheurs de l'Université Libre de Berlin et de l'Université de Leipzig en
Allemagne, joue actuellement un rôle de « hub » pour leWeb de données : en raison de sa dimension
encyclopédique, DBPedia est souvent le premier choix pour se relier pour les jeux de données de toute
nature. Si une bibliothèque décide, plutôt que de générer des URI pour les auteurs de ses ouvrages, de
réutiliser des URI existantes, celles de DBPedia par exemple, il devient possible de naviguer directement
non seulement de cette bibliothèque à DBPedia, mais aussi directement vers le 9+jeu de données d'une
autre institution, fond d'archives, musée, qui aurait fait le même choix.

Enfin, l'alignement des référentiels entre eux peut aussi créer des passerelles. Par exemple, les Archives
nationales de France utilisent un thésaurus généraliste nommé « Thésaurus W », désormais publié dans
le Web de données(http://www.archivesdefrance.culture.gouv.fr/thesaurus/). Ce thésaurus est relié à
RAMEAU, le vocabulaire des vedettes matières de la Bibliothèque nationale de France. On pourrait
ainsi relier entre elles une ressource des archives et une ressource de la bibliothèque en utilisant ces deux
thésaurus et leurs liens.

34
III.1.4. Exemples
Nous pouvons présenter quelques exemples d'utilisation de ces principes pour construire des
applications favorisant la convergence des données.

Europeana

Le projet Europeana (http://www.europeana.eu) a pour vocation de relever le challenge de faire


converger des données de bibliothèques, d'archives, de musées et d'archives audiovisuelles. Europeana
a construit son prototype en utilisant un modèle de type « plus petit dénominateur commun », basé sur
le format ESE (Europeana Standard Elements) qui est une extension du Dublin Core simple pour lui
ajouter principalement des informations de provenance et des éléments qui permettent de construire les
liens vers des objets numériques distants stockés sur les sites des partenaires. En parallèle de cette
réalisation, Europeana développe le modèle EDM (Europeana Data Model), un modèle généraliste basé
sur les principes du Web sémantique qui doit permettre de construire un réseau d'informations pour
relier les ressources numérisées qui sont agrégées dans la bibliothèque numérique [Doerr, 2010]. Le
modèle EDM permet d'agréger des ressources qui sont décrites suivant une logique documentaire aussi
bien que suivant une logique orientée événement. C'est le réseau sémantique, c'est à dire les référentiels
qui décrivent les personnes, les lieux, les concepts etc.qui doivent faire le lien entre les ressources.

Il existe dans l'espace d'innovation d'Europeana, le Europeana Labs, un prototype qui démontre ces
principes (http://eculture.c s.vu.nl/europeana/session/search). Ce prototype contient les données du
Rijksmuseum Amsterdam et du Musée du Louvre, de la base Joconde du Ministère de la Culture
français, ainsi que du Rijksbureau voorKunsthistorische Documentatie (Netherlands Institute for Art
History) à La Haye. Des thésaurus de lieux (The Getty Thesaurus of Geographic Names), de personnes
(ULAN – The Union List of Artists Names), de concepts (WordNet et AAT – Art and Architecture
Thesaurus), et une classification iconographique (IconClass) permettent de créer du lien entre les entités
de ces différentes bases.

35
Figure 7 exemple du Centre Pompidou

Cet exemple montre que cette approche peut aussi être intéressante dans un cadre institutionnel. Dans
le cadre de sa stratégique numérique développée depuis 2007, le Centre Pompidou a créé une nouvelle
plateforme de diffusion de contenus numériques culturels sur Internet : le Centre Pompidou Virtuel. Ce
nouveau site offre dans un espace unique l’ensemble de la production numérique du Centre Pompidou
et de ses établissements associés (Bpi, Ircam) : œuvres numérisées, documents sur l’art, vidéos d’artistes,
podcasts, notices des livres de la Bpi, etc. Les contenus artistiques et culturels (œuvres du musée,
captations audiovisuelles...) sont reliés avec les événements (expositions, spectacles, conférences) et
avec d'autres ressources pertinentes (affiches, photos de vernissages, livres, archives d'artistes...),
permettant de parcourir le site de lien en lien pour découvrir ses contenus de façon intuitive.

L'un des principaux enjeux du projet était d'unifier dans un espace commun, permettant de nombreux
liens et rebonds, des données issues de différentes bases structurées suivant des formats variés (EAD
pour les bases archivistiques, MODS et Dublin Core pour les bases de bibliothèque, et des modèles
locaux pour les bases du Musée et des archives audiovisuelles). Pour cela une ontologie RDF a été créée,
et articule autour de concepts majeurs (œuvre – ressource – personne – événement – collection, et
quelques autres) toutes les données de ces différentes bases. Le Centre Pompidou Virtuel démontre ainsi
la valeur ajoutée de l'utilisation des technologies du Web sémantique pour construire des rebonds entre
des ressources et créer une expérience utilisateur innovante

36
IV. Web des objets
Dans le Web des objets, les technologies populaires du Web (HTML, JavaScript, AJAX, …) peuvent
être utilisées pour développer des applications qui font appel à des objets intelligents. Les utilisateurs
peuvent se servir des mécanismes Web bien connus (la navigation, la recherche, l'étiquetage, la mise en
cache, les liaisons) pour interagir avec eux.

De multiples prototypes utilisent ces principes, dans un environnement de capteurs, de systèmes de


supervision d'énergie et d'objets RFID sur le Web.

Tableau 1 évolution du Web, du Web 1.0 au Web 4.0 (Web des objets).

3.1. Définition

La notion du Web des objets est définie par une architecture commune et très utilisée telle que le World
Wide Web afin d'y intégrer des objets physiques, permettant ainsi de combler le fossé entre les mondes
physiques et numériques.

Ainsi tout objet connecté devient alors une ressource disponible sur le Web. Il peut donc à son tour être
utilisé dans n'importe quelle application basée sur le Web, conçue pour interagir avec le monde
physique.

Le Web des objets consiste essentiellement dans le développement de concepts, d'outils et de systèmes
pour la création et l'exploitation de réseaux d'objets associés à des ressources embarquées (puces RFID,
capteurs et actionneurs, installations informatiques complexes) accessibles par des services web :

37
Web social : partage des objets, des données ou des fonctionnalités vers une utilisation participative et
collaborative.

Web physique : applications de géolocalisation.

Web sémantique : en-tête de métadonnées analysées et indexées par des moteurs de recherche pour
permettre à des agents logiciels de partager, de réutiliser ou de combiner ces informations.

Real-Time Web : informations en temps réel livrées en temps opportun.

Web programmable : accès à des données brutes avec une interaction avec les objets physiques par le
biais d'API ouvertes.

IV.1. Objets intelligents


On définit les objets intelligents comme des objets du monde réel doués d'une capacité de
communication. Ils sont également appelés « objets connectés » ou « objets communicants ».

Les objets intelligents sont généralement limités en puissance (CPU6 , RAM7 , mémoire flash, énergie).
Typiquement, sur 1 cm², on trouvera un microprocesseur, très peu de RAM (quelques dizaines d’octets),
un peu de mémoire flash (quelques douzaines de kibioctets), des interfaces et un module radiofréquence
ou CPL8 . Lorsque ces objets disposent de piles et sont connectés en sans-fil, le point critique est leur
consommation en énergie. Les flux de données sont souvent extrêmement limités (quelques paquets par
minute, voire par mois), mais chaque bit transmis a un coût énergétique, et l’objet intelligent doit rester
autonome (sans remplacement de pile) pendant 5 à 10 ans.

 Systèmes embarqués connectés (SEC)

Tout appareil possédant une puissance de calcul limitée et/ou une source d’énergie restreinte, équipé
d’une interface de communication avec ou sans fil et de divers capteurs ou actionneurs, est un système
embarqué connecté. Il existe une quantité de systèmes embarqués connectés :

• Sun Spot

• Arduino

• Raspberry Pi

• ...

38
IV.2. Capteurs intelligents ou futés
Un capteur est un dispositif qui transforme une grandeur physique mesurée (température, pression,
niveau) en une grandeur utilisable (intensité électrique, position d’un flotteur) à l'aide d'au moins un
transducteur.

Le qualificatif intelligent correspond principalement à l'intégration dans le corps du capteur d'un organe
de calcul interne (microprocesseur, microcontrôleur), d'un système de conditionnement du signal
(programmable ou contrôlé) et d'une interface de communication bidirectionnelle

IV.3. Intégration des objets au Web


Le Web des objets propose d’embarquer des serveurs web dans les environnements systèmes qui sont
très contraints et ne disposent pas d’écran. Une des particularités communes à ces serveurs Web
embarqués est qu'ils utilisent le concept d'AJAX . Ce modèle d’application Web permet de construire
des applications Web et des sites Web dynamiques interactifs depuis un poste client à travers le protocole
HTTP. Dans le cas des objets intelligents limités en ressources, notamment ceux qui n'ont pas de
connexion filaire, les besoins des protocoles TCP/IP et HTTP ne sont pas adaptés car trop
consommateurs en termes d’énergie, de calcul, de mémoire et de bande passante. De plus, certains objets
intelligents ne les supportent pas nativement. C'est généralement le cas des réseaux de capteurs sans-fil.
Dans ce cas, l’intégration du monde physique (objets intelligents) au Web passe par l’utilisation d’un
reverse-proxy. Il sert de passerelle entre le réseau interne (les objets qui ne communiquent pas via IP)
et le Web.

Figure 8 compendium Web 2.0 au compendium physique

Une attaque de grande ampleur a eu lieu le vendredi 21 octobre 2016, mettant hors service pendant
quelques heures plusieurs grands sites Internet comme Amazon, Netflix, Twitter, Reddit, Spotify ou
Tumblr. Ces sites n'étaient pas directement sous le coup d'une attaque, ils ont été les victimes collatérales

39
d'une attaque contre un service DNS11, qui permet de corréler un nom de domaine (comme
"projet.eu.org") en une adresse IP et vice versa.

Il s'agissait d'une attaque par déni de service distribué (DDoS) ayant pour but de rendre un service
indisponible en le noyant d'informations inutiles. L’attaque s'appuyait principalement sur le botnet Mirai
: un malware qui a pris le contrôle de réseaux de machines pour mener une attaque coordonnée.
Traditionnellement, les machines infectées étaient des ordinateurs dont les mises à jour de sécurité
n'avaient pas été faites. Mais les progrès en matière d'antivirus et de solutions d'atténuation d'attaques
DDoS limitent aujourd'hui sérieusement l'intérêt d'utiliser un botnet constitué d'ordinateurs (long et
difficile à mettre en place) pour ce type d'opération (peu rentable car les rançons sont désormais rarement
payées).

La différence avec Mirai, c'est qu'il s'attaque aux objets connectés. Son modus operandi consiste à
parcourir Internet en cherchant à se connecter à toutes les adresses telnet qu'il trouve avec une liste de
62 logins/mots de passe par défaut (dont le classique admin/admin). Une fois l'appareil infecté, Mirai en
bloque certains ports pour empêcher qu'on en reprenne le contrôle. De plus, contrairement aux
ordinateurs, un botnet d'objets connectés n'a aucune utilité réelle autre qu'effectuer des attaques par déni
de service. Le fait que les objets connectés ont tendance à être allumés 24h/24 et 7j/7 facile aussi cet
usage.

40
Conclusion
En somme On constate que le Web de données permet de jeter un nouveau regard sur les
occasions d’innover qui se présentent aux professionnels de l’information. Les comportements
informationnels ayant grandement changé depuis l’arrivée du Web et des ressources
numériques ainsi que l’évolution vers une société de la connaissance, les défis sont nombreux
et les bibliothèques et institutions documentaires doivent s’adapter tout en travaillant au
processus d’évolution du catalogue, cependant Les technologies du Web sémantique offrent de
nouvelles perspectives au communicateur technique. •  Les facilités de publication, de
recomposition et de syndication de l’information lui permettent de pallier l’instabilité de
l’information et les obstacles à la communication dans l’entreprise, et de générer de la valeur
en passant du stade de l’information à celui de la connaissance.

Enfin, le Web des Objets est l’occasion de développer de nouveaux marchés autour de la protection
personnelle avec des systèmes de surveillance personnalisés par exemple.

41

Vous aimerez peut-être aussi