Vous êtes sur la page 1sur 143

Action spécifique 32 CNRS / STIC

Web sémantique
Rapport final

Éditeurs

Jean Charlet, Philippe Laublet & Chantal Reynaud

V3 – décembre 2003
Ce document est le rapport produit par les chercheurs de l’action spécifique du
CNRS Web sémantique <http://www.lalic.paris4.sorbonne.fr/stic/> rattachée au réseau
thématique pluridisciplinaire Document!: création, indexation et navigation
<http://rtp-doc.enssib.fr/> relevant du domaine Interaction humaine et cognition du
département STIC du CNRS. L’action spécifique étant terminée, son site est archivé
au sein du site du RTP où le présent rapport peut être téléchargé <http://rtp-
doc.enssib.fr/archiveas.html>. Il a pour but de donner une vue synthétique des
principaux aspects du Web sémantique à ce jour et de proposer des perspectives de
recherche. Le groupe de travail qui s’est mis en place dans le cadre de cette action a
travaillé de décembre 2001 à septembre 2003, date de finalisation de ce rapport.
Les recherches menées pour le développement du Web sémantique ne peuvent se
développer qu’en s’appuyant sur un ensemble de recherches, d’origine parfois
anciennes et provenant de secteurs différents. Les premières discussions, dans ce
groupe, ont permis de choisir un certain nombre de thèmes qui sont apparus essentiels
à discuter et à analyser afin de mieux comprendre et de mieux faire comprendre les
projets, les réalités et les perspectives ouvertes par le projet du Web sémantique. Ils
sont au nombre de six et sont repris dans la structure du rapport!: (2) langages du
Web sémantique, (3) Méta-données et annotations dans le Web sémantique, (4)
ontologies pour le Web sémantique, (5) Intégration de sources de données, (6)
adaptation et personnalisation dans le Web sémantique et (7) Web services
sémantiques. Ces thèmes doivent être vus comme des angles d’approche différents des
recherches sur le Web sémantique qui en associent souvent plusieurs simultanément.
Nous avons souhaité, en séparant ces approches, donner des entrées multiples à la
problématique du Web sémantique, entrées qui peuvent correspondre aux centres
d’intérêts de différentes communautés de chercheurs mais nous sommes bien
conscients que le Web sémantique demande une approche globale et sera ce que nous
obtiendrons si nous réalisons le même processus de globalisation sur la représentation
des connaissances que celui que le Web fit initialement sur l’hypertexte. La conclusion
synthétise les travaux du groupe et propose des pistes de recherche pour que le Web
sémantique de Tim Berners-Lee, Web de demain comme un vaste espace d’échange
de ressources entre êtres humains et machines permettant une exploitation,
qualitativement supérieure, de grands volumes d’informations et de services variés,
devienne une réalité.

iii
1 – INTRODUCTION 1

1 LE WEB SÉMANTIQUE 1
2 L’ORGANISATION DU DOCUMENT 4
3 L’ORGANISATION DES CHAPITRES 5
3.1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU POINT DE
VUE DES USAGES 5
3.2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ON PEUT
S ’ APPUYER 5
3.3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 6
3.4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 6

2 – LES LANGAGES DU WEB SÉMANTIQUE 9

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES 9
2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR LESQUELS ON
PEUT S ’ APPUYER 10
3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 11
3.1 LANGAGES D’ ASSERTIONS ET D ’ ANNOTATIONS 12
3.1.1 RDF 12
3.1.2 Cartes topiques 14
3.2 LANGAGES DE DÉFINITIONS D’ ONTOLOGIES 15
3.3 LANGAGES DE DESCRIPTION ET DE COMPOSITION DE SERVICES 17
3.3.1 UDDI 17
3.3.2 WSDL 18
3.3.3 DAML-S 18
3.3.4 XL 19
3.3.5 XDD 19
4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 20
4.1 MODULARISATION DES LANGAGES 20
4.2 MOTEURS D ’ INFÉRENCE 21
4.3 TRANSFORMATION DE LANGAGES 21
4.4 I NFÉRENCES ROBUSTES 22
4.5 LANGAGES DE RÈGLES 22

3 – MÉTA-DONNÉES ET ANNOTATIONS DANS LE WEB SÉMANTIQUE 25

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES 26
1.1 MÉTA- DONNÉES ET ANNOTATIONS SUR LE WEB SÉMANTIQUE 26
1.2 EXEMPLES D ’ UTILISATION DE MÉTA- DONNÉES ET D’ ANNOTATION ET
D’ ADAPTATION DANS LE WEB SÉMANTIQUE 28
1.2.1 Introduction 28
1.2.2 Première partie : recherche d’information et création manuelle de
cours 29
1.2.3 Seconde partie : composition dynamique de cours adaptatifs 30
1.2.4 Troisième partie : lecture et apprentissage par un apprenant 32
2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR LESQUELS ON
PEUT S ’ APPUYER 33
3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 35

v
Rapport AS « Web sémantique »

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 39

4 – ONTOLOGIES POUR LE WEB SÉMANTIQUE 43

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES 44
2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ON
PEUT S’APPUYER 45
2.1 DÉFINITIONS 45
2.1.1 Les ontologies en Ingénierie des connaissances 45
2.1.2 Que représente-t-on dans une ontologie ? 46
2.2 QUELLES MÉTHODES POUR CONSTRUIRE DES ONTOLOGIES ? 48
2.2.1 À la recherche d’une méthodologie constructive 48
2.2.2 Acquérir des ontologies à partir de corpus 48
2.2.3 Ontologie versus thesaurus 50
2.2.4 La réutilisation et les ontologies génériques 51
3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 53
3.1 LE WEB SÉMANTIQUE AU SEIN DES RECHERCHES EN RC ET IC 53
3.2 DES MÉTHODOLOGIES DE CONSTRUCTION D’ ONTOLOGIES 53
3.2.1 De bons principes méthodologiques 53
3.2.2 Acquérir une ontologie à partir de DTD 54
3.3 DES ÉDITEURS D ’ ONTOLOGIES 54
3.3.1 Introduction 54
3.3.2 PROTÉGÉ-2000 55
3.3.3 OILEd 55
3.3.4 OntoEdit 56
3.3.5 WebODE 56
3.3.6 DOE 56
3.3.7 Des outils à parfaire 57
3.4 COMPARAISON ET VERSIONS DES ONTOLOGIES 57
4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 58
4.1 VERS UNE MÉTHODOLOGIE ET DES OUTILS INTÉGRÉS 58
4.2 COMPARAISON ET FUSION DES ONTOLOGIES 59
4.3 CACHER LA COMPLEXITÉ 59

5 – L’INTÉGRATION DE SOURCES DE DONNÉES 65

1 PR ÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES 66
2 MÉTHODES , TECHNIQUES ET OUTILS EXISTANTS SUR LESQUELS
ON PEUT S ’ APPUYER 67
2.1 L’ APPROCHE MÉDIATEUR 67
2.1.1 Présentation générale 67
2.1.2 Panorama des médiateurs existants 68
2.1.3 Problèmes étudiés 69
2.2 L’ APPROCHE ENTREPÔT DE DONNÉES 69
2.2.1 Les étapes d’intégration 69
2.2.2 Les types d’intégration 71
3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 71
4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 73
4.1 VERS DES SYSTÈMES DE MÉDIATION DÉCENTRALISÉS 73
4.2 I NTÉGRATION DE DONNÉES MULTIMÉDIAS 74
4.3 I NTÉGRATION ET ANALYSE DE DONNÉES EN TEMPS RÉEL 74

vi
4.4 DE L’ INTÉGRATION DE DONNÉES À L’ INTÉGRATION DE
CONNAISSANCES 76

6 – ADAPTATION ET PERSONNALISATION DANS LE WEB SÉMANTIQUE 79

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES 80
1.1 ADAPTATION/PERSONNALISATION SUR LE WEB SÉMANTIQUE 80
1.2 EXEMPLES D ’ UTILISATION DE L’ ADAPTATION / PERSONNALISATION
DANS LE WEB SÉMANTIQUE 82
2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR LESQUELS ON
PEUT S ’ APPUYER 82
2.1 LES HYPERMÉDIAS ADAPTATIFS 83
2.2 LA MODÉLISATION UTILISATEUR 84
2.3 LES DOCUMENTS VIRTUELS PERSONNALISABLES 85
3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 87
4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 87
4.1 MODÉLISATION DES UTILISATEURS ET DES UTILISATIONS 87
4.2 PROTECTION DE LA VIE PRIVÉE 88
4.3 LA RECHERCHE D’ INFORMATION 88
4.4 SERVICES ET DOCUMENTS ADAPTATIFS /PERSONNALISABLES 89
4.5 ERGONOMIE DES SERVICES ET DOCUMENTS 89

7 – LES WEB SERVICES SÉMANTIQUES 93

1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES 93
2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR LESQUELS ON
PEUT S ’ APPUYER 95
2.1 ARCHITECTURE DE RÉFÉRENCE 96
2.2 PROBLÉMATIQUE DE L’ INTÉGRATION 97
2.3 ARCHITECTURE ÉTENDUE 99
3 TRAVAUX ET RÉSULTATS EXISTANTS AUTOUR DES WEB
SERVICES SÉMANTIQUES ET RECHERCHES FUTURES 101
3.1 MODÉLISATION DES SERVICES 102
3.1.1 DAML-S 102
3.1.2 WSFM 102
3.2 PROBLÈMES D’ AUTOMATISATION 103
3.2.1 Découverte dynamique des services 103
3.2.2 Composition des services 103
3.3 ÉVALUATION DES PERFORMANCES DES WEB SERVICES SÉMANTIQUES
104
4 CONCLUSION 106

8 – APPLICATIONS DU WEB SÉMANTIQUE 111

1 INTRODUCTION 112
2 E-COMMERCE 112
2.1 QUELS USAGES DES ONTOLOGIES POUR LE E-COMMERCE ? 112
2.2 LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek® ET
Mkbeem® 113
3 A PPLICATIONS MÉDICALES 114

vii
Rapport AS « Web sémantique »

3.1 LE PARTAGE DE RESSOURCES 115


3.2 L’ INDEXATION ET LE CATALOGAGE 115
3.3 DES SERVICES WEB POUR L ’ INTEROPÉRABILITÉ 116
3.4 ET DANS LE FUTUR ? 117
4 PORTAILS ET MÉMOIRES D ’ ENTREPRISE 117
4.1 LES SERVICES OFFERTS 117
4.2 DES PORTAILS D’ ENTREPRISE SÉMANTIQUES : Ontoknowledge® ET
COmma® 119
5 TRAITEMENT AUTOMATIQUE DES LANGUES 119
5.1 L’ USAGE D’O NTOLOGIES “ LINGUISTIQUES” DANS LES APPLICATIONS
119
5.2 LA TRADUCTION AUTOMATIQUE : Pangloss® ET Mikrokosmos® 120
6 CONCLUSION 121

9 – CONCLUSION 123

1 Q UELQUES RÉFLEXIONS 123


2 PROPOSITIONS DE RECHERCHE 124

10 – ACTIVITÉS DE L’ACTION SPÉCIFIQUE « WEB SÉMANTIQUE » 127

1 LISTE DES ACTIVITÉS DE L ’AS 127


2 PROGRAMMES 129

viii
1 – Introduction

1 LE WEB SÉMANTIQUE

L’expression Web sémantique, due à Tim Berners-Lee (Berners-Lee et al., 2001)


au sein du W3C, fait d’abord référence à la vision du Web de demain comme un vaste
espace d’échange de ressources entre êtres humains et machines permettant une
exploitation, qualitativement supérieure, de grands volumes d’informations et de
services variés. Espace virtuel, il devrait voir, à la différence du Web que nous
connaissons aujourd’hui, les utilisateurs déchargés d’une bonne partie de leurs tâches
de recherche, de construction et de combinaison des résultats, grâce aux capacités
accrues des machines à accéder aux contenus des ressources et à effectuer des
raisonnements sur ceux-ci.
Le Web actuel est essentiellement syntaxique, dans le sens que la structure des
documents (ou ressources au sens large) est bien définie, mais que son contenu reste
quasi inaccessible aux traitements machines. Seuls les humains peuvent interpréter
leurs contenus. La nouvelle génération de Web – Le Web sémantique – a pour
ambition de lever cette difficulté. Les ressources du Web seront plus aisément
accessibles aussi bien par l’homme que par la machine, grâce à la représentation
sémantique de leurs contenus.
Le Web sémantique, concrètement, est d’abord une infrastructure pour permettre
l’utilisation de connaissances formalisées en plus du contenu informel actuel du Web,
même si aucun consensus n’existe sur jusqu’où cette formalisation doit aller. Cette
infrastructure doit permettre d’abord de localiser, d’identifier et de transformer des
ressources de manière robuste et saine tout en renforçant l’esprit d’ouverture du Web
avec sa diversité d’utilisateurs. Elle doit s’appuyer sur un certain niveau de consensus
portant, par exemple, sur les langages de représentation ou sur les ontologies utilisés.
Elle doit contribuer à assurer, le plus automatiquement possible, l’interopérabilité et
les transformations entre les différents formalismes et les différentes ontologies. Elle
doit faciliter la mise en œuvre de calculs et de raisonnements complexes tout en
offrant des garanties supérieures sur leur validité. Elle doit offrir des mécanismes de
protection (droits d’accès, d’utilisation et de reproduction), ainsi que des mécanismes
permettant de qualifier les connaissances afin d’augmenter le niveau de confiance des
utilisateurs.

1
Rapport AS « Web sémantique »

Mais restreindre le Web sémantique à cette infrastructure serait trop limitatif. Ce


sont les applications développées sur celle-ci qui font et feront vivre cette vision et qui
seront, d’une certaine manière, la preuve du concept (Cf. chapitre 8). Bien sûr, de
manière duale, le développement des outils, intégrant les standards du Web
sémantique, doit permettre de réaliser plus facilement et à moindre coût des
applications ou des services développés aujourd’hui de manière souvent ad-hoc.
A titre d’illustration évoquons ici quelques applications courantes et soulignons les
goulots d’étranglements qui devraient trouver une solution via l’usage des
technologies promises du Web sémantique.
La recherche d’information (précision et complétude) : rechercher des documents
sur le Web est souvent une tâche laborieuse. Les recherches sont imprécises et
requièrent une activité de « tri manuel » des documents retournés pour espérer trouver
le(s) document(s) recherché(s) d’ailleurs sans aucune assurance. Ici, le Web
sémantique devrait largement faciliter l’appariement sémantique entre la requête de
l’utilisateur et les documents indexés (manuellement ou de manière semi-
automatique).
Maintenance de base documentaire (passage à l’échelle, cohérence) : créer un site
Web est très simple aujourd’hui grâce aux éditeurs très intuitifs du marché, mais
mettre à jour ce site et les bases documentaires associés deviennent rapidement une
très lourde tâche dès que la taille augmente. Ici le passage à l’échelle du Web (même
d’un Intranet) requiert la mise à disposition d’outils d’assistance assurant des mises à
jour (semi-) automatique maintenant la cohérence globale.
Le commerce électronique (confiance, passage à l’échelle des services, cohérence,
hétérogénéité) : le commerce de gros (B2B) ou le commerce de détails (B2C) font
appel à un assemblage de technologies de base telles la Recherche d’Information ou
bien l’intégration de sources de produits d’origine très diversifiée et donc très
hétérogène dans leur description. Une intégration aisée se réalise via une couche
d’abstraction sémantique (ontologies de domaine) donnant une vue unifiée aux
internautes clients.
Enfin dans le domaine des services immatériels (e.g. e.work et e.business) (système
de médiation sémantique, confiance et délégation) il y a une forte demande
d’intégration et d’automatisation des processus. Ceci n’est pas nouveau (cf. EDI,
EbXML) mais le Web sémantique fait espérer une véritable orchestration automatisée
de processus très courants dans le monde de l’industrie et du commerce. C’est la
filière Web Services sémantiques (dont SOAP, UDDI, WSDL ne sont que les briques
de bas) qui est ici concernée.
Pour réaliser cette vision les recherches actuellement réalisées s’appuient sur un
existant riche venant, d’abord, des recherches en représentation ou en ingénierie des
connaissances, mais aussi de bien d’autres domaines comme les bases de données, la
démonstration automatique de théorèmes, l’apprentissage automatique, les
hypermedia, l’ingéniérie linguistique ou bien encore les interactions personne-
machine. Mais l’utilisation et l’acceptation de ces recherches à l’échelle du (ou d’une
partie du) Web posent de nouveaux problèmes et défis : changement d’échelle dû au
contexte de déploiement : le Web sur Internet et ses dérivés (intranet, extranet), la
nécessité d’un niveau élevé d’interopérabilité, d’ouverture, de standardisation,
diversités des usages, distribution bien sûr et aussi impossibilité d’assurer une
cohérence globale. Comme l’écrit, en substance, Tim Berners-Lee, le Web sémantique
est ce que nous obtiendrons si nous réalisons le même processus de globalisation sur
la représentation des connaissances que celui que le Web fit initialement sur
l’hypertexte.

2
1 – Introduction

FIG. 1 1– Les couches du Web sémantique selon le W3C

Les propositions faites autour de l’infrastructure du Web sémantique doivent


permettre aussi bien la réalisation d’outils généralistes avec des utilisateurs mal définis
(un exemple pourrait être des moteurs de recherche prenant plus en compte le
contenu sémantique de documents) que la réalisation d’applications pour des tâches
plus complexes comme la gestion de connaissances au service des membres d’une
entreprise2. Suivant le niveau de complexité, on pourra parfois s’appuyer surtout sur
l’utilisation de méta-données (Cf. chapitre 3). Mais, dans beaucoup de cas, on relèvera
la nécessité de méthodes et de systèmes d’intégration de données hétérogènes (Cf.
chapitre 5) ou bien encore la nécessité de faire appel et de combiner des services Web
sémantiques (Cf. chapitre 7).
Les langages proposés sont à la base de la démarche, ne serait-ce que pour des
questions de standardisation, même si l’infrastructure ne se réduit pas à ceux-ci. Leur
problématique est présentée au chapitre 2. Ils sont souvent l’aspect du Web
sémantique le plus connu avec le schéma de la figure 1 souvent repris sous des formes
variées.
Mais les recherches sur le Web sémantique ne se limitent évidemment pas aux
langages. Celui-ci nécessite l’utilisation de ressources adaptées aux différentes tâches
comme les schémas de méta-données ou les ontologies. Le chapitre 4 discute, par
exemple, du rôle important, pour la réalisation du Web sémantique, de ces ontologies
et des méthodes et outils permettant de les construire et de les mettre en œuvre. Celles-
ci sont souvent indispensables pour l’ensemble des recherches évoquées dans ce
document et pour les applications du Web sémantique qu’elles utilisent ou non les
services Web. En effet, elles permettent aux logiciels qui communiquent entre eux
d’utiliser les mêmes termes avec la même sémantique. En résumé, il est nécessaire de :
1. développer des langages de représentation (des connaissances) de la
sémantique des contenus ou des ressources, et quand cela est nécessaire,
support de mécanismes d’inférence aux bonnes propriétés (validité,
complétude, complexité) ;
2. développer des ressources linguistiques ou conceptuelles ( espaces de noms,
thésaurus, ontologies, …) utilisant ces langages, les standardiser – si possible –
et les rendre disponibles ;
3. développer des outils et des architectures ouvertes permettant la rapide
expérimentation de ces nouvelles technologies ;
4. appliquer ces technologies à un large champ d’applications et montrer le saut
qualitatif obtenu.

1
La numérotation des figures est faite chapitre par chapitre.
2
Cette opposition a surtout valeur argumentative. Tous les intermédiaires peuvent se présenter. Si l’on prend l’exemple
du e-learning, on peut avoir aussi bien des outils qui permettent de trouver des offres de cours que des applications
dédiées utilisant, par exemple, des méta-données pour personnaliser les parcours.

3
Rapport AS « Web sémantique »

Il est clair que la diversité des recherches relevant aujourd’hui du Web sémantique
rend illusoire toute volonté d’exhaustivité pour ce document dont l’objectif est de
mettre en évidence les points importants pour la réalisation de la vision du Web
sémantique. Pour d’autres points de vue on pourra consulter les premiers livres ou
actes de conférence parus, par exemple (Cruz et al., 2002 ; Fensel et al., 2002 ;
Horrocks & Hendler, 2002) et (Hyvönen et al., 2002) ainsi que (Euzenat et al., 2002).

2 L’ORGANISATION DU DOCUMENT

Ce document a pour but de donner une vue synthétique des principaux aspects du
Web sémantique. Il est produit par les membres du groupe3 de travail et de réflexion
mis en place dès le début de l’action spécifique « Web sémantique » (décembre
2001). Les premières discussions, dans ce groupe, ont permis de choisir un certain
nombre de thèmes qui sont apparus essentiels à discuter et à analyser afin de mieux
comprendre et de mieux faire comprendre les projets, les réalités et les perspectives
ouvertes par le projet du Web sémantique. Bien sûr, comme déjà souligné, les
recherches menées pour le développement du Web sémantique ne peuvent se
développer qu’en s’appuyant sur un ensemble de recherches, d’origine parfois
anciennes et provenant de secteurs différents. Il nous a donc semblé important de
situer aussi les recherches actuelles par rapport à l’existant sur lequel elles s’appuient.
Les chapitres suivants présentent synthétiquement chacun des thèmes. Enrichis par
les discussions des versions successives par le groupe de travail, et par les différentes
activités de l’AS (journées scientifiques, contacts, …), ces chapitres ont été élaborés et
rédigés par un ou plusieurs membres du groupe du travail avec parfois la
collaboration d’autres chercheurs.
Ces chapitres, avec leurs auteurs, sont intitulés :
1 –Introduction
2 –Les langages du Web sémantique : Jean-François Baget, Etienne Canaud,
Jérôme Euzenat et Mohand Saïd-Hacid ;
3 –Méta-données et annotations dans le Web sémantique : Yannick Prié et Serge
Garlatti ;
4 –Les ontologies pour le Web sémantique : Jean Charlet, Bruno Bachimont et
Raphaël Troncy ;
5 –L’intégration de sources de données : Mohand-Saïd Hacid et Chantal
Reynaud ;
6 –Adaptation et personnalisation dans le Web sémantique : Serge Garlatti et
Yannick Prié ;
7 –Les Web services sémantiques : Patrick Kellert et Farouk Toumani ;
8 –Applications du Web sémantique : Alain Léger et Jean Charlet ;
9 –Conclusion ;
Annexe – les activités de l’AS.
Ces thèmes doivent être vus comme des angles d’approche différents des recherches
sur le Web sémantique qui en associent souvent plusieurs. Mais, nous avons souhaité,
en séparant ces approches, donner des entrées multiples à la problématique du Web
sémantique, entrées qui peuvent correspondre aux centres d’intérêts de différentes
communautés de chercheurs. Bien sûr, d’autres thèmes auraient pu s’ajouter, mais
ceux présentés ici semblent constituer le socle minimal pour la réalisation du Web
sémantique.
Dans la partie suivante, nous détaillons l’organisation en quatre parties, choisie afin de
donner un cadre de réflexion commun aux chapitres 2 à 7. Notons qu’elle n’aurait

3
Voir la liste des membres de ce groupe dans le rapport d’activités de l’AS annexé à ce document.

4
1 – Introduction

pas eu de pertinence pour le chapitre 8 sur les applications. Ce chapitre, en plus de


l’intérêt propre des réalisations présentées, met en évidence l’intérêt des perspectives
ouvertes par le Web sémantique mais aussi les difficultés qui se présentent.
Pour revenir au cadre, utilisé pour les chapitres 2 à 7, il s’est avéré plus ou moins bien
adapté aux différents chapitres. Mais il nous a paru intéressant de le présenter dans cet
avant-propos, d’abord comme un guide du document mais aussi comme un cadre de
réflexion éventuellement réutilisable pour d’autres actions spécifiques.

3 L’ORGANISATION DES CHAPITRES

3.1 P RÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU


POINT DE VUE DES USAGES
Dans la première partie de chacun des chapitres mentionnés (deux à sept), les
auteurs cherchent à montrer en quoi le Web sémantique est concerné par la
problématique développée spécifiquement dans ce chapitre et pourquoi les travaux
qui vont être présentés dans la suite sont utiles ou indispensables pour aller dans la
direction du Web sémantique.
On s’intéresse dans cette partie essentiellement au point de vue des usages et de
l’exploitation de différents types de ressources à l’aide des technologies du Web (sur
l’internet, des intranets, …). Il s’agit d’illustrer les avancées qui devraient être
possible, avec le Web sémantique par rapport à ce que le niveau actuel des théories,
méthodes et outils permet de faire.
En fait dans cette partie, il y a un peu deux types d’argumentation possibles et
parfois complémentaires, suivant les chapitres.
Du genre, soit, certes les résultats déjà obtenus sont intéressants de tels ou tels
points de vue grâce à telle ou telle technologie, mais il faut aller plus loin. Soit, les
promesses faites par, par exemple les Web services, ne seront atteignables que si
certains travaux autour du Web sémantique aboutissent.
On s’est attaché à donner des exemples de ce que l’on pourrait voir se réaliser du
point de vue des usages, si possible en hiérarchisant le court terme et le long terme.
Deux points sont évidemment importants dans cette partie. Premièrement, on peut
chercher à illustrer quelles tâches, aujourd’hui à la charge de l’utilisateur, pourront
être en partie prises en charge par des modules logiciels afin d’en décharger cet
utilisateur. Deuxièmement, on peut montrer comment disposer des infrastructures
communes du Web sémantique est soit utile, soit indispensable pour améliorer
l’utilisation et les usages des ressources Web. C’est aussi la question de l’intérêt de
certaines formes de standardisation qui est alors posée.
Notons, par contre, que ce n’est pas dans cette partie qu’on explique comment
techniquement l’utilisateur peut être déchargé par des modules logiciels et comment
s’appuyer sur des infrastructures communes. Le « comment » est plutôt expliqué dans
les parties suivantes.

3.2 M É T H O D E S , TECHNIQUES , OUTILS EXISTANTS SUR LESQUELS


ON PEUT S ’ APPUYER
Dans cette deuxième partie, on s’intéresse, de manière plus détaillée et plus
technique, à ce qui n’est pas encore du Web sémantique mais qui constitue le socle sur

5
Rapport AS « Web sémantique »

lequel viennent se positionner les travaux présentés dans le chapitre. Ceci est fait du
point de vue des théories ou des outils déjà disponibles.
Exemples : pour les langages : XML et sa galaxie, pour les Web services
sémantiques: les protocoles SOAP, UDDI, WSDL, etc.

3.3 T RAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE


On s’intéresse dans cette partie, à présenter les travaux et les résultats déjà obtenus
dans le cadre des débuts du Web sémantique sans oublier de prendre en compte :
- comment ces travaux s’articulent sur l’existant présenté dans la partie
précédente ?
- quelles sont les premières réalisations qui montrent l’impact, en terme
d’améliorations des propositions du Web sémantique. Quels sont les nouveaux
usages déjà possibles avec ces technologies ?
- quelles sont les réalisations qui sont envisageables (non encore abouties) avec
les méthodes et technologies du Web sémantique qui existent d’ores et déjà ?
On a pu souligner aussi, dans cette partie, quelles sont les questions qui apparaissent
à partir de ces recherches et les choix et débats qui se posent à partir de ces premières
expérimentations : il ne s’agit évidemment pas de trancher mais de poser les termes
du débat en les reliant si possible aux recherches qui permettraient d’avancer par
rapport à ces questions.

3.4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE


Il s’agit dans cette partie de réfléchir, de manière plus prospective, en s’appuyant
sur les recherches actuelles présentées dans la partie précédente. Il s’agit donc de
tenter d’expliquer à chaque fois les recherches qui seraient intéressantes de favoriser :
- Les problèmes qui se posent et dont la solution peut être basée sur des résultats
déjà connus, à reprendre tels quels ou à adapter et les recherches nécessaires.
- Les problèmes nouveaux non encore étudiés et les recherches nécessaires.
On pourra compléter avec plusieurs aspects qui relèveraient de coopérations soit au
niveau français, soit au niveau européen :
- Quels sont les outils ou plate-forme qu’il serait utile de développer ?
- Quelles ressources seraient intéressantes de développer et de mettre à la
disposition des différentes communautés ?
- Même question pour l’évaluation ?
- Quels standards sont importants et à favoriser ?
- Quelles sont les recherches pluridisciplinaires qu’il faudrait encourager ?
Un des aspects importants, en vue de l’adoption du Web sémantique, est la capacité
d’aider des utilisateurs non spécialistes à créer et à exploiter des ressources
exploitables dans le cadre des infrastructures et des outils proposés dans le cadre du
Web sémantique. En d’autres termes, comment cacher la complexité des technologies
du Web sémantique. Quelles seraient les recherches nécessaires sur ce plan ? Cela peut
être relié au point précédent sur les recherches pluridisciplinaires mais pas seulement.

6
1 – Introduction

RÉFÉRENCES
BERNERS-LEE Tim, H ENDLER James & L ASILLA Ora (2001). The Semantic Web, Scientific
American,.
C RUZ Isabel, D ECKER Stefan, E UZENAT Jérôme & M CGUINNESS Deborah (eds) (2002). The
emerging Semantic Web, Selected papers from the first Semantic web working symposium,
IOS press, Amsterdam (NL).
EUZENAT Jérôme (ed) (2002). Research challenges and perspectives of the Semantic Web, Report
of the EU-NSF strategic workshop, Sophia-Antipolis.
F ENSEL Dieter, H ENDLER James, L IEBERMAN Henry & WAHLSTER Wolfgang (eds) (2002).
Spinning the Semantic Web : Bringing the World Wide Web to Its Full Potential, The MIT
Press.
HORROCKS Ian & H ENDLER James (eds) (2002). The Semantic web – ISWC 2002, Proceedings
of the “First International Semantic Web Conference“, Sardinia, June 2002, LNCS 2342,
Springer.
HYVÖNEN Eero (ed) et al. (2002). Semantic Web Kick-Off in Finland, Vision, Technologies,
Research and Applications, HIT Publications.

7
2 – Les langages du Web sémantique
Jean-François Baget#, Étienne Canaud*, Jérôme Euzenat# et Mohand Saïd-Hacid*

#
INRIA Rhône-Alpes
http://www.inrialpes.fr/exmo
Jerome.Euzenat@inrialpes.fr
*
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
mshacid@liris.univ-lyon1.fr

Résumé
La manipulation des ressources du Web par des machines requiert l’expression ou
la description de ces ressources. Plusieurs langages sont donc définis à cet effet, ils
doivent permettre d’exprimer données et métadonnées (RDF, Cartes Topiques), de
décrire les services et leur fonctionnement (UDDI, WSDL, DAML-S, etc.) et de
disposer d’un modèle abstrait de ce qui est décrit grâce à l’expression d’ontologies
(RDFS, OWL). On présente ci-dessous l’état des travaux visant à doter le Web
sémantique de tels langages. On évoque aussi les questions importantes qui ne sont
pas réglées à l’heure actuelle et qui méritent de plus amples travaux.
M o t s - c l é s : RDF, Cartes Topiques, RDFS, OWL, DAML, UDDI, WSDL,
DAML-S, XL, XDD, Règles, Ontologies, Annotation, Sémantique, Inférence,
Transformation, Robustesse.

1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES

Le Web sémantique doit pouvoir être manipulé par les machines. Dans l’état actuel
de la technologie, il est alors nécessaire de disposer de langages pour :
- exprimer les données et les méta-données (cf. chapitre 3) ;
- exprimer les ontologies (cf. chapitre 4) ;

9
Rapport AS « Web sémantique »

- décrire les services (cf. chapitre 7).


Certes, il existe déjà des langages développés pour ces activités indépendamment du
Web sémantique (KIF (Genesereth & Fikes, 1992) ou WPDL (WFMC, 1999)). Ils ne
sont pas utilisés tels quels dans le Web sémantique car il est nécessaire de leur
permettre d’accepter les caractères propres au Web à savoir sa distribution (il faut être
capable de tirer parti d’information dont on ne dispose pas localement) et son
ouverture (n’importe qui peut ajouter de l’information à tout instant).
Disposer de chacun de ces langages est indispensable au développement des
fonctionnalités correspondantes du Web sémantique. Ces langages permettront
diverses applications nouvelles telles que :
- la recherche d’information fondée sur des descriptions formelles ;
- la composition de services en fonction de leurs descriptions ;
- l’interconnexion de catalogues sur la base de leur description.
Le but du Web sémantique est principalement que les services soient mieux rendus
sans engendrer de surcharge pour les utilisateurs. Dans cette perspective, les usages ne
devraient se voir impacter que positivement par les langages développés. Mais l’idée
du Web est que les usagers en soient les contributeurs. C’est en ce sens que les
langages développés pour le Web sémantique pourront avoir un impact sur ceux qui
les utiliseront pour décrire leurs ressources voire leurs services.
Par ailleurs, même si ces langages étaient destinés à rester cachés (c’est-à-dire
accessible au travers d’une application plus conviviale), les langages utilisés risquent
d’imposer indirectement leurs contraintes aux usagers. Ainsi, dans une application de
recherche d’information, l’expressivité du langage de requêtes contraindra la forme
et l’étendue de la réponse. Ces problèmes seront illustrés dans les sections 3 et 4.

2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR


LESQUELS ON PEUT S ’APPUYER

XML est le langage de base. Il a l’avantage d’être fait pour la communication en


réseau et de disposer de nombreux outils. Il est donc naturellement utilisé pour
encoder les langages du Web sémantique. Mais il a surtout la propriété d’être un
métalangage (une description de type de document, DTD, permet de décrire la
grammaire des documents admissibles).
Bien entendu, ceci ne permet pas à une machine de manipuler sémantiquement un
document. Mais cela a la vertu de permettre une manipulation syntaxique de tous les
documents. Ainsi, une annotation sera attachée de la même manière à un paragraphe,
un exposant dans une formule mathématique ou un polygone dans un dessin parce
que ceux-ci sont encodés en XML. C’est cette propriété qui permet d’insérer des
éléments du Dublin-core dans une ontologie et d’annoter des documents à l’aide de
la connaissance formalisée.
Cette compatibilité entre les langages décrits en XML permet de construire les
langages présentés ci-dessous et de les considérer comme des documents XML.
Mais XML est limité car il ne dispose pas d’une sémantique (au sens logique de
sémantique dénotationnelle d’un langage). Rien ne justifie donc les raisonnements ou
manipulations appliquées à des documents XML. C’est pourquoi il est nécessaire de
développer d’autres langages.
La seconde source d’inspiration est celle de la représentation de connaissance et
notamment les langages de représentation de connaissance que sont les logiques de
descriptions et les réseaux sémantiques (que nous considérerons ici sous leur aspect

10
2 – Les langages du Web sémantique

plus avancé des graphes conceptuels). Ces langages permettent d’exprimer la


connaissance de nature ontologique (décrire des classes d’entités, les relier par
spécialisation, décrire et typer leurs attributs) ou assertionnelle (décrire l’état du
monde par des individus en relations entre eux, individus et relations étant décrits dans
l’ontologie).
Depuis une quinzaine d’années ces langages sont définis par leur sémantique et
caractérisés par leur décidabilité et complexité. Ceci permet de développer des
moteurs d’inférence dont on connaît clairement les limites d’application.
Ces langages ont certaines limitations dans la prise en compte de la nécessaire
ouverture du Web (relations entre objets distribués, ajout de connaissance incontrôlé);
ils sont donc reconsidérés dans ce contexte.
Enfin, dans le cadre des descriptions de services, les dernières sources d’inspiration
sont les langages de description de plans et en particulier les langages de description
de “Workflow” permettant d’exprimer de manière abstraite des activités (ou tâches)
et leurs dépendances (séquence, parallélisme, synchronisation…). Ces langages sont
exécutables par des logiciels qui contrôlent l’exécution du plan à l’aide d’événements
prédéfinis (envoi d’un mail, remplissage d’un formulaire, signature d’un
engagement…). Le langage le plus emblématique est certainement WPDL, proposé
par la “Workflow Management Coalition”, parce qu’il est compris par différents
logiciels de workflow. Il a été récemment décliné en XML (XPDL (WFMC, 2002)).
Ces langages sont en général destinés à être supervisés par les humains qui
exécutent les tâches du workflow, ils doivent donc acquérir plus de rigueur dans la
description des tâches pour pouvoir être manipulés par des machines dans le cadre du
Web sémantique.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB


SÉMANTIQUE

Il semble clair que le Web sémantique ne pourra voir le jour sans un minimum de
standardisation. Différents consortiums et organismes mettent donc les acteurs autour
d’une table pour définir les langages à utiliser dans le Web sémantique. L’intérêt de
cette approche standardisante est bien sûr d’assurer des traitements uniformes sur
l’ensemble des documents écrits dans ces langages. Un inconvénient peut être le gel
d’autres travaux de recherche plus originaux (Ginsberg, 1991). Une approche moins
contraignante aurait pu être la définition de métalangages : en permettant de décrire
des langages (que ce soit par leur sémantique, en décrivant leurs règles
d’interprétation, ou de façon opérationnelle, en fournissant des règles encodant les
mécanismes de raisonnement), cette standardisation n’aurait pas gêné l’ouverture vers
d’autres travaux (Euzenat, 2000).
Les travaux de standardisation sont aujourd’hui bien avancés : RDF et SOAP sont
des recommandations du W3C, TopicMaps une norme ISO, et OWL est sur les pas de
RDF.
Nous décrirons ici trois sortes de langages :
- des langages d’assertions (RDF et cartes topiques) ;
- un langage de définition d’ontologies pour le Web (OWL) ;
- différents langages de description et de composition de services (UDDI et
autres).
Dans les deux premiers cas nous nous appuierons principalement sur les langages
proposés par le W3C qui a réussi à faire interagir un grand nombre d’acteurs tant

11
Rapport AS « Web sémantique »

académiques qu’industriels (et à bâtir sur différents langages proposés


antérieurement). Ces langages sont munis d’une sémantique formelle, en théorie des
modèles. Un des intérêts de munir les langages d’une sémantique formelle est de
pouvoir définir de façon naturelle la notion de conséquence : un document RDF est
conséquence d’un autre veut dire que toute information contenue dans ce dernier est
aussi contenue dans le premier ; et une classe OWL est conséquence d’une autre veut
dire que toutes les instances de la seconde sont des instances de la première. Ceci
permet de comparer des faits (dans RDF) ou des classes (dans OWL), et donc permet
d’interroger une base de documents : l’utilisateur peut par exemple définir un
document RDF (la question), et lancer un mécanisme de recherche sur le Web pour les
documents RDF dont la question est une conséquence. Ce seront les réponses à cette
question. Ceci ne fait cependant pas de RDF un vrai langage de requêtes. Bien qu’il
puisse répondre à certaines questions (« y a-t-il un train de Grenoble à Paris partant
entre 8h00 et 9h30 demain ? »), il ne permet pas d’agir (dans ce cas, réserver les
billets). Il faudrait pour cela encapsuler ces langages dans des langages de requêtes
similaires à ceux que l’on peut trouve en bases de données, à moins que cette tâche ne
soit totalement dévolue aux services.

3.1 LANGAGES D ’ ASSERTIONS ET D ’ ANNOTATIONS


Les assertions affirment l’existence de relations entre des objets. Elles sont donc
adaptées à l’expression des annotations que l’on veut associer aux ressources du Web.
On évoquera principalement RDF ici car il nous semble présenter des avantages
déterminants pour la manipulation informatique, mais le formalisme des cartes
topiques mérite que l’on s’y intéresse. Une comparaison des deux peut être trouvée
dans (Garshol, 2003).

3.1.1 RDF
RDF (Lassila & Swick, 1999) (Klyne & Carroll, 2003) est un langage formel qui
permet d’affirmer des relations entre des « ressources ». Il sera utilisé pour annoter
des documents écrits dans des langages non structurés, ou comme une interface pour
des documents écrits dans des langages ayant une sémantique équivalente (des bases
de données, par exemple).

Un document RDF est un ensemble de triplets de la forme <sujet, prédicat, objet>.


Les éléments de ces triplets peuvent être des URIs (Universal Resource Identifiers
(Berners-Lee et al., 1998)), des littéraux ou des variables. Cet ensemble de triplets peut
être représenté de façon naturelle par un graphe (plus précisément un multi-graphe
orienté étiqueté), où les éléments apparaissant comme sujet ou objet sont les sommets,
et chaque triplet est représenté par un arc dont l’origine est son sujet et la destination
son objet. Ce document sera codé en machine par un document RDF/XML
(Beckett, 2003) ou N3, mais est souvent représenté sous une forme graphique (voir
figure x.1).

12
2 – Les langages du Web sémantique

http://www.sncf.org/rdf/trains/ter85158

http://www.travel-ont.org/departure

http://www.villes.fr/rdf/Grenoble

http://www.travel-ont.org/localisation
http://www.travel-ont.org/time

13h27

F IG. 1 — Un graphe RDF.

La figure x.1 présente une partie d’un document RDF (il s’agit d’un exemple
fictif, montrant comment la SNCF pourrait donner une interface RDF à sa base de
données de voyages). Les termes de la forme http://... sont des URIs qui identifient des
ressources définies de façon unique. Notons dans les URIs que certaines ressources
sont spécifiques à la SNCF (le train), et que d’autres (departure…) sont issus d’une
ontologie dédiée aux voyages. Les objets d’un triplet qui sont des littéraux sont
représentés dans un rectangle (ici, 13h27). Le sommet non étiqueté représente une
variable. Intuitivement, ce graphe peut se comprendre comme « le train TER 85158
part de Grenoble à 13h27 ». Cette sémantique « intuitive » ne suffisant pas à un
traitement automatique, il faut munir les documents RDF d’une sémantique formelle.
La sémantique d’un document RDF est exprimée en théorie des modèles
(Hayes, 2003). L’objectif est de donner des contraintes sur les mondes qui peuvent
être décrits par un document RDF. L’utilisation de la théorie des ensembles pour
décrire ces modèles a deux intérêts : la généricité de la notion d’ensemble (fondement
des mathématiques ) et son universalité (culture commune pour ceux qui vont
s’intéresser à cette sémantique).
Un document RDF peut aussi être traduit en une formule de la logique positive
(sans négation), conjonctive, existentielle du premier ordre (sans symboles
fonctionnels), dont les modèles sont identiques à ceux définis par la sémantique
directe en théorie des modèles. À chaque triplet <s, p, o> on associe la formule
atomique p(o, s), où p est un nom de prédicat, et o et s sont des constantes si ces
éléments sont des URIs ou des littéraux dans le triplet, et des variables sinon. Le
document RDF se traduit par une formule qui est la fermeture existentielle de la
conjonction des formules atomiques associées à ses triplets. Ainsi, le document RDF
utilisé précédemment en exemple se traduit par la formule :
x (departure(ter85158, x) time(x, 13h27) localisation(x, Grenoble))
L’information contenue dans un document RDF R1 est déjà présente dans le
document RDF R2 si et seulement si la formule logique associée à R1 est conséquence
de celle associée à R2. Cette « traduction logique » de RDF permet de l’identifier à de
nombreux autres paradigmes de raisonnement : la logique, bien sûr, mais aussi les
bases de données (Datalog positif) ou les graphes conceptuels.
Bien qu’un mécanisme d’inférence adéquat et complet par rapport à la sémantique
(on ne trouve que des conséquences, et toutes les conséquences) soit évoqué dans les
propositions du W3C, ceci n’entre pas dans la standardisation. L’objectif est de laisser
la plus grande liberté à ceux qui vont implémenter des outils fondés sur RDF, en

13
Rapport AS « Web sémantique »

n’établissant pas la certification sur les mécanismes de raisonnements. Le


rapprochement avec les graphes conceptuels simples permet cependant de préciser ce
mécanisme de raisonnement. Il s’agit d’un homomorphisme de graphes étiquetés,
pour lequel des algorithmes efficaces (bien qu’il s’agisse d’un problème NP-
complet) ont été développés.
RDF propose aussi certains mots-clés réservés, qui permettent de donner une
sémantique particulière à des ressources. Ainsi, on peut représenter des ensembles
d’objets ( rdf:bag), des listes ( rdf:sequence), des relations d’arité quelconque
( rdf:value)… Ce ne sont cependant pas de réelles extensions du langage présenté ci-
dessus, puisqu’une transformation (la réification) permet d’exprimer cette
« sémantique étendue » dans le langage de base : R1 est une conséquence (sémantique
étendue) de R2 si et seulement si réif(R 1) est une conséquence (au sens précédent) de
réif(R 2).
RDFS (pour RDF Schéma (Brickley et Guha, 1999; 2003)) a pour but d’étendre le
langage en décrivant plus précisément les ressources utilisées pour étiqueter les
graphes. Pour cela, il fournit un mécanisme permettant de spécifier les classes dont les
ressources seront des instances, comme les propriétés. RDFS s’écrit toujours à l’aide
de triplets RDF, en définissant la sémantique de nouveaux mots-clés comme :
- <ex:Vehicule rdf:type rdfs:Class> la ressource ex:Vehicule a pour type
rdfs:Class, et est donc une classe ;
- <sncf:TER8153 rdf:type ex:Vehicule> la ressource sncf:TER8153 est une
instance de la classe ex:Vehicule que nous avons définie ;
- <sncf:Train rdfs:subClassOf ex:Vehicule> la classe sncf:Train est une sous-
classe de ex:Vehicule, toutes les instances de sncf:Train sont donc des
instances de ex:Vehicule ;
- <ex:localisation rdf:type rdfs:Property> affirme que ex:localisation est
une propriété (une ressource utilisable pour étiqueter les arcs) ;
- <ex:localisation rdfs:range ex:Ville> affirme que toute ressource utilisée
comme extrémité d’un arc étiqueté par ex:localisation sera une instance de la
classe ex:Ville.
Ce besoin de spécifier davantage les classes est à l’origine du langage dédié aux
définitions de classes : OWL.

3.1.2 Cartes topiques


Les cartes topiques (“Topic maps” (Biezunski et al., 1999)) sont un standard ISO
issu de HyTime dont le but était d’annoter les documents multimédia. Issu de SGML,
il s’est vu récemment attribuer une syntaxe XML (XTM (Pepper & Moore, 2001)).
Par ailleurs, un groupe de l’ISO s’occupe de définir un langage de requêtes pour les
cartes topiques (TMQL).
Les cartes topiques sont bâties autour de quatre notions primitives (nous faisons ici
abstraction des sujets) :
- les “topics” que l’on peut comprendre comme des individus des langages de
représentation de connaissances ;
- les noms donnés aux topics : l’une des originalités des cartes topiques est la
séparation des concepts et de leurs noms. Cela permet d’avoir plusieurs noms
pour le même concept (et donc d’avoir des cartes topiques multilingues) et
des noms partagés par plusieurs concepts ;
- les occurrences sont des “proxis” d’entités externes qui peuvent ainsi être
indexés par les topics (ou les entités littérales lorsque celles-ci sont
représentables) ;
- les portées, qui sont parfois vues comme une quatrième dimension, permettent
de spécifer le contexte dans lequel une relation est valide.

14
2 – Les langages du Web sémantique

Par exemple, le topic de vol est instancié par myFlight, il a pour nom « vol pour
Boston » dont la portée est celle de mes discussions au déjeuner avec les collègues et
« flight AF322 » lors de discussions avec l’immigration américaine.

Flight
class

instanceOf
instance
myFlight event location BOS
landAt
topic

AF322 namenamed named


name Vol pour Boston
Collègue
scope
US
Immigration Déjeuner
F IG. 2 — Une carte topique.

Si ces quatre dimensions sont spécifiées de manière indépendante, elles sont en


réalité interdépendantes : les topics et les noms ont des portées, les topics ont des
noms, les portées sont des ensembles de topics…).
Dans la nouvelle syntaxe des cartes topiques, celles-ci sont représentées par des
graphes comprenant 3 types de nœuds (topic, association, portée) et un certain
nombre de types d’arcs (instance, occurrence, portée, nom). Les relations sont
représentées par des nœuds dont les arcs sortants portent des étiquettes identifiant leur
rôle. Par ailleurs, différentes interprétations sont données à ces primitives suivant les
étiquettes placées sur les arcs et les nœuds. Autant dire que les cartes topiques ne
disposent pas d’une sémantique claire et que, au contraire, ses concepteurs ont
tendance à considérer que la richesse du langage tient dans les interprétations
multiples que l’on peut en faire.
Ceci ne le rend pas un candidat très souhaitable pour le Web sémantique malgré ses
qualités indéniables. Il existe cependant des outils permettant de tirer parti de manière
utile des cartes topiques qui sont utilisées dans un certain nombre d’applications.

3.2 LANGAGES DE DÉFINITIONS D ’ ONTOLOGIES


RDF, langage dédié à l’expression d’assertions sur les relations entre objets, s’est
heurté à la nécessité de définir les propriétés des classes dont ces objets sont instances.
Cependant, l’extension à RDFS ne fournit que des mécanismes primitifs pour
spécifier ces classes. Le langage OWL (Dean & Schreiber 2003), quant à lui, est dédié

15
Rapport AS « Web sémantique »

aux définitions de classes et de types de propriétés, et donc à la définition


d’ontologies. Inspiré des logiques de descriptions (et successeur de DAML+OIL (van
Harmelen et al., 2001)), il fournit un grand nombre de constructeurs permettant
d’exprimer de façon très fine les propriétés des classes définies. La rançon de cette
expressivité est l’indécidabilité du langage obtenu en considérant l’ensemble de ces
constructeurs. C’est pour cela que OWL a été fractionné en trois langages distincts :
- OWL LITE ne contient qu’un sous-ensemble réduit des constructeurs
disponibles, mais son utilisation assure que la comparaison de types pourra
être calculée (un problème de NP, donc « simple » en représentation de
connaissances) ;
- OWL DL contient l’ensemble des constructeurs, mais avec des contraintes
particulières sur leur utilisation qui assurent la décidabilité de la comparaison
de types. Par contre, la grande complexité de ce langage (un de ses fragments
est P-SPACE-complet) semble rendre nécessaire une approche heuristique ;
- OWL FULL, sans aucune contrainte, pour lequel le problème de comparaison
de types est vraisemblablement indécidable.
La syntaxe d’un document OWL est donnée par celle des différents constructeurs
utilisés dans ce document. Elle est le plus souvent donnée sous la forme de triplets
RDF. La sémantique de chaque constructeur est donnée en théorie des modèles (Patel-
Schneider et al., 2003). Elle est directement issue des logiques de descriptions. La
sémantique associée aux mots-clés de OWL est plus précise que celle associée au
document RDF représentant une ontologie OWL (elle permet plus de déductions).
Nous donnons ici l’ensemble des constructeurs utilisés dans OWL, dans une
syntaxe simplifiée (les mots-clés réservés de OWL, habituellement préfixés de OWL :
sont soulignés), ainsi que leur « sémantique intuitive ». Les constructeurs de OWL
LITE sont cités les premiers.
OWL LITE
- Reprend tous les constructeurs de RDF (c’est-à-dire fournit des mécanismes
permettant de définir un individu comme instance d’une classe, et de mettre
des individus en relation),
- Utilise les mots-clés de RDFS ( rdfs:subClassOf, rdfs:Property,
rdfs:subPropertyOf, rdfs:range, rdfs:domain), avec la même sémantique,
- Permet de définir une nouvelle classe ( owl:Class) comme étant plus
spécifique ou équivalente à une intersection d’autres classes,
- owl:sameIndividualAs et owl:differentIndividualFrom permettent d’affirmer
que deux individus sont égaux ou différents,
- Des mots-clés permettent d’exprimer les caractéristiques des propriétés :
owl:inverseOf sert à affirmer qu’une propriété p est l’inverse de p’ (dans ce
cas, le triplet <s p o> a pour conséquence <o p’ s>) ; d’autres caractéristiques
sont par exemple la transitivité ( owl:TransitiveProperty), la symétrie
( owl:SymmetricProperty),
- owl:allValuesFrom associe une classe C à une propriété P. Ceci définit la
classe des objets x tels que si <x P y> est une relation, alors la classe de y est C
(quantification universelle de rôle en logique de descriptions).
owl:someValuesFrom encode la quantification existentielle de rôle,
- owl:minCardinality (resp. owl:maxCardinality) associe une classe C, une
propriété P, et un nombre entier n. Ceci définit la classe des objets x tels qu’il
existe au moins (resp. au plus) n instances différentes y de C avec <x P y>.
Pour des raisons d’efficacité algorithmique, OWL LITE ne permet d’utiliser
que des entiers égaux à 0 ou 1. Cette restriction est levée dans OWL DL.

16
2 – Les langages du Web sémantique

OWL DL
- Reprend tous les constructeurs d’OWL LITE,
- Permet tout entier positif dans les contraintes de cardinalité,
- owl:oneOf permet de décrire une classe en extension par la liste de ses
instances,
- owl:hasValue affirme qu’une propriété doit avoir comme objet un certain
individu,
- owl:disjointWith permet d’affirmer que deux classes n’ont aucune instance
commune,
- owl:unionOf et owl:complementOf permettent de définir une classe comme
l’union de deux classes, ou le complémentaire d’une autre classe.
OWL FULL
- reprend tous les constructeurs d’OWL DL,
- reprend tout RDF Schema,
- permet d’utiliser une classe en position d’individu dans les constructeurs.
Nous n’avons pas cité ici certains constructeurs, qui peuvent être trivialement
implémentés grâce à ceux que nous avons évoqués (par exemple owl:sameClassAs,
servant à affirmer que deux classes sont identiques, peut être écrit grâce à deux
rdfs:subClassOf). Il serait intéressant d’identifier quels sont les constructeurs primitifs
nécessaires pour ces langages, et ceux qui ne sont que des macros.
Des moteurs d’inférence ont déjà été implémentés pour des sous-ensembles
significatifs de OWL DL (dans le cadre des logiques de descriptions) et peuvent être
utilisés dans divers outils (OilEd, Protégé…).

3.3 LANGAGES DE DESCRIPTION ET DE COMPOSITION DE SERVICES


Cette partie a pour but de décrire différents langages, architectures et standards
concernant les services sur le Web (ou services Web, cf. chapitre 7). De nouveaux
langages dédiés aux services Web sont régulièrement proposés par les organismes de
recherche industriels et universitaires. Il ne faut pas perdre de vue que la plupart des
langages présentés sont complémentaires et ne répondent pas aux mêmes besoins.
Nous allons donc présenter les objectifs et les fonctionnalités des principaux langages
consacrés aux services sur le Web.

3.3.1 UDDI
Le protocole UDDI (Universal Description, Discovery and Integration (Curbera et
al., 2002)) est une plate-forme destinée à stocker les descriptions des services Web
disponibles, à la manière d’un annuaire de style « Pages Jaunes ». Des recherches sur
les services peuvent être effectuées à l’aide d’un système de mots-clés fournis par les
organismes proposant les services. UDDI propose également un système de « Pages
Blanches » (adresses, numéros de téléphone, identifiants…) permettant d’obtenir les
coordonnées de ces organismes. Un troisième service, les « Pages Vertes », permet
d’obtenir des informations techniques détaillées à propos des services et permettent de
décrire comment interagir avec les services en pointant par la suite vers un PIP
RosettaNet ou une “service interface” WSDL. Le vocabulaire utilisé pour les
descriptions obéit à une taxonomie bien précise afin de permettre une meilleure
catégorisation des services et des organismes.
De par sa simplicité, UDDI permet de stocker l’ensemble des services Web sur un
seul serveur, dont le contenu est dupliqué et synchronisé sur plusieurs sites miroirs.
Des implémentations d’UDDI ont été réalisées, et on peut d’ores et déjà enregistrer

17
Rapport AS « Web sémantique »

son entreprise et les services proposés sur UDDI. Cependant, on peut s’interroger sur
la réelle efficacité en matière de recherche d’une architecture aussi simple où la
sémantique des données est inexistante et où la description des services se limite à des
mots-clés sur lesquels aucune approximation n’est possible. De plus, il n’est pas
certain que des serveurs uniques puissent supporter la charge du nombre de services à
venir.

3.3.2 WSDL
WSDL (Curbera et al., 2002) est un langage basé sur XML servant à décrire les
interfaces des services Web, c’est-à-dire en représentant de manière abstraite les
opérations que les services peuvent réaliser, et cela indépendamment de
l’implémentation qui en a été faite. Il ne comporte pas de moyen de décrire de
manière plus abstraite les services (tâche plutôt dévolue à DAML-S ou à UDDI), ni de
moyen de conversation et de transaction de messages (tel que SOAP ou d’autres
implémentations spécifiques), mais est en général utilisé comme passerelle entre ces
représentations de haut niveau et de bas niveau.
Dans WSDL, les services sont définis à l’aide de “endpoints”. Les “endpoints”
sont des ensembles de ports, c’est-à-dire d’adresses sur le réseau associées à certains
protocoles et formats de données. Cela va permettre de fournir un cadre abstrait et
indépendant des implémentations pour les communications avec les services.
Il y a quatre types d’opérations de base définies dans WSDL : « sens-unique »,
« double-sens » requête-réponse, « double-sens » sollicitation-réponse, et « sens-
unique » de message de notification. Les messages et les opérations étant définis de
manière abstraite, ce qui permet de faire correspondre ces représentations avec des
langages plus abstraits (tel que DAML-S) ; de plus, la réutilisation en est simplifiée.
Les messages sont typés, mais on ne peut pas définir de contraintes logiques entre les
paramètres d’entrées/sorties au sein de WSDL.

3.3.3 DAML-S
DAML-S (Ankolenkar et al., 2002) est un langage de description de services basé
sur XML utilisant le modèle des logiques de descriptions (et plus précisément
DAML+OIL, voir plus haut). Son intérêt est qu’il est un langage de haut niveau pour
la description et l’invocation des services Web dans lequel la sémantique est incluse,
contrairement par exemple à UDDI. DAML-S est composé de trois parties
principales :
- Service Profile, qui permet la description, la promotion et la découverte des
services, en décrivant non seulement les services fournis, mais également des
préconditions à la fourniture de ce service, comme « avoir une carte bleue
valide » ou « être membre d’un des pays de l’Union Européenne ». Les
recherches sur les services peuvent se faire en prenant n’importe quel élément
de Service Profile comme critère.
- Service Model, qui présente le fonctionnement du service en décrivant dans le
détail et de manière relativement abstraite les opérations à effectuer pour y
accéder. Certains éléments du Service Model peuvent être utilisés à la manière
du Service Profile afin de fournir des informations supplémentaires à un
utilisateur pour qui les opérations à effectuer seraient également un critère de
choix. C’est le Service Model qui va permettre une composition des services
si besoin est. Il permet également d’effectuer un contrôle poussé du
déroulement du service.
- Service Grounding va présenter clairement et dans le détail la manière
d’accéder à un service. Tout type abstrait déclaré dans le Service Model s’y
verra attribuer une manière non ambiguë d’échanger l’information. C’est

18
2 – Les langages du Web sémantique

dans cette partie que le protocole et les formats des messages entre autres sont
spécifiés.
Pour l’instant, DAML-S est un langage qui est encore en cours de spécification,
mais dont les grandes lignes sont déjà tracées. Un moyen de l’interfacer avec WSDL a
été proposé afin de pallier son absence de gestion d’échange de messages, ce qui
permettra par exemple d’utiliser SOAP pour échanger des messages XML. DAML-S
pourra alors être réservé à une description abstraite et sémantique des services,
permettant également d’exprimer des contraintes sur les paramètres et d’utiliser des
constructeurs (comme « si…alors…sinon… »).
DAML-S est une des seules solutions proposant une réelle sémantique des données,
et pas seulement des champs prédestinés par la structure des standards ou par des
« feuilles de styles » utilisées pour décrire les services ; de plus, son utilisation des
logiques de descriptions pour modéliser les services permet une grande puissance
d’expression, que ne possèdent pas les autres systèmes.

3.3.4 XL
XL (Florescu et al., 2003) est une plate-forme destinée aux services Web, axée sur
XML, utilisant un langage propre de haut niveau (XL), et prenant en compte les
technologies du W3C (WSDL, SOAP) afin de permettre une interopérabilité des
applications XL avec d’autres applications écrites dans un langage autre que XL. Tout
service Web est considéré comme une entité recevant des messages XML et
transmettant en retour des messages XML, avec (achat d’un livre) ou sans
(consultation de la météo) modification du monde. Les types de données utilisés sont
ceux de XQuery, développé lui aussi par le W3C et dont est inspirée la syntaxe de XL.
La principale motivation de XL est de créer une plate-forme qui permette aux
programmeurs d’implémenter rapidement des services Web en permettant une
réutilisabilité maximale. Le langage de requête est un langage déclaratif (à la manière
de SQL) et peut donc être optimisé de manière automatique. De plus, comme ce
langage est de haut niveau, il permet une composition facilitée des services. XL
intègre également une politique de sécurité basée sur J2EE (Java 2 Enterprise
Edition), et met l’accent sur le traitement des instructions en mode pipeline, afin
d’être plus réactif face à des sources XML importantes ou continues.
Cependant, même si XL permet de manipuler relativement facilement des services
Web, il ne permet pas de les décrire autrement que par des entrées/sorties XML, et la
sémantique est absente, contrairement à DAML-S par exemple. Bien que ce système
soit encore en phase de spécification, un prototype de démonstration a été
implémenté.

3.3.5 XDD
XDD (XML Declarative Description) (Wuvongse et al., 2001) est un langage
capable de décrire toute la sémantique d’une ressource Web en ajoutant un langage
déclaratif à la syntaxe d’XML.
Une description utilisant XDD est un ensemble d’éléments XML classiques,
d’éléments XML étendus à l’aide de variables, et de relations entre les éléments XML
sous forme de clauses. Un élément XML classique représente une unité sémantique et
peut se substituer à un objet (au sens large) du domaine d’application. Un élément
étendu, lui, permettra de représenter une information implicite ou un ensemble
d’unités sémantiques. Les clauses peuvent exprimer des règles, des relations
conditionnelles, des contraintes d’intégrité, et des axiomes ontologiques. Parmi les
axiomes importants manquants dans XML et RDF (Lassila & Swick, 1999) (Klyne &
Carroll, 2003) mais implémentés dans XDD, on peut relever la symétrie, la
composition, et la relation inverse.

19
Rapport AS « Web sémantique »

XDD peut également représenter tous les langages balisés basés sur XML, tels que
SDL ou ebXML. Il peut de plus représenter de manière simple toutes les applications
XML ayant des conventions standardisées portant sur la sémantique, la syntaxe et la
structure, pour un certain nombre de domaines spécifiques, tels que :
- WML (Wireless Markup Language);
- MathML (Mathematical Markup Language);
- RDF;
- XMI (XML Metadata Interchange Format, technologie recommandée par le
‘Object Management Group’ pour décrire des diagrammes UML en XML).
Une fois encodés en XDD, ces langages peuvent avoir leur propre sémantique
définie formellement. XDD permet dès lors la convergence entre la sémantique et la
syntaxe de ces langages, accentuant l’interopérabilité et le développement
indépendant des produits.

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Le travail sur les langages du Web sémantique n’en est qu’à son début. Ces
langages devront passer le crible des applications pour déterminer s’ils doivent être
amendés ou totalement abandonnés. En attendant, ils laissent derrière eux un certain
nombre de questions qui méritent de plus amples recherches afin de faciliter la
compréhension de ce que pourra être le Web sémantique.

4.1 M ODULARISATION DES LANGAGES


Nous avons vu que RDF s’intéresse à des assertions sur les relations entre objets,
tandis que OWL s’intéresse à décrire les classes de ces objets. Il s’agit d’un
découpage assez naturel, entre connaissances factuelles et les connaissances
ontologiques. Cette structuration des connaissances a été apportée à la fois par les
logiques de descriptions (A-Box et T-Box (Baader et al., 2003)) et les graphes
conceptuels (graphe et support) par rapport à leur ancêtre commun, les réseaux
sémantiques. Au niveau des usages, cette séparation est tout aussi importante : la
conception des ontologies relève du domaine d’un spécialiste, tandis que les
connaissances factuelles, utilisant une ontologie donnée, sont du ressort d’un
utilisateur averti. Il aurait été naturel de cloisonner RDF et OWL suivant ces
spécifications, mais le besoin d’augmenter l’expressivité de chacun des langages
semble avoir été le plus fort. L’extension de RDF à RDFS mélange dans un même
graphe deux niveaux d’abstraction très différents, et ce manque de structuration
comme de lisibilité est un des principaux reproches faits aux réseaux sémantiques
(avec le manque d’une sémantique formelle, défaut auquel RDF remédie). De la
même façon, on peut coder en OWL DL des connaissances factuelles qui sont du
ressort de RDF. Il y a donc un manque de lisibilité sur les objectifs de ces langages,
aggravé par leur multiplicité (RDF, RDFS, OWL LITE, OWL DL, OWL FULL).
Un découpage plus clair entre RDF et OWL aurait permis de développer d’une part
des ontologies, et d’autre part des documents RDF dont les ressources seraient des
classes ou des propriétés décrites dans un document OWL. Cette utilisation commune
des deux langages, pourtant naturelle, n’a pour l’instant pas été étudiée. Même si la
sémantique de ce langage RDF+OWL se définit immédiatement par les sémantiques
des langages qui le composent, d’importants problèmes théoriques se posent : si des
algorithmes sont connus pour raisonner sur des documents RDF (homomorphisme de
graphe), et pour raisonner dans certains sous-ensembles de OWL (travail réalisé pour
les logiques de descriptions), la juxtaposition RDF+OWL ne permet pas la simple
juxtaposition des algorithmes (des problèmes ouverts équivalents peuvent se retrouver

20
2 – Les langages du Web sémantique

en BD pour l’inclusion de requêtes). Même le découpage de OWL (LITE, DL, FULL)


pourrait être remis en cause par la complexité des sous-langages de RDF+OWL
correspondant.
Par ailleurs, les besoins différents des utilisateurs peuvent nécessiter un découpage
différent de celui retenu par le W3C. Ainsi, on pourrait préférer à OWL DL un
langage dont la disjonction est exclue et la sémantique de la négation intuitionniste et
où les classes peuvent être considérée comme des instances. Un tel langage n’est pas
défini actuellement. Pour en bénéficier, il aurait fallu développer une approche plus
modulaire des langages du Web sémantique pour laquelle des travaux seraient les
bienvenus.

4.2 M OTEURS D ’ INFÉRENCE


Le développement d’outils efficaces pour raisonner dans le Web sémantique sera
un critère décisif pour l’adoption de tel ou tel langage. Ce sont ces moteurs
d’inférence qu’il faudra encapsuler dans des systèmes de requêtes plus évolués afin
d’interroger le Web et agir sur les réponses obtenues.
Or, pour le plus simple de ces langages (RDF), la subsomption est un problème NP-
complet. Des algorithmes efficaces ont pourtant été développés pour calculer les
homomorphismes de graphes qui répondent à ce problème (basés sur les
améliorations de rétrogression développés pour les réseaux de contraintes). Ces
algorithmes permettent, pour donner un ordre de grandeur, de calculer les
homomorphismes d’un graphe à 500 sommets dans un graphe à 3000 sommets dans
un temps raisonnable (si ces graphes ne sont pas trop denses). Le problème est
maintenant tout autre. Même si nous pouvons supposer que l’ordre de grandeur d’un
graphe question est de 50 sommets, la base de faits est l’ensemble des documents RDF
disponibles sur le Web. Il y a aujourd’hui plus de 3 milliards de pages HTML
référencées par Google, et, sans présager du succès de RDF, on peut se demander
combien de documents RDF seront disponibles demain. Bien que nous pensons que la
réalisation d’algorithmes efficaces soit possible (avec de bons mécanismes
d’indexation pour démarrer le raisonnement, car il suffit d’étendre localement des
homomorphismes partiels), seule une expérimentation sur une grande masse de
données réelles peut permettre de valider cette intuition.
Cependant, dans le langage RDF+OWL que nous jugeons souhaitable, les
problèmes deviennent tout autres. Même en n’ajoutant que la négation atomique de
type, le problème de subsomption devient Π2P-complet. Un traitement local de
l’information au cours de l’exécution de l’algorithme n’est alors plus envisageable.

4.3 T RANSFORMATION DE LANGAGES


Il y a fort à parier que la connaissance sera disponible sur le Web dans des formes
(langages) différentes, avec des modèles (ontologies) différents. Qui plus est, certaines
applications auront besoin de fusionner de telles sources de connaissance ou de les
adapter à leurs besoins. Cette activité est pour l’instant réalisée de manière ad hoc
(dans l’écriture de wrappers par exemple). Il sera nécessaire pour tirer pleinement
parti de la connaissance disponible dans le Web sémantique de la transformer et de
l’importer sous des contextes (langages, ontologies) différents. Il existe une grande
variété de telles transformations (fusion de catalogues, extraction de bases de données,
normalisation de théories) nécessitant diverses propriétés (filtrantes, préservant les
conséquences…) (Omelayenko & Klein, 2003). Un premier effort de recherche
devrait permettre de caractériser ces transformations et leurs relations. Il devrait aussi
être possible de définir de manière standard une transformation « sémantique » et
surtout de l’exécuter. Actuellement, il n’existe aucune infrastructure de
transformation pour RDF et l’on utilise toujours XML pour cela.

21
Rapport AS « Web sémantique »

Enfin, puisque ces opérations sont destinées à être effectuées par des machines
(sans discernement), il est essentiel pour la crédibilité du Web sémantique que l’on
puisse prouver la correction des transformations par rapport à leurs spécifications.

4.4 I NFÉRENCES ROBUSTES


Une propriété typique du Web est la quantité d’information que l’on y trouve.
Malheureusement, il s’y trouve beaucoup d’information erronée, périmée, redondante
ou incomplète. Le surfer humain est en général capable de discerner ces problèmes et
de les surmonter sans trop y penser. Mais il n’en ira pas de même des applications du
Web sémantique. Il est donc nécessaire de développer des modes de raisonnement qui
tirent parti du Web sémantique, c’est-à-dire qui sont le plus fidèles possible aux
spécifications des langages utilisés, sans pour autant être perturbés par ces problèmes.
En un mot, il faut des moteurs d’inférence robustes.
Ceux-ci pourraient utiliser des techniques très variées (logiques paraconsistantes ou
modèles statistiques, raisonnement non monotone) adaptées au contexte du Web
sémantique. Le raisonnement anytime ou sous contraintes de ressources pourrait être
quant à lui utilisé pour gérer l’immense taille du Web.

4.5 LANGAGES DE RÈGLES


Une autre nécessité, soulignée par de nombreuses personnes travaillant sur le Web
sémantique, est de développer un langage de règles. Si un organisme X déclare sur
son document RDF qu’un train va de la ville A à la ville B, et un organisme Y déclare
qu’un train va de la ville B à la ville C, alors il faut en déduire qu’il existe un trajet
allant de A à C. Pourtant, cette information ne peut se trouver ni sur le site de X, ni sur
celui de Y. Une solution immédiate peut être de déclarer, dans un document OWL, que
la propriété trajet est transitive, mais le problème devient insoluble dès lors que l’on
veut prendre en compte l’existence ou la durée de la correspondance. Il est nécessaire
d’utiliser une règle « SI … ALORS …» que l’on pourrait représenter comme sur la
figure x.3.

train Trajet-train
SI depart arrivee depart arrivee

heure loc heure loc heure loc heure loc

compatible
depart
arrivee
ALORS Trajet-train

F IG. 3 — Une règle sur un graphe RDF.

Ce type de règle a été étudié comme une extension des graphes conceptuels
simples, et les résultats obtenus sont immédiatement transférables à une extension de
RDF. Ces règles sont dotées d’une sémantique, qui correspond à des formules
logiques de la forme :

22
2 – Les langages du Web sémantique

x (P(x) ( y Q(x,y)))
où P(x) est une conjonction de formules atomiques dont les variables sont celles
apparaissant dans x, et Q(x,y) est une conjonction de formules atomiques dont les
variables sont celles apparaissant dans x et y. Notons que ces formules correspondent
aux TDGs (Tuple Generating Dependencies) en bases de données. L’utilisation de
telles règles génère un langage très expressif (puisqu’il s’agit d’un modèle de calcul),
et malheureusement indécidable. Des sous-ensembles décidables (et même NP-
complets) intéressants ont été exhibés. Il est à noter que l’expressivité d’un tel
langage de règles en ferait un bon candidat pour un métalangage permettant, par
exemple, de doter un langage de définition d’ontologies de nouveaux constructeurs,
en définissant de manière opérationnelle leur sémantique.
Ces travaux, comme d’ailleurs tous les travaux sur les langages, ne peuvent se faire
de manière isolée. Il est donc normal qu’ils soient poursuivis en liaison avec les
groupes de travail internationaux contribuant à faire avancer l’état de l’art. Par contre
un effort conséquent pourrait être produit par une communauté restreinte en ce qui
concerne les moteurs d’inférence et de transformation. Mais cela demande un
investissement important à moyen terme.

RÉFÉRENCES
ANKOLENKAR Anupriya, BURSTEIN Mark, HOBBS Jerry, LASSILA Ora, MARTIN David,
MCILRAITH Sheila, NARAYANAN Srini, PAOLUCCI Massimo, P AYNE Terry, SYCARA Katia
& Z ENG Honglei, Eds. (2002). DAML-S: semantic markup for web services. In CRUZ Isabel,
DECKER Stefan, E UZENAT Jérôme & M CGUINNESS Deborah, Eds. (2002), The emerging
semantic web, p 131-152. Amsterdam (NL): IOS press.
BAADER Franz, C ALVANESE Diego, MCGUINNESS Deborah, NARDI Daniele & P ATEL-
S CHNEIDER Peter, Eds. (2003). The description logic handbook. Cambridge (UK): Cambridge
university press.
BECKETT Dave, Ed. (2003). RDF/XML Syntax Specification (Revised). W3C Working Draft.
http://www.w3.org/TR/rdf-syntax-grammar
BERNERS-LEE Tim, F IELDING Roy & M ASINTER Larry (1998). Uniform Resource Identifiers
(URI): Generic Syntax. Request for Comments 2396, IETF. http://www.ietf.org/rfc/rfc2396.txt
BIEZUNSKI Michel, B RYAN Martin & N EWCOMB Steven, Eds. (1999). ISO/IEC 13250:2000
Topic Maps: Information Technology — Document Description and Markup Languages.
http://www.y12.doe.gov/sgml/sc34/document/0129.pdf
BRICKLEY Dan & GUHA Ramanathan, Eds. (1999). Resource description framework schema
specification. Proposed recommandation, W3C. http://www.w3.org/TR/PR-rdf-schema
BRICKLEY Dan & G UHA Ramanathan, Eds. (2003). RDF Vocabulary description language 1.0:
RDF Schema. Working draft, W3C. http://www.w3.org/rdf-schema
C HAMPIN Pierre-Antoine (2000). RDF tutorial. http://www710.univ-lyon1.fr/~champin/rdf-tutorial/
C URBERA Francisco, D UFTLER Matthew, K HALAF Rania, N AGY William, M UKHI Nirmal &
WEERAWARANA Sanjiva (2002). Unraveling the web Services web: An Introduction to
SOAP, WSDL, and UDDI. IEEE Internet computing 6(2) p. 86-93.
DEAN Mike & S CHREIBER Guus Eds. (2003). OWL web Ontology Language: Reference. W3C
Working Draft. http://www.w3.org/TR/owl-ref/
EUZENAT Jérôme (2000). XML est-il le langage de représentation de connaissance de l’an 2000?
Actes 6e journées langages et modèles à objets, Mont-Saint-Hilaire (CA), p 59-74.
F LORESCU Daniela, GRUNHAGEN Andreas & K OSSMANN Donald (2003). XL: A Platform for
web Services, Conference on Innovative Data Systems Research (CIDR), Asilomar (CA US).
GARSHOL Lars Marius (2003). Living with Topic maps and RDF. Ontopia, Trondheim ( NO ).
http://www.ontopia.net/topicmaps/materials/tmrdf.html

23
Rapport AS « Web sémantique »

GENESERETH Michael & FIKES Richard, Eds. (1992). Knowledge Interchange Format, Version 3.0
Reference Manual. Computer Science Department, Stanford University, Technical Report
Logic-92-1. http://www-ksl.stanford.edu/knowledge-sharing/papers/kif.ps
GINSBERG Matthew (1991). Knowledge interchange format: the KIF of death. AI magazine 12(3),
p. 57-63. http://www.aaai.org/Magazine/Issues/Vol12/12-03/Ginsberg.pdf
HAYES Patrick, Ed. (2003). RDF Semantics. W3C Working Draft. http://www.w3.org/TR/rdf-mt/
KLYNE Graham & C ARROLL Jeremy, Eds. (2003). Resource Description Framework (RDF):
Concepts and Abstract Syntax. W3C Working Draft, 2003 http://www.w3.org/TR/rdf-concepts/
LASSILA Ora & S WICK Ralph, Eds. (1999). Resource Description Framework (RDF) Model and
syntax specification. Recommendation, W3C. http://www.w3.org/TR/REC-rdf-syntax
OMELAYENKO Borys & K LEIN Michel, Eds. (2003). Knowledge transformations for the semantic
web. Amsterdam (NL): IOS press.
P ATEL-SCHNEIDER Peter, HAYES Patrick & H ORROCKS Ian, Eds. (2003). OWL web Ontology
Language: Abstract Syntax and Semantics. W3C Working Draft. http://www.w3.org/TR/owl-
semantics/
P EPPER Steve & M OORE Graham, Eds. (2001). XML Topic Maps (XTM) 1.0. TopicMaps.Org
Specification. http://www.topicmaps.org/xtm/1.0/
VAN HARMELEN Frank, P ATEL-SCHNEIDER Peter & H ORROCKS Ian, Eds. (2001). Reference
description of the DAML+OIL ontology markup language. W3C.
http://www.daml.org/2001/03/reference.html
WORKFLOW MANAGEMENT COALITION (1999). Workflow Process Definition Language, version
11. WFMC-TC-1016. http://www.wfmc.org/standards/docs/TC-1016-
P_v11_IF1_Process_definition_Interchange.pdf
WORKFLOW MANAGEMENT COALITION (2002). Workflow Process Definition Interface -- XML
Process Definition Language, version 1.0. WFMC-TC-1025.
http://www.wfmc.org/standards/docs/TC-1025_10_xpdl_102502.pdf
WUWONGSE Vilas, A NUTARIYA Chutiporn, AKAMA Kiyoshi & Nantajeewarawat E. (2001).
XML Declarative Description (XDD): A Language for the Semantic web. IEEE Intelligent
systems 16(3) p. 54-65.

24
3 – Méta-données et annotations
dans le Web sémantique
Yannick Prié1, Serge Garlatti2

1
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
yprie@liris.univ-lyon1.fr
2
Département IASC GET - ENST Bretagne
Serge.Garlatti@enst-bretagne.fr

Résumé
Le Web sémantique repose sur des langages et une infrastructure dont l’objectif est
de se donner la possibilité d’enrichir le Web actuel à l’aide d’informations dites
« sémantiques », utilisables par des machines, qui faciliteront la recherche et l’usage
de ressources Web (pages Web, images, services, etc.). Il s’agit donc d’associer à ces
dernières des informations structurées descriptives sous la forme de métadonnées (ou
annotations).. Plusieurs dimensions sont alors à considérer : les types de ressources,
plus ou moins fragmentées, concernées par les annotations / métadonnées;
l’automatisation plus ou moins marquée de la mise en place de ces dernières, la
structuration plus ou moins forte de leur « schéma », les tâches qu’elles soutiennent
(ou sous-tendent), ou encore l’utilisation plus ou moins « intelligente » qui en est
faite par les agents logiciels,. Après une rapide discussion de la notion
d’annotation / métadonnées, nous en proposons un scénario d’utilisation
conséquent, dans le domaine de l’enseignement à distance. Nous montrons ensuite
que si la problématique en soi n’est pas nouvelle, et est déjà traitée dans de nombreux
domaines, l’échelle du Web et le niveau d’intégration technologique nécessaire sont
quant à eux novateurs. Nous passons ensuite en revue un certain nombre de systèmes
liés aux annotations / métadonnées pour le Web sémantique, et concluons sur les
directions probables que va prendre la recherche, en insistant sur la nécessité
d’intégrer des chercheurs de SHS dans la réflexion.

25
Rapport AS « Web sémantique »

1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES

1.1 M ÉTA -DONNÉES ET ANNOTATIONS SUR LE WEB SÉMANTIQUE


Un des grands principes du Web sémantique est qu’il est nécessaire d’associer aux
ressources du Web des informations exploitables par des agents logiciels afin de
favoriser l’exploitation de ces ressources.
Associer par exemple une notice comprenant des champs : Auteur, Date de
création, Date de modification, Mots-clés, à une page Web permet de considérer celle-
ci non plus seulement comme comprenant du texte qui ne pourra qu’être traité
statistiquement par un robot indexeur, mais également des informations structurées à
la sémantique connue et utilisable comme telle par un agent logiciel. De la même
manière, si ce qui apparaît comme un simple nombre dans une page Web est de façon
explicite marqué comme un couple (valeur, devise), alors un agent pourra faire usage
de ces connaissances.
Associer une information exploitable à une ressource signifie deux choses
essentielles.
La première est que cette information doit d’une manière ou d’une autre être
structurée – utilisable – et descriptive – de la ressource, de son utilisation – afin de
faciliter et d’en améliorer l’accès dans le cas d’une ressource directement visualisée
par un utilisateur (par exemple en permettant une recherche d’information plus
efficace et plus ciblée), mais aussi l’exploitation dans le cas d’une ressource exploitée
dans le cadre d’un service à l’utilisateur (l’utilisateur n’est alors pas forcément
conscient de l’utilisation de la ressource).
La seconde est que la ressource en question doit exister et pouvoir être exploitée
sur le Web indépendamment des informations qui lui sont associées dans le cadre du
Web sémantique : celles-ci sont utiles, mais non nécessaires pour accéder et utiliser la
ressource, la page Web ou le service4.

4
Bien entendu, si la ressource est indépendante de ses méta-données, les méta-données ne sont pas indépendantes de la
ressource : si celle-ci évolue, les méta-données peuvent devenir obsolètes voire fausses et inutiles. Mais c’est au
créateur des méta-données de gérer la cohérence, et non au gestionnaire de la ressource.

26
3. Méta-données et annotations dans le Web sémantique

Le schéma ci-dessus donne une vision (proposée sur le site


http://www.semanticweb.org/) de l’utilisation des méta-données sur le Web sémantique.
Des pages Web sont annotées à partir de connaissances disponibles dans une ou
plusieurs ontologies (qui ont pour objectif de normaliser la sémantique des
annotations), et ces annotations, regroupées en entrepôts de méta-données deviennent
utiles pour des agents de recherche d’information, faisant ou non appel à des moteurs
d’inférence permettant de déduire de nouvelles connaissances formelles des
annotations.
Au-delà de ce schéma (sur lequel nous reviendrons au travers d’un scénario
d’utilisation dans le domaine de l’apprentissage à distance), remarquons que deux
termes principaux sont utilisés dans la littérature afin de décrire les informations
associées à des ressources : méta-données et annotations.
Si nous revenons sur ces notions, et de façon générale :
- une méta-donnée est « une donnée sur une donnée ». Cette définition est un
peu vague voire ambiguë, et elle est comprise de manière différente par
différentes communautés qui conçoivent, créent, décrivent, préservent et
utilisent des systèmes d’information et des ressources. Par exemple, dans
certains cas la donnée sur laquelle la méta-donnée porte est considérée comme
ayant le même statut de donnée formalisée, traitable par un système
informatique, dans d’autres, la donnée n’est qu’interprétable par un être
humain, et seule la méta-donnée en permet le traitement automatique.
- une annotation est à la base une note critique ou explicative accompagnant un
texte, et par extension, une quelconque marque de lecture portée sur un
document, que celui-ci soit textuel ou image.
On le voit, les termes de méta-donnée ou d’annotation prennent bien en compte
cette notion d’ajout d’information à une ressource, et on pourra a priori les utiliser

27
Rapport AS « Web sémantique »

indifféremment pour décrire ces informations que le Web sémantique doit ajouter au
Web pour le rendre plus utilisable par des machines.
Pour autant, si ces deux termes existent, c’est qu’ils n’ont pas le même sens.
La communauté anglophone du Web sémantique, circonspecte sur la
différenciation, considère par exemple dans le schéma que nous reprenons plus haut
que les annotations de pages Web deviennent des méta-données dès qu’elles sont
stockées dans une base sur un serveur. On différencie alors l’information en tant
qu’elle est attachée à (et présentée avec) une ressource et l’information manipulable
et exploitable de façon plus indépendante de celle-ci.
D’un point de vue plus lié à la pratique de l’annotation / méta-données (du point
de vue du processus de mise en place), et s’il est nécessaire de distinguer, nous
proposons ce distinguo :
- une méta-donnée sera plutôt attachée à une ressource identifiée en tant que
telle sur le Web – aura plutôt une pertinence a priori et sera plutôt saisie
suivant un schéma. Par exemple, la description normalisée d’un service Web,
l’auteur d’un document, qui permettront de mettre en place des inférences.
- une annotation sera plus située au sein de cette ressource et écrite au cours
d’un processus d’annotation / lecture. Par exemple, un commentaire libre
associé à un fragment d’une page Web – quelques mots, un paragraphe –
déterminé au besoin.
Evidemment, cette distinction n’a rien de définitive, il s’agit simplement de mettre
l’accent sur le caractère plus situé au sein de la ressource (du fait de son exploitation
par un utilisateur) de l’annotation, par rapport à une méta-données plus indépendante,
voire ressource en tant que telle.
Plusieurs critères, non indépendants – que nous illustrerons dans la suite – peuvent
être envisagés pour considérer les différents types de méta-données (annotations) :
- les types de ressources qu’elles concernent, plus ou moins fragmentées,
- l’automatisation plus ou moins marquée de leur mise en place,
- la structuration plus ou moins forte de leur « schéma »,
- les tâches qu’elles soutiennent (ou sous-tendent),
- l’utilisation qui en est faite par les agents logiciels, plus ou moins
« intelligente ».
Remarquons que pour le Web sémantique, on parlera le plus souvent de méta-
données ou d’annotations sémantiques. Deux possibilités d’interprétation sont ici
disponibles : « sémantique » au sens de « sémantique formelle », et puis au sens plus
vague de « faisant sens dans le cadre d’une tâche pour un utilisateur ». Si certains
tenants du Web sémantique souhaitent limiter la portée de celui-ci au premier sens –
formel – ces deux interprétations nous semblent pourtant tout à la fois pertinentes et
de toutes façons inextricablement reliées dans le cadre d’un Web sémantique riche et
ouvert, à l’image de la richesse et de la diversité du Web actuel, qu’on pourrait
qualifier d’ « un peu sémantique ».

1.2 E XEMPLES D ’ UTILISATION DE MÉTA -DONNÉES ET


D ’ ANNOTATION ET D ’ ADAPTATION DANS LE WEB SÉMANTIQUE

1.2.1 Introduction
Nous présentons dans la suite un scénario d’utilisation du web sémantique articulé
autour de l’enseignement à distance. Ce scénario s’intéresse autant à l’utilisation des
méta-données qu’à celle de l’adaptation qui est présentée dans une autre partie.
« Le professeur Bern de l’université de Stuttgart est impliqué dans la création de
cours diplômant sur les réseaux à l’intention d’étudiants de toute la Communauté

28
3. Méta-données et annotations dans le Web sémantique

Européenne. Afin de constituer son cours, il va chercher à utiliser toutes sortes de


ressources trouvées sur le Web :
- Des ressources « classiques » telles que des articles scientifiques ou des cours
numérisés : cours donnés en présence d’élèves et mis à disposition sous
différents formats (textes, vidéos, présentations multimédia).
- Des ressources composées d’éléments proposés par différentes universités ou
écoles, structurées par un ou plusieurs professeurs pour être accessibles en
ligne, qui constituent des parcours cohérents à destination des étudiants.
Certaines de ces ressources sont prévues pour être composées
automatiquement par un logiciel à partir d’une spécification afin d’engendrer
dynamiquement un cours personnalisé.
Pour cela, le scénario se divise en trois phases : la première est essentiellement
centrée sur la recherche d’information principalement interprétable par un humain, la
constitution d’un corpus et son indexation pour créer des cours en ligne
manuellement, la seconde phase fait appel un système de composition dynamique de
cours adaptatifs spécifiés par un auteur et l’utilisation de méta-données sémantiques
interprétables par un logiciel et la troisième phase met en scène les apprenants.

1.2.2 Première partie : recherche d’information et création manuelle de cours


Dans un premier temps, le Pr. Bern utilise un moteur de recherche de type
« Google » pour retrouver des ressources intéressantes pour son cours. Pour cela, il
commence par une requête simple : « Network » AND « Course », et obtient quelques
millions de réponses, dont un grand nombre sont – dès les premières pages – non
pertinentes. En effet, le terme « Network » y prend une sémantique bien différente
que celle cherchée (réseaux sociaux, réseaux d’excellence, réseaux
d’entreprise) tandis que « course » est présent dans de nombreuses pages dans
l’expression « of course ». Découragé par la masse de document à analyser, le Pr.
Bern décide de changer de méthode et d’utiliser un moteur de recherche fondé sur
une approche de type « Web sémantique » utilisant un schéma de méta-
données (Dublin Core – DC). L’outil lui propose un ensemble de descripteurs dont il
peut préciser les valeurs ou domaines de valeurs à l’aide de mots clés. Par rapport à la
recherche précédente, il peut désormais préciser si les termes recherchés sont dans le
Titre du document (network), son Sujet (network) ainsi que sa Date de création. Par
contre, le Format (html, pdf, etc.), le Type (course) et le Langage utilisé (anglais ou
allemand) sont des contraintes fournies par son profil utilisateur. Il n’a donc pas à les
fournir au système. En spécifiant ainsi un rôle et une sémantique pour les différents
termes de sa requête, il lui est possible de mieux cibler sa recherche, et d’obtenir des
ressources plus pertinentes. Cela n’est évidemment possible que parce que le moteur,
lorsqu’il parcourt le Web utilise les méta-données Dublin Core associées aux
ressources. Cependant, avec un schéma de méta-données comme le Dublin Core, les
auteurs des méta-données, s’ils sont à peu près tous d’accord sur ce que signifie Titre,
ne le sont pas forcément en ce qui concerne le Sujet ou le Type d’un document. Il
pourra donc y avoir des ambiguïtés sur le rôle et le sens de ces champs.
Le Pr. Bern a quand même réussi à récupérer bon nombre d’éléments potentiels de
cours qu’il va lui être possible d’organiser pour produire un cours complet. Comme
au cours de toute navigation sur le Web, pour les parties les plus pertinentes de chaque
ressource (ensemble de paragraphes, images), il a ajouté une annotation textuelle
décrivant la ou les utilisations qu’il prévoit d’en faire plus tard pour faciliter sa tâche
ultérieurement.
Conformément à la pratique de son institution, le Pr. Bern ajoute tout d’abord ces
documents à la base générale documentaire de l’université. Pour cela, il va être obligé
de modifier certains champs de méta-données. A la différence de la pratique
habituelle sur le Web, un thésaurus propre à l’université est utilisé. Celui-ci décrit le
vocabulaire à utiliser dans les différents champs, et sert de guide d’utilisation du

29
Rapport AS « Web sémantique »

schéma. De par le référentiel commun constitué par le thésaurus, le Pr. Bern et ses
collègues sont à peu près sûrs d’utiliser les mêmes termes pour décrire les documents,
et peuvent utiliser la structure de navigation constituée par le thésaurus pour atteindre
ceux-ci. Pour toutes les saisies de méta-données du DC, le Pr. Bern n’est pas obligé de
remplir tous les champs puisque certains sont obtenus à partir de son identifiant
personnel et des références de son université tels que « créateur, éditeur, source, date,
format». Il est par contre bien évident qu’il doit remplir lui-même les champs « titre,
sujet, couverture, relation, droits, langage et description »
Un des documents ajoutés à la base possède dans sa description Dublin Core un
élément qui va être utilisé automatiquement par un logiciel d’alerte, permettant de
prévenir trois abonnés de l’université qu’ils peuvent consulter un article les intéressant
potentiellement. L’un deux va le consulter, y laisse quelques annotations de lecture (il
n’est pas du tout d’accord avec une affirmation de la troisième partie). Une
discussion s’engage alors lorsque les deux autres utilisateurs ainsi que le Pr Bern
(prévenu que le document a été annoté) s’opposent à cet avis avec véhémence.
Chacun faisant référence dans son argumentation à d’autres parties du document.
Afin de mettre en place le cours lui-même, le Pr. Bern va réutiliser les documents.
Certains sont réutilisables en l’état (par exemple une figure illustrant particulièrement
bien une notion), et d’autres ne le sont pas. En effet, sortis de leur contexte de
création, ils ne sont pas intégrables directement dans un parcours cohérent, et
demandent une fragmentation / modification / adaptation, ainsi qu’une organisation
ad hoc.
Si la précision d’utilisation avec le moteur de recherche utilisant les méta-données
est meilleure qu’avec le moteur classique, et s’appuie sur des méta-données mises en
place de façon simple et peu coûteuse en temps, elle n’est suffisante que pour une
utilisation par un utilisateur humain, et non par un logiciel de génération automatique
de cours. En effet, il est uniquement possible de l’utiliser pour de la recherche
d’information qui sera interprétée (et exploitée) par un humain : même si un schéma
tel que le Dublin Core définit une structure de méta-données, l’exploitation de celle-ci
par des logiciels est limitée puisque aucune sémantique – interprétable par une
machine – n’est associée aux domaines de valeur des différents champs et donc
certaines ressources retrouvées pourraient ne pas convenir. Même si les termes sont les
bons dans le bon rôle, ils peuvent ne pas avoir été utilisés avec une même sémantique,
ou encore la qualité de la saisie des méta-données n’a pas été validée ou vérifiée.

1.2.3 Seconde partie : composition dynamique de cours adaptatifs


Pour composer son cours, le professeur Bern utilise un nouvel environnement
appelé « E-Learning 2010 ». Ce dernier engendre dynamiquement un cours adapté à
chaque étudiant (connu d’après son profil d’étude). « E-Learning 2010 » calcule un
cours adapté à chaque étudiant à partir d’une structure de cours choisie par un
professeur et d’une spécification du contenu selon un schéma de méta-données
appelé « LOM+ », ainsi que des modes d’évaluation des contenus et de leur utilisation
par les méthodes d’adaptation. LOM+ utilise des ontologies comme vocabulaire
partagé pour les termes du domaine du cours (ici les « réseaux informatiques»), pour
les modèles de cours en fonction d’une approche pédagogique choisie (une structure
globale de cours qui organise l’accès aux contenus qui sont typés : présentation
d’une notion, puis exercice, approfondissement, etc.), enfin pour les modes
d’évaluation et les méthodes d’adaptation pour un modèle utilisateur donné.
Toutes les ressources qu’il a trouvées / définies précédemment peuvent être
réutilisées, mais il est nécessaire d’y associer de nouvelles méta-données LOM+ pour
leur permettre d’être insérées dans la trame du cours. La saisie des méta-données à
partir de « E-Learning 2010 » est bien plus simple que précédemment puisque des
domaines de valeurs – définies par différentes ontologies (domaine, approche

30
3. Méta-données et annotations dans le Web sémantique

pédagogique, modèle utilisateur, adaptation) – sont associées aux différents champs.


Pour chaque champ, l’outil propose soit une liste de termes, soit une valeur déduite
par le système en fonction du contexte, qu’il suffit de valider ou non selon le type de
champ (pour le champ « Status », dans la catégorie « Lyfecycle » la valeur est
directement proposée par le système à partir du contexte courant, par contre pour les
champs « Difficulty » et « IntendedEnduserRole », les valeurs suivantes sont
respectivement proposées : <low, average, high> and <PassiveLearner, ActiveLearner,
CollaborativeLearner, TutorLearner, ProfesseurLearner>). Sont fournis également un
guide d’utilisation du champ munis d’exemples et de contre-exemples et un
navigateur d’ontologie permettant de mieux comprendre la structure de celle-ci et
donc la sémantique des concepts ou relations liés à un terme donné. On voit bien dans
l’exemple précédent que sans explication ou guide d’utilisation, il aurait été difficile
au professeur Bern de fixer une valeur pour ces champs.
Il est possible de rechercher plus précisément de nouvelles ressources qui sont
disponibles à partir de « E-Learning 2010 ». Pour cela, il lui suffit de sélectionner un
élément du modèle de cours muni d’un type – exercice, solution, problème,
définition, approfondissement, explication, éclaircissement, etc. – et une interface de
recherche d’information est proposée n’utilisant que les champs de méta-données
pertinents dont certains sont déjà définis comme par exemple le type d’élément. Pour
les autres une liste de valeurs est disponible. S’il n’est pas possible au système de
trouver dans la base de « E-Learning 2010 », les ressources nécessaires, il lui est
possible de réaliser une recherche élargie sur Internet. Cette recherche étant guidée
par les ontologies disponibles, il n’y aura plus d’ambiguïté sur les sens des termes
utilisés. En effet, il est possible au logiciel de recherche de rechercher toutes les
ressources indexées à partir de ces mêmes ontologies ou d’une partie d’entre elles ou
encore d’élargir à d’autres ontologies équivalentes mais avec lesquelles il sera
nécessaire de réécrire les termes pour assurer une transcription jugée sémantiquement
juste. Il lui est également possible de fixer certains critères d’évaluation dans son
profil utilisateur pour une recherche adaptative afin de filtrer les résultats ou de le
guider dans sa recherche.
Après avoir choisi une approche pédagogique, le professeur Bern sélectionne une
structure de cours particulière qui convient à sa manière d’enseigner. Il obtient ainsi
une structure globale de cours dans laquelle il doit spécifier des contenus à partir du
schéma de méta-données « LOM+ ». Dans ce schéma de méta-données, certaines
entrées sont dédiées à l’adaptation tels que par exemple les pré-requis qui prennent
leurs valeurs dans l’ontologie du domaine, le type d’étudiants – 1ére année, 2éme
année, etc. C’est cette spécification qui permettra alors au système de générer les
cours en fonction des profils des étudiants - qui ont parmi leurs caractéristiques
utilisateur un modèle de recouvrement permettant de connaître pour chaque concept
du modèle de domaine le niveau de connaissance acquis ou supposé acquis par
l’étudiant. Pour l’adaptation, il doit aussi préciser pour différents stéréotypes
d’étudiants les méthodes d’adaptation autorisées, les modes d’évaluation des
contenus. Chaque méthode d’adaptation utilise le résultat de l’évaluation des
fragments.
Pour la constitution du cours, le professeur Bern a parfois eu des difficultés à bien
comprendre la méthodologie de conception liée à « E-Learning 2010 », car cet
environnement est assez complexe. Cependant, en plus de la documentation des
diverses ontologies et schémas de méta-données, une assistance logicielle et humaine
tant au niveau interne qu’externe lui est proposée pendant la conception. Sa tâche est
à la fois rendue plus complexe sur certains aspects mais aussi grandement facilitée
pour d’autres. Ses cours ou éléments de cours sont plus facilement réutilisables pour
lui-même et pour les autres puisqu’il lui a fallu avoir une réflexion sur la granularité
– taille de chaque élément et niveau d’abstraction pour ceux qui ne sont pas
atomiques – des éléments et leur réutilisation. Un suivi de la qualité des méta-données
est mis également en place au sein de l’université afin d’assurer la cohérence de

31
Rapport AS « Web sémantique »

chaque cours ou élément de cours disponible en ligne. Ces dernières doivent être
saisie de manière bien plus rigoureuse lorsqu’une partie des champs est destinée à un
logiciel de composition de cours. En effet, si l’intention de l’auteur lors du choix
d’une valeur de champ n’est pas conforme à l’utilisation que va en faire le logiciel de
composition, le résultat ne sera guère prévisible.

1.2.4 Troisième partie : lecture et apprentissage par un apprenant


Chaque étudiant accédant à « E-Learning 2010 » peut choisir un cours et une
approche pédagogique particulière (par résolution de problème, collaborative, etc.).
En fonction de son niveau scolaire et de ces acquis précédents, certains cours
complémentaires – unités de valeurs – peuvent lui être proposés à partir de son profil
utilisateur. En effet, ces unités de valeurs peuvent être indispensables à une bonne
compréhension. Dans certains cas, ces différents éléments peuvent aussi résulter d’une
négociation avec son tuteur afin par exemple d’assurer une charge de travail
raisonnable, ainsi qu’une progression satisfaisante de son apprentissage. Cet étudiant
étant à l’université du Sussex, il aura à sa disposition une présentation et une structure
de ses pages de cours – contenu, barre de navigation et fonctions - qui sont
communes à tous les étudiants du Sussex. En effet ceux de l’université de Stuttgart
n’ont pas tout à fait les mêmes habitudes, et ont donc un environnement légèrement
différent. Chaque étudiant peut potentiellement disposer d’une structure globale de
cours et d’un contenu différent. Néanmoins, chacun peut accéder à l’ensemble s’il le
désire.
Chaque étudiant se doit d’être au courant de son propre modèle utilisateur et de ses
parties privées / publiques. Un étudiant possède un modèle utilisateur global qui peut
être enrichi dynamiquement en fonction des cours auxquels il est inscrit. Pour chaque
cours, avant d’accepter l’enrichissement de son modèle, une négociation a été faite
entre le système, le tuteur et l’apprenant afin de se mettre d’accord sur les données
privées / publiques. En effet, certaines sont obligatoires pour le suivi de l’apprenant
par un tuteur et d’autres peuvent être gardées privées ou publiques – pour partager
avec d’autres apprenants par exemple. Tout au long de l’apprentissage, ce modèle
global est maintenu et enrichi au fur et à mesure qu’il progresse dans ses études.
Comme ces informations sont disponibles sur un serveur de modèles utilisateur, il lui
est tout à fait possible de continuer ses études dans un autre pays et de continuer à
utiliser son modèle. Ceci n’est possible que parce que des vocabulaires communs –
ontologies – sont partagés entre différents pays.
On le voit dans cet exemple, si le simple ajout de méta-données à une ressource
(document ou fragment) n’est le plus souvent qu’orienté vers une tâche de
« recherche d’information » dans toute sa généralité (schéma général), des schémas de
description des ressources peuvent être spécialisés pour des tâches (lecture active) ou
des domaines d’application particuliers. Par exemple la construction ou l’utilisation
de cours en ligne, les échanges liés à l’information (XMLNews) ou aux produits
bancaires, les documents audiovisuels (MPEG7). Une même ressource peut bien
entendue être décrite suivant plusieurs espaces d’indexation (points de vues). Ces
schémas de méta-données se résument le plus souvent en des standards descriptifs
exprimés sous la forme de DTD ou de schéma XML qui dans de nombreux cas,
n’utilisent bien souvent que des mots-clé, voire au mieux des vocabulaires
standardisés tels que AAT, ULAN. Ils ne permettent alors ni de définir de manière
précise la sémantique opérationnelle (liée à des inférences automatiques) des
différents champs des descriptions, ni celles de leurs domaines de valeurs. L’étape
suivante proposée par le Web sémantique est donc celle des schémas de méta-données
fondés sur des ontologies, autorisant des inférences formelles sur les méta-données ou
les annotations.
Le scénario que nous venons de présenter illustre un certain nombre de points
importants liés aux annotations / méta-données :

32
3. Méta-données et annotations dans le Web sémantique

- Il est possible d’annoter une ressource dans son ensemble, ou un fragment de


ressource documentaire (pour peu que la ressource soit fragmentable : une
image ou un texte l’est, un service de réservation d’hôtel l’est moins
immédiatement).
- Les schémas de méta-données / annotation peuvent être plus ou moins
généraux ou spécialisés : du Dublin Core permettant de décrire tout type de
documents avec des descripteurs basiques, à une ontologie formelle permettant
d’annoter précisément des fragments de cours, ou des dépêches d’agence
pour la veille financière (rachat, annonce de perte, etc.), beaucoup de choses
sont possibles.
- La mise en place des annotations peut être plus ou moins automatisée : de la
mise en place manuelle (« tel paragraphe est intéressant, je vais le réutiliser tel
quel »), à l’automatique (cette suite de chiffres suivie du caractère signifie
qu’il convient de l’annoter avec le concept Prix), en passant par le semi-
automatique (je vous propose de considérer que ce « 37000 » est un code
postal, à vous de me le confirmer).
- Les méta-données / annotations peuvent être utilisées ou connues des
utilisateurs finaux (cas des données permettant de rechercher avec le Dublin
Core), ou bien uniquement par des spécialistes (les concepts de description
d’une progression de cours ne sont connus que des enseignants).
- Les méta-données / annotations sont utilisées pour deux grandes tâches. La
première est la recherche d’information, puisque toute méta-donnée
informatique liée à une ressource représente de fait un index pour cette
ressource, et peut être utilisée comme telle. La seconde est la composition de
documents, de fragments de documents, de services en vue de construire de
nouveaux documents (cours à la carte, catalogues, réponses à une question,
etc.) ou de nouveaux services (hôtel + spectacle).
- Les schémas de méta-données sont plus ou moins formalisés et permettent
d’offrir des services considérés comme plus ou moins intelligents, puisque les
agents logiciels peuvent plus ou moins s’en emparer pour mener des
inférences.
- Les annotations et méta-données peuvent rester dans la sphère personnelle
(mes annotations sur une page Web), ou s’inscrire dans une collectivité plus
ou moins restreinte (mon groupe de travail, mes étudiants, l’ensemble des
usagers du Web). L’annotation peut être mise en place de façon collaborative,
être plus ou moins partagée ou publiée. On peut avoir plus ou moins
confiance en des méta-données.
- Point plus technique : les méta-données / annotations de ressources du Web
peuvent être stockées ou mises à disposition dans ou hors de cette ressource :
les documents peuvent être « équipés » par leurs méta-données (alors un
moteur pourra collecter celles-ci), ou bien on pourra avoir de véritables bases
de (méta-) données centralisant celles-ci. La diffusion des méta-données peut
se faire de façon centralisée ou bien de façon plus directe (P2P).

2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR


LESQUELS ON PEUT S ’APPUYER

Il va de soi que le Web sémantique, considéré du point de vue des annotations et


des méta-données ne peut que s’appuyer sur les standards existants qui forment
l’ossature technologique du Web :
- protocole HTTP pour la transmission,
- langages HTML et XML, feuilles de style pour la présentation des résultats,
- langage RDF (Ressource Description Framework) pour l’expression et
l’échange des méta-données elles-mêmes, sous la forme de triplets, mêmes si

33
Rapport AS « Web sémantique »

ceux-ci peuvent également être stockés dans des bases de données pour une
gestion plus efficace.
De la même façon que le Web n’a pas attendu le Web sémantique pour offrir des
informations qualifiables de « sémantiques » sur le Web, les problématiques des méta-
données et des annotations sont prises en compte depuis que le Web est Web. Les
méta-données sur des ressources Web sont utilisées dans tous les systèmes
d’indexation de documents Web, que ce soient des moteurs de recherche, des
annuaires, des signets personnels, et de façon plus générale dans tous les systèmes de
gestion d’information, ces derniers bénéficiant d’une vieille tradition dans le monde
de la documentation et des bibliothèques (schéma d’indexation, utilisation de
thésaurus, etc.). De la même manière, les échanges électroniques de documents au sein
de communautés plus ou moins fermées à travers le réseau ont souvent conduit celles-
ci à définir et à utiliser de façon courante aussi bien des modèles de documents que
des schémas de méta-données adaptés à leurs pratiques 5, conduisant à de véritables
normes. L’utilisation de thésaurus et autre modèles de connaissances afin d’indexer
des documents au sein d’intranets, dans le cadre de la « gestion des connaissances »
est également une réalité sur laquelle le Web sémantique ne peut faire l’impasse.
Depuis le fameux navigateur Mosaic, déjà équipé en 1994 de la possibilité de gérer
des annotations, de nombreux systèmes ont vu le jour, qui permettaient à des
utilisateurs d’annoter des documents du Web, et de lire des annotations. En ce qui
concerne le stockage des annotations, beaucoup de possibilités ont été essayées : dans
les documents eux-mêmes (balises ad-hoc, RDF), dans les URL, dans des bases
présentes sur des serveurs centralisés. Ces annotations, le plus souvent sous forme
simplement textuelle, éventuellement typées (commentaire positif, négatif, voire lien –
on peut alors parler d’« annotation-lien » –, etc.) ont pu être plus ou moins partagées.
De nombreux systèmes – Yawas (Denoue et al., 1999), Critlink (Yee, 1999), etc. –, y
compris commerciaux (comme le défunt Thirdvoice) ont été lancés, souvent avec des
résultats décevants : pas de diffusion généralisée des principes. L’expérience
accumulée au cours de ces multiples essais mérite sans aucun doute d’être analysée
dans le cadre du Web sémantique.
On peut donc dire que ce sont tout à la fois :
- des méthodes de conception de schémas de méta-données (thésaurus,
ontologies),
- des outils et des principes d’utilisation de méta-données, d’annotation, de
présentation de celles-ci, aussi bien dans le monde numérique qu’à l’extérieur
(par exemple (Marshall, 98) pour une revue des types d’annotation),
- des architectures de stockage / requêtes / diffusion d’annotations,
- des modèles et des langages de descriptions et d’échange de méta-données /
annotations,
qui constituent un référentiel aussi bien technique que méthodologique sur lequel
s’appuyer.
Ajoutons à cette liste
- les multiples outils, méthodes et techniques d’extraction d’information de
documents sur le Web (fouille de données textuelles, méthodes statistiques ou
plus ou moins intelligentes, fondées sur des connaissances et spécialisées)
propres à proposer à l’utilisateur telle annotation, ou à remplir
automatiquement tel ou tel champ de méta-données.
- les outils et méthodologies permettant l’extraction et la mise en place plus ou
moins automatisée de schémas de description à partir de corpus Web
(terminologies, ontologies formelles), la construction coopérative de ces
schémas, etc.

5
Les schémas de document consistant dans bien des cas en la simple intégration de méta-données devenues constitutives
des structures documentaires électroniques.

34
3. Méta-données et annotations dans le Web sémantique

- les outils d’échanges de contenu selon les principes du « peer to peer », et


l’expérience massive d’ajout distribué de méta-données distribuées qui en
résulte.
On le voit donc, l’approche de Web sémantique, si elle n’est pas à proprement
parler nouvelle du point de vue des méta-données ou des annotations, y compris à
base d’ontologies formelles, peut avec raison s’appuyer sur des nombreux travaux,
techniques, modèles et outils. Cela est évidemment vrai du côté des techniques du Web
(puisque c’est le socle du Web sémantique), mais aussi du côté de tous les domaines
de recherche liés à la recherche et à la gestion d’informations et des connaissances.
L’approche du Web sémantique, qu’on pourrait qualifier de plus « systématique »
pourrait par contre contribuer à l’unification de nombre de ces travaux sous une
bannière commune, du fait de la stabilisation et de la standardisation de langages et de
principes architecturaux relativement semblables.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB


SÉMANTIQUE

Il nous apparaît que les travaux sur le Web sémantique, considérés du point de vue
des annotations et des méta-données peuvent se répartir comme suit :
- travaux sur les langages de description d’ontologies et de méta-données ;
- travaux sur la construction des ontologies pour associer des méta-données,
décrire des pages Web ;
- travaux sur l’utilisation de méta-données pour la personnalisation de pages
Web ;
- travaux sur des applications pilotes, mettant en jeu :
- des schémas / ontologies pour annoter,
- des outils pour annoter conformément à ces schémas,
- des applications :
• faisant usages de méta-données en tant que telles (recherche
d’information),
• faisant également usage des annotations pour les présenter en
même temps que les pages à l’utilisateur,
- des architectures pour soutenir ces applications,
- des « leçons apprises ».
Nous nous concentrerons dans cette partie uniquement sur ces derniers travaux (liés
aux applications permettant de mettre en œuvre de façon concrète les grands principes
du Web sémantique), les autres types de travaux étant traités dans d’autres parties du
présent rapport.
Pour cela, nous présentons dans un tableau récapitulatif un état de l’art de quelques
systèmes liés au Web sémantique6, considérés comme représentatifs du fourmillement
actuel. Ces systèmes sont étudiés suivant différents critères :
- types de ressources annotées : que peut-on annoter à l’aide du système ? (une
page Web dans son ensemble, un fragment de document XML délimité par
deux balises ?) ;
- langage pour les annotations / localisation : dans quel langage de description
sont représentées les annotations ? (du texte simple, un langage structuré
comme XML, un langage de description de triplets comme RDF ?). Quel est
plus spécifiquement le moyen de désigner les fragments ?
- schémas de méta-données : dans quel langage sont exprimées les contraintes
sur les annotations que l’on peut créer ? Un ensemble d’attributs – Creator –

6
Un point d’entrée utilisé est http://km.aifb.uni-karlsruhe.de/annotation/index.html .

35
Rapport AS « Web sémantique »

et de types de valeurs – chaîne de caractères – comme le Dublin Core, un


langage de description d’ontologies comme DAML+OIL ?
- architectures des systèmes : quelques considérations techniques sur le stockage,
la recherche et la diffusion des méta-données ;
- l’utilisation actuelle possible des systèmes et des méta-données présentées.
Au vu du tableau, qui décrit quelques grands types d’outils d’annotation ou de
systèmes à base d’annotation, quelques commentaires peuvent être faits sur le
panorama qu’il dresse :
- RDF est largement utilisé pour exprimer les méta-données associées à des
ressources Web et joue donc le rôle pour lequel il avait été prévu.
- En ce qui concerne les schémas de méta-données, un certain nombre de
systèmes se limitent à de simples schémas RDF (des classes, pas forcément en
hiérarchie, auxquelles sont associées des propriétés), sans aller jusqu’à utiliser
des langages spécialement conçus pour décrire des ontologies (DAML+OIL,
OWL).
- La gestion des méta-données d’un point de vue « inférentiel » se limite alors à
leur utilisation par des programmes dédiés : alors qu’un champ Creator tel
que défini par le Dublin Core ne dit absolument rien sur ce qu’il est possible
d’en faire, avec OWL LITE, il est possible de préciser que deux instances d’un
concept Créateur : Romain Gary et Emile Ajar sont par exemples considérées
comme identiques, dans le langage d’expression de méta-données lui-même,
donc utilisable par tout système connaissant ce langage.
- Les outils d’annotation permettent soit d’annoter des ressources en tant que
telles (dans les faits, décrites par des URL), soit des fragments, pour deux types
de documents (pages HTML, et XML en général avec XML-fragment /
XPointer : exemple SVG).
- Les outils d’annotations permettent soit des annotations a posteriori sur les
ressources, soit – pour des pages Web – la conception de celles-ci et
l’intégration concomitante de méta-données (Cf. Smore et Ontomat).
- Les méta-données doivent être stockées sur des serveurs dédiés (le plus souvent
serveurs Web instrumentés avec des services). Elles peuvent l’être directement,
ou bien après passage d’un robot (crawler) parcourant le Web et les extrayant
des pages Web rencontrées.
- On assiste à deux principes de développement différents. Dans un cas, le
problème est attaqué de façon globale, et est pensé pour tout faire d’entrée de
jeu (KAON suite + Ontomat), dans un autre (Annotea), on a la mise en place
d’une infrastructure minimale (architecture, schéma RDF) d’annotation de
fragments sur le Web, puis extension pour prendre en compte plus de choses :
passage à l’annotation d’image, travaux en cours pour étendre le schéma, puis
pour changer de schéma, etc.

36
Types de ressources Schéma de méta- Architectur Utilisation Remarques
annotées Langage pour données e des
Système / application les métadonnées
annotations/
localisation

Annotea Fragments de pages Web RDF / Schéma RDF Serveurs Affichage Possibilité de
http://www.w3.org/2001/Annotea/ HTML et XML (SVG, XPointer simple : une classe HTTP dédiés. des répondre à
XHTML,...) annotation, des Interface annotations une
propriétés titre, d’annotation. associées lors annotation
corps, auteur, date, Navigateur de la lecture par une
etc. instrumentés suivante de autre.
pour cette page Implantation
présenter les Mozilla :
RDF Pic Images RDF Dublin Core étendu Serveurs Recherche Peu
http://jigsaw.w3.org/rdfpic/ (schéma subject : dédiés, d’images. d’actualisatio
portrait, stockage n depuis
architecture, etc. + images + MD 2000.
schéma technique (jigsaw)
(appareil, film...)

SHOE Knowledge Annotator Page Web HTML Extension de Ontologie SHOE : Interface Recherche Interface
http://www.cs.umd.edu/projects/plus/SHOE/Kno HTML classification, graphique d’information graphique de
wledgeAnnotator.html (Simple relation, inférences. d’annotation. . construction
HTML Robot pour de requêtes.

37
Ontology récupérer les Export des
Extension) assertions, et ontologies
pour décrire les stocker SHOE vers
des ontologie dans une DAML.
COHSE Annotator Fragments de pages Web RDF Ontologie DAML Outil pour Génération Lié au projet
http://www.ecs.soton.ac.uk/~tmb/cohse/annotato HTML annotation. d’ « hypermé COHSE
r/ Serveurs dias Conceptual
d’annotation ontologiques Open
dédiés. » (pages Hypermedia
Web enrichie Project
par des http://coh
annotations à
WEBKB Toute resource Web RDF Ontologie – graphes Serveur Recherche se.semant
Interface très
http://www.webkb.org/ conceptuels. partagé d’information complexe
Ontologie générale
construite à partir
de Wordnet.
Types de ressources Schéma de méta- Architectur Utilisation Remarques
annotées Langage pour données e des
Système / application les métadonnées
annotations/
localisation

Ontomat Annotizer Fragment de page Web RDF / DAML Ontologie DAML + Outil de Toute Voir aussi
http://annotation.semanticweb.org/tools/ontomat + OIL OIL création de utilisation : OntoAnnotat
pages Web et visualisation, e (Outil
annotation. recherche d’annotation
MD dans les inférentielle. de Ontoprise)
documents,
robot +
serveur
inférentiel.
SMORE: Semantic Markup, Ontology and RDF Fragments de pages Web RDF Schéma RDF. Serveur Création / Version pour
Editor HTML Fondé sur des dédié annotation de annotation
http://www.mindswap.org/~aditkal/editor2.shtml Images SVG ontologies pages Web. d’image et de
extérieures a priori Portails lié courrier
ou construction du aux électroniques
Rapport AS « Web sémantique »

schéma après annotations


annotation. pour RI,
gestion.
Résumés annotés Abstracts HTML pour la Triplets RDF Schéma RDF / Utilisation de Génération
http://annotation.semanticweb.org/iswc/documen conférence ICSW 2002 dans les DAML simple : Webscripter de site Web

38
ts.html abstracts auteur, page Web, pour parser de résumés.
email, adresse, les
institution, date de descriptions
création.

GDA Global Document Annotation Pages Web HTML XML Schéma XML ??? Toutes Pas vraiment
http://www.i-content.org/GDA/ général : propriétés applications d’exemples
linguistiques, utilisant des
conversationnelles, connaissance
etc. s

RDF Web Photographies de RDF Schéma RDF + Serveur Recherche Possibilité


http://rdfweb.org/ personnes propriétés DAML unique dédié. de personnes, d’annotation
décrivant une de liens entre de fragments
personne sur le personnes, d’images
Web etc. SVG

MnM Fragments de Pages Web RDF / Ontologies Browser Toute Annotation


http://kmi.open.ac.uk/projects/akt/MnM/ HTML DAML+OIL, DAML+OIL ou Web, outil de utilisation : automatique
OCML Schéma RDF navigation visualisation, des pages
d’ontologie et recherche grâce au plu-
de création inférentielle gin Amilcare
d’instance (analyse de
dans une BC la langue)

Au niveau architectural, les directions prises par les travaux sur les méta-données
sont liées à la distribution et au stockage des méta-données – voir par exemple l’étude
3. Méta-données et Annotations

de la distribution des méta-données RDF suivant les principes P2P (peer to peer) : les
travaux autour d’E DUTELLA (http://edutella.jxta.org/reports/edutella-whitepaper.pdf),
ou le récent projet SWAP (Semantic Web and Peer to peer http://km.aifb.uni-
karlsruhe.de/projects/swap). Au niveau de la mise en place semi-automatique
d’annotation, on citera l’outil d’extraction d’information AMILCARE
(http://nlp.shef.ac.uk/amilcare/) qui paraît impliqué dans un nombre respectable de
projets.

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Il nous apparaît que les travaux liés aux annotations / méta-données visant à mettre
en action les théories du web sémantique sont nombreux, et que force est de constater
qu’ils commencent à fournir des résultats techniquement impressionnants en terme de
prototypes et d’architectures, concrétisant énormément d’efforts au niveau
international (par exemple KAON / Ontomat). Cependant, même si les bénéfices
potentiels apportés par ces nouvelles possibilités d’applications sont indéniables, il ne
nous semble pour l’instant pas exister d’applications réellement utilisées de façon
routinière sur le Web.
Deux explications peuvent être données à cet état de fait : (1) il est encore trop tôt
pour que les prototypes sortent des laboratoires pour aller directement sur le Web
(peut-être un passage par une case intranet est-il nécessaire pour rôder à petite échelle
un certain nombre de techniques7). (2) il ne suffit pas de bonnes idées et de leur mise
en place en termes techniques pour entraîner l’utilisation des systèmes (problème
somme toute classique en informatique).
On peut considérer plusieurs cas pour le statut des méta-données vis-à-vis des
utilisateurs et des concepteurs qui les manipulent :
- Dans le cas d’applications pour lesquelles les annotation / méta-données sont
connues et éventuellement mises en place par les utilisateurs finaux des
systèmes, il nous semble qu’il faut qu’un certain nombre de conditions soient
remplies afin que les systèmes développés rencontrent du succès, à savoir
- un bon schéma de méta-données lié à la pratique d’une communauté,
- associé à la diffusion dans cette communauté d’outils facilement
utilisables,
- lesquels apportent immédiatement un gain aussi bien individuel que
collectif incitant les personnes qui le doivent à ajouter les méta-données
aux ressources communes.
- Dans un cas intermédiaire, celui où existent des concepteurs « secondaires »,
comme par exemple les enseignants qui spécifient des méta-données dans le
cadre de la conception de cours en ligne adaptatifs, alors que les étudiants ne
font qu’utiliser les documents qu’on leur présente, on se retrouve dans le
premier cas, avec une communauté plus réduite.
- Enfin, dans le cas d’applications pour lesquelles les annotation / méta-données
ne sont connues et mises en place que par les concepteurs des systèmes, c’est-
à-dire lorsque l’utilisateur final n’est jamais conscient des mécanismes en jeu,
on se retrouve dans le cas plus classique de développement de services sur le
Web, qui peuvent fonctionner ou non.
Dans un Web sémantique concerné par l’instrumentation de ressources
principalement documentaires à l’aide d’ontologies (que ce soient de simples
schémas de méta-données, ou bien des hiérarchies de types et de concepts plus
raffinées) se pose d’entrée de jeu la problématique de l’utilisation et de la

7
Voir par exemple les outils proposés par Ontoprise (www.ontoprise.de).

39
Rapport AS « Web sémantique »

compréhension de ces ontologies par les utilisateurs, qui doivent en acquérir une
expertise suffisante.
Cette expertise passe par la compréhension de l’utilisation qui va être faite des
méta-données, et donc des inférences qu’elles vont permettre, à divers degrés. Par
exemple, si j’affirme qu’une chaîne de caractères est bien le Titre de mon document,
je suppose qu’un outil permettra de mener une recherche dans ce champ seul, ou bien
pourra construire une table des matières à partir de lui. Si j’affirme que ce paragraphe
présente une Notion du cours que je prépare, que cette notion précède telle autre dans
le déroulement du cours, et que ce document apporte des Eclaircissements (sachant
qu’un Eclaircissement est une sorte d’Explication), alors je dois savoir quelle est
l’utilisation qui sera faite de cette indication : par exemple génération d’un document
listant les notions, génération d’un document composé de paragraphes se suivant dans
un ordre adapté à l’étudiant avec des liens vers des documents annexes, etc.
Le degré de formalisation de l’ontologie, son étendue, et les possibilités
d’inférences liées déterminent tout à la fois le degré d’expertise que son utilisateur
doit acquérir pour annoter, la complexité possible de l’interface d’annotation des
documents, et les raffinement possibles d’utilisation des méta-données.
Il ne fait pas de doute que les recherches actuelles vont être poursuivies, sans doute
dans toutes les directions à la fois, étant donnée l’effervescence actuelle autour du
Web sémantique. Cependant, une certaine attention de recherche doit être portée dans
quelques directions, moins étudiées mais à notre sens fondamentales et qui, pour
beaucoup, devraient impliquer des équipes pluridisciplinaires (Informatique / SHS) :
- Usage actuel (hors du Web sémantique) des méta-données / annotations par
rapport aux différentes tâches d’utilisation d’un système d’information
documentaire, en lien avec la plus ou moins grande formalité des schéma de
description utilisés. Quels sont les systèmes (d’ajout de méta-données /
annotations à des documents) qui fonctionnent actuellement, et pourquoi ? De
nombreux travaux ont été menés sur les annotations et les méta-données dans
des domaines qui ne relèvent pas du Web sémantique : il serait coûteux de les
ignorer.
- Interfaces d’écriture (plus ou moins assistées) et de visualisation de méta-
données sur / dans des documents (beaucoup de progrès restent à accomplir).
Doit-on annoter avec une ontologie pré-existante, ou bien construire une
ontologie adaptée au cours de l’annotation ? Quelle est la sémantique de la
relation d’annotation d’une donnée par un concept issu d’une ontologie
(Bechhofer et al., 2001) : que veut-on exactement décrire (le monde ? le
document ? une utilisation ?) Que dire de la notion d’auto-indexation liée à
des outils de création de documents Web et ajout de méta-données : quelle en
est la signification, comment peut-elle être exploitée ? Peut-on faire confiance
à un utilisateur pour bien décrire ses propres documents (à comparer par
exemple avec la fonction d’un documentaliste).
- Droit, cycle de vie et annotations : diffusion des méta-données, responsabilité,
vie privée. Une méta-donnée peut être publiée dans le cadre d’une tâche, ce
qui suppose la maîtrise de l’utilisation qui peut en être faite par son auteur. Or
des usages non prévus peuvent surgir. Etude de la notion de « validité » des
méta-données, par rapport à l’évolution des documents, mais aussi au niveau
temporel : cycle de vie, qualité et validation des méta-données / annotations.
Terminons en remarquons que la question fondamentale qui nous semble posée à
long terme est celle du statut des méta-données dans le cadre de l’hypertextualité, liée
à la définition, du codage et de la structuration des documents et de l’information sur
le Web. En effet, ajouter une méta-données à un document consiste à lui ajouter une
structure ; coder un document textuel dans un arbre XML consiste à en définir les
éléments structurels essentiels, qui en annotent le contenu textuel ; générer enfin un
document adaptatif à partir de multiples sources peut consister à mettre ensemble des

40
3. Méta-données et Annotations

éléments de contenu et de structure provenant à la fois de données (documents) et de


méta-données pour créer une nouvelle structure, dont le statut est encore peu clair et
nécessitera sans doute des travaux théoriques poussés8.

RÉFÉRENCES
BECHHOFER S., L. C ARR et al. (2002). The Semantics of Semantic Annotation. First
International Conference on Ontologies, Databases, and Applications of Semantics for Large
Scale Information Systems. Irvine, California. 2159: 1151-1167.
DENOUE, L. & L. V IGNOLLET (1999). Yawas : un outils d’annotation pour les navigateurs du
web, IHM’99, Montpellier, France, 22-26, Novembre 1999
HANDSCHUH S . & S TAAB S. (2002) Authoring and Annotation of Web Pages in CREAM.
http://www.aifb.uni-karlsruhe.de/WBS/sha/papers/aa_cream_www11.pdf
MARSHALL C. C. (1998). Toward an ecology of hypertext annotation. Hypertext’98. New York,
ACM Press: 40-49.
NILSSON M., P ALMÉR M., et al. (2002). Semantic Web Metadata for e-Learning - Some
Architectural Guidelines. 11th World Wide Web Conference (WWW2002). Hawaii, USA.
YEE, K.P. (1998) The CritLink Mediator, [ http://www.crit.org/critlink.html ]

8
Note en passant : ce rapport (ou au moins le tableau recensant les différentes applications) fatalement incomplet,
pourra être rendu disponible sur le web, et actualisé et complété en fonction des réactions – pour toute réaction :
yprie@liris.univ-lyon1.fr

41
4 – Ontologies pour le Web sémantique
Jean Charlet1, Bruno Bachimont2,3, Raphaël Troncy2,4

1
Mission de recherche STIM, AP-HP & INSERM ERM 202
jc@biomath.jussieu.fr
2
Institut National de l’Audiovisuel
{bbachimont,Raphael.Troncy}@ina.fr
3
Université Technologique de Compiègne
bruno.bachimont@utc.fr
4
INRIA Rhône-Alpes, Équipe EXMO
raphael.troncy@inrialpes.fr

Résumé
Les ontologies sont un des concepts de base du Web sémantique. Dans cette
partie, nous voulons revenir sur l’origine des travaux sur les ontologies au sein de la
communauté Ingénierie des connaissances pour montrer les acquis sur lesquels les
chercheurs se sont appuyés pour développer le concept au sein du Web sémantique.
Dans un souci de clarté et de précision, nous revenons sur la définition des
ontologies pour clarifier les limites de l’approche ontologique et les contraintes qui
s’imposent à elle. Cela nous permet d’aborder les méthodologies de construction
d’ontologies et la question de la généricité.
Ceci posé, nous pouvons passer en revue les apports du Web sémantique en
termes de méthodologies, d’outils, d’éditeurs en essayant de préciser les
problématiques particulières dans chaque domaine. Enfin, dans une dernière section,
nous tentons de faire le point sur les problèmes que rencontre le Web sémantique par
rapport aux ontologies et les axes de réflexion ou de recherche qui semblent
prometteurs en ce domaine.
M o t s - c l é s : Ontologies, Ingénierie des connaissances, thésaurus, corpus,

43
Rapport AS « Web sémantique »

1 PRÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES

Permettre un traitement symbolique des connaissances, le but premier de


l’Intelligence Artificielle, rejoint celui du Web sémantique dans les attendus de ses
« créateurs », à savoir, se donner les moyens de faire faire des traitements
automatiques à des modules logiciels au sein du Web, que ce soit pour faire interagir
et interopérer des machines entre elles ou faire interagir des machines avec des
humains. En effet, ces traitements rejoignent directement la question de la
représentation des connaissances et des inférences en Intelligence Artificielle.
Tout programme informatique manipule, à travers des symboles, les objets du
domaine modélisé. L’ensemble de ces objets correspond à ce qui est appelé référentiel
dans le domaine des systèmes d’informations. Pour un domaine mettant en œuvre des
connaissances complexes sur lesquelles on veut effectuer des traitements intelligents9,
le programme élaboré est un système à base de connaissances qui manipule une base
de connaissances. Cette base répertorie, entre autres, et de la même façon que dans les
systèmes d’information, les concepts du domaine hiérarchiquement organisés dans
une « ontologie », nommée ainsi en faisant référence à ARISTOTE10.
Les ontologies sont alors centrales pour le Web sémantique qui, d’une part, cherche
à s’appuyer sur des modélisations de ressources du Web à partir de représentations
conceptuelles des domaines concernés et, d’autre part, a pour objectif de permettre à
des programmes de faire des inférences dessus. Les recherches à leur sujet sont donc
indispensables. Une fois construite et acceptée par une communauté particulière, une
ontologie doit en effet traduire un consensus explicite et un certain niveau de partage,
deux aspects essentiels pour permettre l’exploitation des ressources du Web par
différentes applications ou agents logiciels. D’autre part, la formalisation, autre facette
des ontologies, est nécessaire pour qu’il soit possible de raisonner automatiquement
dessus afin de décharger les utilisateurs d’une partie de leur tâche d’exploitation et de
combinaison des ressources du Web. Les ontologies servent alors (1) pour le
vocabulaire, la structuration et l’exploitation des méta-données (cf. chap. 3), (2)
comme représentation pivot pour l’intégration de sources de données hétérogènes
(cf. chap. 5) (3 ) pour décrire les services Web et, en général, partout où il va être
nécessaire d’appuyer des modules logiciels sur des représentations sémantiques
nécessitant un certain consensus.

9
Nous n’entrons pas dans le débat sur ce qu’est l’intelligence. Nous nous bornons à noter que
l’Intelligence artificielle intervient dans des domaines et pour des problèmes où l’on ne peut construire
des programmes avec des solutions algorithmiques simples et pour lesquels les connaissances à utiliser
sont difficilement formalisables.
10
ARISTOTE a défini l’Ontologie comme la science de l’Être. Définition que l’on retrouve dans le Petit
Robert avec « O n t o l o g i e » : la partie de la métaphysique qui s’intéresse à l’Etre en tant qu’Etre ».
Mais l’Ontologie est habituellement davantage comprise comme une science des étants que comme une
science de l’Etre en tant qu’Etre, c’est-à-dire qu’elle s’intéresse davantage à ce qui existe (les étants ou
existants) qu’aux principes de ce qui existe (l’Etre). Cette science, l’Ontologie, produit des ensembles,
les ontologies. Pour être complet, notons que le mot lui-même date du 17e siècle, avec des dates précises
discordantes selon les sources. Enfin, le mot ontologie, utilisé dans le contexte de l’Ingénierie des
connaissances ou du Web sémantique, semble d’un usage abusif à certains. Nous n’entrerons pas dans ce
débat de dénomination en nous bornant ici à éclairer la filiation de réflexion.

44
4 – Ontologies pour le Web sémantique

2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR


LESQUELS ON PEUT S’APPUYER

2.1 DÉFINITIONS
2.1.1 Les ontologies en Ingénierie des connaissances
Les ontologies sont apparues au début des années 90 dans la communauté
Ingénierie des connaissances, dans le cadre des démarches d’acquisition des
connaissances pour les systèmes à base de connaissances (SBC). Faisant suite aux
systèmes experts qui séparaient une base de connaissances « déclarative » et un moteur
d’inférence « procédural », les SBC proposaient alors de spécifier, d’un côté, des
connaissances du domaine modélisé et, de l’autre, des connaissances de raisonnement
décrivant les règles heuristiques d’utilisation de ces connaissances du domaine. L’idée
de cette séparation modulaire était de construire mieux et plus rapidement des SBC en
réutilisant le plus possible des composants génériques, que ce soit au niveau du
raisonnement ou des connaissances du domaine. Les connaissances du domaine
précisent tout ce qui a trait au domaine. Dans ce contexte, les chercheurs ont proposé
de fonder ces connaissances sur la spécification d’une ontologie, ensemble structuré
par différentes relations, principalement l’hyperonymie11 des objets du domaine dont
on note déjà que son élaboration relève de choix du modélisateur.
Ontologie (déf. 1) : Ensemble des objets reconnus comme existant dans le
domaine. Construire une ontologie c’est aussi décider de la manière d’être et
d’exister des objets.
Dans cette définition, les objets ne sont pas pris dans un sens informatique mais
comme objets du monde réel que le système modélise. Pour poursuivre vers une
définition de l’ontologie, il nous semble indispensable de rappeler que les travaux sur
les ontologies sont développés dans un contexte informatique – que ce soit celui de
l’Ingénierie des connaissances, de l’Intelligence artificielle ou de la gestion et des
systèmes d’information ou plus spécifiquement ici le contexte du Web sémantique – où
le but final est de spécifier un artefact informatique. Dans ce contexte, l’ontologie
devient alors un modèle des objets existants qui y fait référence à travers des concepts,
les concepts du domaine. Cette ontologie et les connaissances du domaine qui
s’appuient dessus correspondent, à la suite des travaux de Newell (1982), à une
modélisation au « niveau des connaissances » (le Knowledge Level de Newell). Ce
niveau de modélisation de l’ontologie nous situe au niveau du sens, au niveau de
l’intension. Cette ontologie devra ensuite être opérationalisée, c’est-à-dire codée dans
un langage opérationnel, exécutable.
Pour avancer vers une définition complète, on peut revenir à un travail de N.
Guarino et P. Giaretta (1995) qui ont essayé de trouver des définitions de l’ontologie
durant son processus d’élaboration12, à savoir l’ontologie comme un système
conceptuel informel, puis l’ontologie comme la représentation d’un système
conceptuel via une théorie logique et son vocabulaire. On peut alors proposer la

11
Pour ne pas dévier de notre propos, nous ne développons pas l’historique de la classification en
Intelligence artificielle mais un certain nombre de travaux s’étaient déjà posés des question au sujet de
la classification des objets du monde. Parmi ceux-ci, on peut citer les travaux autour des réseaux
sémantiques, comme Brachman (Brachman, 1983; Brachman et al., 1991) s’interrogeant sur la nature du
lien is-a ou Woods (1991) s’attachant à des questions de représentation et de niveau de description des
connaissances.
12
Les développements faits ici sont une libre interprétation des attendus des travaux de N. Guarino et P.
Giaretta (1995). Ils ont pour but de progresser vers une définition rendant compte d’un processus de
construction évolutif. Nous renvoyons le lecteur qui veut approfondir la question aux articles de ces
auteurs.

45
Rapport AS « Web sémantique »

seconde définition de ce qu’est une ontologie, en reprenant les spécifications de


Gruber (1993) et M. Uschold et al. (1996), l’équipe de ce dernier ayant appliqué les
résultats des réflexions du premier dans le contexte applicatif d’une ontologie
d’entreprise, the enterprise ontology :
Ontologie (déf. 2) : Une ontologie implique ou comprend une certaine vue du
monde par rapport à un domaine donné. Cette vue est souvent conçue comme un
ensemble de concepts – e.g. entités, attributs, processus –, leurs définitions et leurs
interrelations. On appelle cela une conceptualisation.
[...]
Une ontologie peut prendre différentes formes mais elle inclura nécessairement un
vocabulaire13 de termes et une spécification de leur signification.
[...]
Une ontologie est une spécification rendant partiellement compte d’une
conceptualisation.
Cette seconde définition propose un autre point de vue que la première, cohérent
avec elle mais plus précis, en termes de spécification et par rapport à une application
informatique. Elle nous permet de préciser les contraintes qui s’imposent
successivement au concepteur d’ontologies :
- une ontologie est bien une conceptualisation, entendons par là que l’on y
définit des concepts ;
- devant être par la suite utilisée dans un artefact informatique dont on veut
spécifier le comportement, l’ontologie devra également être une théorie
logique pour laquelle on précisera le vocabulaire manipulé ;
- enfin, la conceptualisation étant spécifiée parfois de manière très précise, une
théorie logique ne peut pas toujours en rendre compte de façon exacte : elle
ne peut assumer la richesse interprétative du domaine conceptualisé dans une
ontologie et ne le fait donc partiellement14.

2.1.2 Que représente-t-on dans une ontologie ?


À partir des définitions proposées jusque-là pour les ontologies 15, quatre grands
types de caractéristiques nous permettent de préciser ce qui peut être représenté dans
une ontologie ainsi que le processus de modélisation :
Le type d’ontologie. Les méthodes en Ingénierie des connaissances ont
répertorié plusieurs types d’ontologie liés à l’ensemble des objets
conceptualisés et manipulés au sein d’un SBC. Nous allons en citer quelques-
unes : (1) l’ontologie du domaine (cf. § 1 16), (2) l’ontologie générique, ou qui
se veut comme telle, qui repère et organise les concepts les plus abstraits du
domaine (cf. § 2.2.4), (3) l’ontologie d’une méthode de résolution de
problème où le rôle joué par chaque concept dans le raisonnement est rendu
explicite (p. ex. signe ou syndrome dans le cadre du raisonnement médical), (4)
l’ontologie d’application qui se veut une double spécialisation : d’une

13
« Vocabulaire » est utilisé ici tel qu’il apparaît dans le texte. Il doit être compris dans un sens logique
et être vu comme le vocabulaire des expressions manipulées par une théorie logique. Ceci dit, ce
vocable prête à confusion dans le domaine des ontologies où la question de la langue et l’opposition
termes versus concepts est fondamentale (cf. § 2.2.2).
14
Cet écart est principalement dû des problèmes de calculabilité des théories qui pourraient rendre compte
de la spécification et sont donc inadéquates. Cet écart entre la conceptualisation et la spécification
formelle est décrit par N. Guarino comme l’engagement ontologique que le concepteur doit assumer au
passage de l’une à l’autre (Guarino & Giaretta, 1995).
15
Nous ne développerons pas ici l’historique de la classification, de Aristote aux Sciences naturelles.
Nous renvoyons le lecteur intéressé à (Charlet, 2002) et rappelons qu’un des apports de cet historique
est de montrer toute la variabilité de définition des objets du monde en fonction des buts du
modélisateur.
16
La numérotation des références de paragraphes correspond aux différentes parties de ce chapitre.

46
4 – Ontologies pour le Web sémantique

ontologie du domaine et d’une ontologie de méthode, enfin (5) l’ontologie de


représentation qui repère et organise les primitives de la théorie logique
permettant de représenter l’ontologie (p. ex. la frame ontology
d’ ONTOLINGUA (Gruber, 1993)) ou l’ontologie de « propriétés » de Guarino
& Welty (2000).
Les propriétés. Une ontologie est non seulement le repérage et la classification
des concepts mais c’est aussi des caractéristiques qui leur sont attachées et
qu’on appelle ici des propriétés17. Ces propriétés peuvent être valuées. En
s’intéressant aux taxinomies en sciences naturelles, les vertébrés ont un
tégument (la peau) comportant des poils – p. ex. pour les mammifères – ou
des plumes – p. ex. pour les oiseaux. Dans une ontologie sur le monde animal,
on pourra ainsi avoir les concepts de « mammifère » ou « d’oiseau » pour
lesquels est précisé le type de tégument, respectivement à poil et à plume. En
pratique, un attribut « tégument » pourra être attaché aux concepts et sa valeur
variera suivant le concept auquel on fait référence.
La relation « is-a ». La relation de subsomption is-a qui définit un lien de
généralisation – i.e. hyperonymie – est utilisée pour structurer les ontologies.
Cette relation qui permet formellement l’héritage de propriétés est un choix
qui s’impose depuis ARISTOTE. Elle doit être complétée par d’autres relations
pour exprimer la sémantique du domaine.
Les autres relations. Les relations unissent les concepts ensemble pour
construire des représentations conceptuelles complexes qui vont être autant de
connaissances nécessaires au SBC que l’on construit. Si la connaissance
construite correspond à un concept dans le monde modélisé, celui-ci est dit
défini, à l’opposé des concepts insérés dans l’arborescence de l’ontologie qui
sont dits primitifs. Par exemple, si l’on définit l’appendicite comme une
inflammation localisée-sur l’appendice, c’est un concept dit défini. Dans
l’exemple précédent, localisée-sur est une relation binaire qui se définit par les
concepts qu’elle relie et par le fait qu’elle est, comme les concepts, insérée
dans une hiérarchie, ici de relations.
La relation is-a qui structure l’ontologie est une relation du même type que les
autres. Elle a cela de spécifique que c’est elle qu’on a justement choisi comme
relation de structuration de l’arborescence ontologique. Elle est donc implicite dans
cette ontologie. Au niveau des choix, il faut aussi remarquer que les concepts et
relations de l’ontologie sont duals l’un par rapport à l’autre. Un concept primitif
pourrait être un concept défini, une relation pourrait se retrouver implicitement
définie au sein d’un concept primitif. Ce sont les choix assumés du concepteur de
l’ontologie qui auront permis de décider de ce qui est essentiel – et donc primitif – ou
non (cf. § 2.2.2). Ainsi, on peut décider que le fait, pour un être humain, d’être un
étudiant est temporaire donc non définitoire. On caractérise alors les êtres humains
avec une relation de rôle social qui permettra de préciser une fonction d’étudiant ou
de professeur.
Un autre choix de conception qui doit être fait durant la conception d’une
ontologie est de décider si une connaissance doit être modélisée dans une propriété ou
à l’aide d’une relation pointant sur un autre concept. Un critère peut être de dire que
c’est une propriété dès lors que les valeurs possibles sont d’un type dit primitif
(entier, chaîne de caractères), et c’est une relation dès lors que les valeurs possibles
sont d’un type dit complexe c’est-à-dire un autre concept de l’ontologie. Mais cette
frontière peut aussi être remise en question.
Enfin, dans certains cas, il peut être nécessaire de compléter la structuration de
l’ontologie par la relation is-a avec une relation de partie-tout ou méronymie. Ce type
de relation est, par exemple, indispensable en anatomie médicale où il est nécessaire

17
Des attributs dans le contexte des langages à objets.

47
Rapport AS « Web sémantique »

de décrire des organes ou des systèmes et ce qui les compose. Cette relation n’est pas
sans poser des problèmes de modélisation dans la mesure où elle est, selon les
situations, transitive ou intransitive.
Les réflexions sur les ontologies dans le contexte du Web sémantique s’appuient
sur ces différents acquis en notant que dans le cas où l’ontologie est utilisée comme
repérage et structuration de méta-données, le fait qu’elle permette de faire des
inférences est moins mis en avant et donc moins recherché que dans le cas où
l’ontologie est utilisée au sein d’un module logiciel type SBC, nécessitant justement
d’effectuer des inférences.

2.2 Q UELLES MÉTHODES POUR CONSTRUIRE DES ONTOLOGIES ?


2.2.1 À la recherche d’une méthodologie constructive
Les méthodologies de construction d’ontologies ne sont pas légion. Nous
entendons par là, la donnée argumentée de procédures de travail, d’étapes, qui
décrivent le pourquoi et le comment de la conceptualisation puis de l’artefact
construit. Sur le fond, on trouve des réflexions linguistiques et épistémologiques
(Bachimont, 2000) et des réflexions sur les ontologies formelles (Guarino & Giaretta,
1995). Elles sont à l’origine de méthodes de construction d’ontologies à partir de
corpus que nous allons aborder dans la section suivante. Ensuite, on trouve des
travaux qui proposent de bonnes pratiques méthodologiques de construction
d’ontologies comme ceux de Th. R. Gruber (1993) ou de M. Fernàndez et al.
(1999). Nous les présenterons plus rapidement dans la section 3.2.1.

2.2.2 Acquérir des ontologies à partir de corpus


La première méthode que nous présentons ici a été mise au point à l’occasion de la
construction de l’ontologie du projet M ENELAS18 (Zweigenbaum et al., 1995). Elle
est fondée sur les travaux de B. Bachimont (2000) enrichis de considérations sur les
corpus textuels développées au sein du groupe TIA 19. Nous choisissons de la décrire
ici car l’ensemble de ses étapes est paradigmatique de ces approches et nous permettra
d’aborder, dans la suite de cette étude, les problèmes liés à la construction des
ontologies. Les 4 étapes de la méthode sont :
1 re étape : la primauté du corpus et son analyse. Nous sommes, par hypothèse,
dans des domaines où les données et les connaissances s’expriment en langue.
Il est alors aisé20 de trouver des textes explicitant les connaissances du
domaine, dans des buts de pratique ou de transmission des connaissances.
On peut ainsi construire un corpus textuel qui sera la source privilégiée
permettant de caractériser les notions utiles à la modélisation d’une ontologie
et le contenu sémantique qui lui correspond. Pour ce faire, on utilise une «
démarche de corpus » et des outils terminologiques pour commencer à
modéliser le domaine. Ces outils, pour la plupart, reposent sur la recherche de
formes syntaxiques particulières manifestant les notions recherchées comme
des syntagmes nominaux pour des candidats termes, des relations syntaxiques
marqueurs de relations sémantiques, ou des proximités d’usage – e.g.
contextes partagés – pour des regroupements de notions (Bourigault & Fabre,
2000 ; Bourigault, 2002).

18
http://www.biomath.jussieu.fr/projets/Menelas/ontologie
19
http://www.biomath.jussieu.fr/TIA/
20
Dans le sens où ces textes existent bien et en quantité. Nous n’abordons pas la question, parfois
complexe, de la disponibilité réelle de ces textes sous forme numérique. La question des corpus est
développée plus spécifiquement dans le cadre de l’Action spécifique du CNRS «Construction de
ressources terminologiques a partir de corpus» – ASSTICCOT <http://www.irit.fr/ASSTICCOT/>.

48
4 – Ontologies pour le Web sémantique

2 e étape : la normalisation sémantique. L’étape précédente fournit des candidats


termes dont les libellés ont un sens pour le lecteur, souvent spécialiste du
domaine. Mais rien n’assure que ce sens soit unique : au contraire, nous
sommes dans un fonctionnement linguistique où les significations sont
ambiguës, les définitions circulaires et dépendent en particulier du contexte
interprétatif des locuteurs. Or, dans la modélisation ontologique, on cherche à
construire des primitives dont le sens ne dépend pas des autres primitives et est
surtout non contextuel. Il est nécessaire, pour prendre le chemin du formel, de
normaliser les significations des termes pour ne retenir, pour chacun d’eux,
qu’une seule signification, qu’une seule interprétation possible par un être
humain. C’est ce que permet l’utilisation de la sémantique différentielle,
proposée par B. Bachimont et travaillant les proximités d’usage produites à
l’étape précédente. À la fin de cette étape, nous avons un arbre de primitives
conceptuelles valable dans la seule région du monde modélisée où les
concepts retenus correspondent bien à ceux de l’ontologie, par définition
décontextualisée. Nous avons une ontologie régionale.
Corollaire de la méthodologie, le sens d’un concept est principalement défini
en fonction de ce qu’il est (héritage par rapport au père) et de ce qu’il n’est
pas (différence par rapport au père ou aux frères).
e
3 étape : l’engagement ontologique. L’engagement ontologique correspond à
l’évolution de l’ontologie régionale vers une ontologie formelle. La
sémantique formelle ne considère plus des notions sémantiques mais des
extensions, c’est-à-dire l’ensemble des objets qui vérifient des propriétés
définies en intension dans l’étape précédente, propriétés ayant une définition
formelle à ce niveau. La structure de l’ontologie formelle est alors un treillis
(Bachimont, 2000).
Au sein de cette ontologie formelle, le treillis des concepts doit être compris
comme la possibilité de créer des concepts dits définis en combinant les
concepts primitifs comme, par exemple, une personne qui a pour rôle social
d’être un médecin. Cet « objet » défini en extension hérite des caractéristiques
des personnes et des médecins alors qu’au niveau précédent, l’intension des
personnes et des médecins était irréductible.
4 e étape : l’opérationalisation. Dernière étape de la méthodologie (et de
beaucoup d’autres), l’opérationalisation consiste en la représentation de
l’ontologie dans un langage de représentation des connaissances permettant
de surcroît des services inférentiels de type classification des concepts ou
généralisation, etc. Selon les langages considérés, les calculs possibles et donc
les services inférentiels ne sont pas identiques et, à ce niveau aussi, il y a un
engagement qui est pris avec de nouvelles contraintes et possibilités, justifiant
l’existence d’une ontologie computationnelle.
Il y a plusieurs possibilités de choix de langage d’opérationalisation, comme
les graphes conceptuels et les logiques de description, permettant, l’un comme
l’autre, d’effectuer un certain nombre d’opérations sur des ontologies :
inférences propres aux structures de graphes comme la jointure ou la
projection pour les graphes conceptuels, classifications dans des structures
arborescentes pour les logiques de description. Les logiques de description
sont le type de langage retenu par le Web sémantique pour représenter les
ontologies et faire des inférences dessus. Les différents axiomes qui
accompagnent chaque possibilité ne sont pas anodins en termes de
connaissances représentables et de calculabilité. Ce problème est approfondi
au chapitre 2.
Cette méthodologie a été utilisée dans plusieurs domaines comme l’audiovisuel
(Troncy, 2003) ou la médecine (Le Moigno et al., 2002; Weis & Charlet, 2003).

49
Rapport AS « Web sémantique »

Une 2 e méthodologie, réifiée dans le système TERMINAE développé par N.


Aussenac-Gilles et al. (2003), est dans un paradigme identique à la précédente mais
(1) le dépouillement des corpus et l’étude linguistique y sont encore plus mis en
avant, en particulier le repérage des relations et (2) la question de l’opérationalisation
dans une logique de description et son influence sur la modélisation a été
spécifiquement étudiée. Ainsi, aux outils de repérage de candidats termes et de
regroupement de contextes – S YNTEX et U PERY (Bourigault, 2002) – est rajouté un
outil de repérage de relations, YAKWA (Rebeyrolles, 2000), proposant une meilleure
aide au repérage de celles-ci.
Enfin, des approches cherchant à plus automatiser la structuration de l’ontologie
via des algorithmes d’apprentissage ont été développées comme celle de Maedche et
Staab (2000) ou ASIUM développé par Faure et Nedellec (1999) :
- La première approche cherche à minimiser les interactions et construit
automatiquement une taxinomie de concepts à partir d’un dictionnaire du
domaine. Le résultat obtenu, comportant beaucoup de concepts « feuilles »
(terminaux) doit être complété par une extraction de candidats termes placés
manuellement pour finir de structurer l’ontologie.
- La seconde approche, ASIUM, utilise des techniques d’apprentissage pour
construire interactivement une ontologie. Plus précisément, ASIUM apprend
des cadres de sous-catégorisation de verbes et des ontologies à partir de
l’analyse syntaxique de corpus de textes techniques. Cette technique est à
rapprocher de la construction de notions par les contextes partagés (cf. supra).
Les différentes expériences menées jusque-là avec Les méthodologies décrites ici
montrent que l’intervention humaine est indispensable et même primordiale dans les
choix de conceptualisation à faire. Il est alors plus important d’outiller cette
intervention que de chercher à la minimiser.

2.2.3 Ontologie versus thesaurus


Des modélisations conceptuelles ou terminologiques existent depuis longtemps
dans le domaine de la recherche d’information au sein des bibliothèques et dans le
domaine de la terminologie, par exemple en médecine où il existe, entre autres, des
thesaurus de spécialités répertoriant l’ensemble des termes médicaux à utiliser pour
décrire l’activité médicale – i.e. un vocabulaire contrôlé. En reprenant un vocable de
Bourigault et al. (2003), les différentes ressources terminologiques ou ontologiques
(RTO) élaborées dans différents domaines doivent être précisées et conceptuellement
caractérisées pour bien comprendre leur signification par rapport à une modélisation
conceptuelle et formelle et si elles peuvent être ou servir d’ontologies et à quelles
conditions. Pour cela, nous allons reprendre ici, rapidement, trois définitions par
rapport à des produits terminologiques existant parallèlement aux ontologies, les
thesaurus, classifications et terminologies :
Un thesaurus est un ensemble de termes normalisés fondé sur une structuration
hiérarchisée. Les termes y sont organisés de manière conceptuelle et reliés
entre eux par des relations sémantiques. Organisé alphabétiquement, il forme
un répertoire alphabétique de termes normalisés pour l’analyse de contenu, le
classement et donc l’indexation de documents d’information (dans de
nombreux cas, les thesaurus proposent aussi une définition des termes utilisés).
Une classification est l’action de distribuer par classes par catégories (rien n’est
dit sur le type d’objets classifiés). C’est aussi le résultat de cette action.
Une terminologie est un ensemble des termes particuliers à une science, à un art, à
un domaine. Les termes y sont également définis par un texte en langue
naturelle et caractérisés par différentes propriétés linguistiques ou
grammaticales suivant l’usage prévu de cette terminologie. Avec leur mise sur
support informatique, les terminologies ont beaucoup évolué et sont parfois
enrichies de relations entre termes, formant ainsi un réseau terminologique.

50
4 – Ontologies pour le Web sémantique

À partir de là, on peut s’intéresser à quelques RTO, par exemple WORDNET ou le


Me SH, pour vérifier quelle est leur nature exacte, ce qu’on peut en faire et pourquoi :
WORDNET est une base de données lexicales. Les termes y sont organisés sous
formes d’ensembles de synonymes, les synsets. Chaque synset est un concept
lexicalisé (en reprenant les termes de M. Slodzian (1999)). Ces concepts
lexicalisés sont reliés par des relations conceptuelles (is-a, has-a). Les
concepteurs de WORDNET affirment ainsi construire une ontologie linguistique.
Si nous pensons qu’une ontologie a pour but de conceptualiser un domaine et
nous le maintenons, alors le processus qui mène à cette ontologie doit
clairement en prendre la direction. Ce n’est pas le cas de WORDNET qui jongle
allègrement entre relations conceptuelles et termes 21. Précisons bien la
motivation de ces remarques : WORDNET est un énorme dictionnaire
hypermédia de l’anglais-américain (plus de 100 000 synsets) et sa richesse et
sa facilité d’accès en font un intéressant outil pour la recherche d’information
ou d’autres tâches comme le traitement du langage naturel mais ce n’est pas
une ontologie, cela n’en prend pas le chemin et essayer de l’utiliser tel quel
ou avec un minimum de modification dans un système formel est voué à
l’échec.
MeSH (Medical Subject Heading) est un thesaurus médical. C’est le thesaurus
d’indexation de la base bibliographique M EDLINE22. Il est traduit en français
par l’I NSERM et sert aussi de thesaurus au site CISMeF (cf. chap. 8). Le Me SH
offre une organisation hiérarchique et associative et comprend jusqu’à neuf
niveaux de profondeur. Sans revenir sur sa description précise qui montre que
l’on est en face d’un thesaurus développé pour l’indexation et non pour les
inférences (Charlet, 2002), on peut citer les concepteurs qui écrivent :
Many individuals have tried to use MeSH as a concept representation
language with only modest succes. That the relationships in the MeSH
tree structure were designed with a different view, and with a different
(an not formal) meaning of “broader-than”, has frustated their
efforts. The MeSH hierarchical structure was designed to reflect a view
of the literature for a user.[...] The trees thus indicate what appears to
be a useful set of relationships, based on the perceveid needs of
searchers (Nelson et al., 2001).
À la suite de ces quelques exemples23 on peut constater que ces ressources
terminologiques ne sont pas des ontologies. Ce n’est pas étonnant : dans de
nombreux domaines, des thesaurus ont été développés d’abord pour des besoins de
normalisation des termes employés et à un moment où une utilisation informatique24
n’était pas envisagée. Les ontologies n’étant pas sans rapport avec les terminologies,
on peut trouver dans ces thesaurus des ressources pour amorcer une ontologie. Mais il
faut prendre garde au fait que ce ne sont que des « ressources pour » et pas des
« embryons de ».

2.2.4 La réutilisation et les ontologies génériques


La première et originelle utilité d’une ontologie était liée à une volonté de
réutilisation (cf. § 2.1.1). Cette propriété étant attendue mais ni démontrée, ni
définitoire, elle est restée comme pétition de principe alors que la nature de
l’ontologie se précisait au fur et à mesure que des travaux utilisaient le concept. Ainsi,

21
M. Slodzian (1999; 2000) développe très longuement des arguments épistémologiques et
linguistiques à ce sujet. Nous renvoyons le lecteur intéressé à ces articles.
22
Le MeSH est accessible à http://www.nlm.nih.gov/mesh/meshome.html
23
Voir (Charlet, 2002) pour un panorama plus large en notant que nous nous sommes intéressés
sciemment à des ressources au statut problématique. Il y a évidemment d’autres ressources dont le statut
ontologique est incontestable comme la GeneOntology <http://www.geneontology.org>.
24
Utilisation, au sens fort, c’est-à-dire pour faire des inférences.

51
Rapport AS « Web sémantique »

réutilisable ou pas, l’ontologie devait servir de représentation des connaissances du


domaine pour un SBC. Plus précisément, on peut dire maintenant qu’elle sert de
squelette à la représentation des connaissances du domaine dans la mesure où elle
décrit les concepts, leurs propriétés et la façon dont il peuvent se combiner pour
constituer des connaissances du domaine complètes. Cette caractéristique est valable
pour tout SBC, qu’il soit isolé ou doive servir à faire des inférences dans le contexte
du Web sémantique.
Des questions épistémologiques sur la réutilisabilité et incidemment la nature des
ontologies ont alimenté de longs débats (Charlet et al., 1996; Guarino, 1997; van
Heijst et al., 1997). La communauté française est particulièrement active dans ce
domaine, en particulier au niveau du groupe TIA, au sein duquel ontologies,
terminologies, bases de connaissances terminologiques, entre autres « produits » de la
recherche, sont caractérisés par rapport aux besoins de la Terminologie et de
l’Ingénierie des connaissances. Des nombreuses expériences menées au sein du
groupe, il ressort que la réutilisation simple des ontologies espérée au début des
années 90 a disparu et que des réflexions et outils nouveaux sont apparus nécessaires
pour aborder la question de la construction des ontologies et de leur réutilisation
(cf. § 2.2.2). L’autre conséquence est la nécessité d’assumer une certaine non
réutilisabilité des ontologies : en effet, les ontologies sont des artefacts construits en
fonction d’une tâche précise et ne peuvent être réutilisées, en tant qu’objet formel,
pour une autre tâche.
Ce constat fait, il en découle un certain nombre de recherches sur la réutilisabilité
du « haut » des ontologies dont l’argumentaire est le suivant : puisqu’il est difficile,
voire impossible, de réutiliser directement des ontologies, trop proches de vues
détaillées qu’on peut avoir sur un domaine, intéressons-nous au « haut » de
l’ontologie qui répertorie et organise de grandes catégories de la pensée ou de la
société humaine qui devraient pouvoir être réutilisables dans de très nombreuses
applications et être alors « génériques ». C’est l’objectif du groupe SUO25 (Standard
Upper Ontology) qui réfléchit à la constitution d’un haut d’ontologie, the S UMO
(Suggested Upper Merged Ontology), qui se voudrait universel pour les grandes
catégories d’objets et de pensées. Les discussions intenses au sein de ce groupe de
réflexion semblent montrer que le but ne sera pas atteint tout de suite. Mais sera-t-il
atteint un jour ? Avec les mêmes arguments épistémologiques que précédemment sur
la non réutilisabilité des ontologie, on peut penser qu’on ne sera pas capable de
construire ce type d’ontologie universelle.
Ajouté au fait qu’il est difficile de mettre d’accord de nombreuses personnes ou
institutions sur des conceptualisations partagées, une conséquence des réflexions
précédentes et qui semble inéluctable pour le Web sémantique est que les différentes
communautés de travail ou de pratiques vont développer et mettre à disposition des
ontologies portant sur des domaines restreints avec des ontologies différentes portant
sur des champs de conceptualisation identiques. Les questions autour principalement
de la comparaison, de la fusion, etc. des ontologies vont alors devenir cruciales
(cf. § 3.4).

25
http://suo.ieee.org

52
4 – Ontologies pour le Web sémantique

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB


SÉMANTIQUE

3.1 LE WEB SÉMANTIQUE AU SEIN DES RECHERCHES EN RC ET IC


Les travaux et recherches décrits jusque-là ont commencé antérieurement à la
diffusion des recherches sur le Web sémantique. C’est la raison pour laquelle ils sont
situés dans les acquis même si des recherches sont encore nécessaires. Ceci étant, les
recherches sur le Web sémantique ont pris leur essor avec l’implication de chercheurs
en Représentation des connaissances, autour des langages et systèmes d’inférences et
avec les chercheurs de l’Ingénierie des connaissances sur la question des
méthodologies d’élaboration des ontologies. C’est pourquoi, à partir de là, nous ne
chercherons pas à préciser l’origine de ces recherches et considérerons que ce sont
des acquis du Web sémantique.
Un des résultats forts du Web sémantique sur les ontologies est la normalisation de
leur expression. Ce point, indispensable si l’on veut que les ontologies puissent être
partagées, semble justement trouver une solution dans le contexte du Web
sémantique : la définition du langage OWL (Ontologies Web Language) à différents
niveaux de complexité (capacité de complexité des descriptions versus calculabilité)
en est le meilleur exemple. Cette question et d’autres sur les langages sont
développées au chapitre 2.
Après avoir abordé, à la section précédente, des problématiques que nous
considérons fondamentales et qui préexistaient aux recherches sur le Web sémantique,
nous allons poursuivre cette réflexion méthodologique avec des considérations plus
particulièrement issues de ces recherches.

3.2 DES MÉTHODOLOGIES DE CONSTRUCTION D ’ ONTOLOGIES


3.2.1 De bons principes méthodologiques
Passées les questions de méthodologies fondamentales, un certain nombre de
travaux proposent des principes de construction d’ontologies. Nous allons nous
attarder sur deux d’entre eux, paradigmatiques, les travaux de Th. R. Gruber (1993)
et ceux de M. Fernàndez et al. (1999).
Th. R. Gruber propose ainsi un certain nombre de principes à respecter pour
construire une ontologie :
Clarté. Les ambiguïtés doivent être réduites. Quand une définition peut être
axiomatisée, elle doit l’être. Dans tous les cas, des définitions en langage
naturel doivent être fournies.
Cohérence. Une ontologie doit être cohérente. Les axiomes doivent être
consistants. La cohérence des définitions en langage naturel doit être vérifiée
autant que faire se peut.
Extensibilité. L’ontologie doit être construite de telle manière que l’on puisse
l’étendre facilement, sans remettre en cause ce qui a déjà été fait.
Biais d’encodage minimal. L’ontologie doit être conceptualisée
indépendamment de tout langage d’implémentation. Le but est de permettre
le partage des connaissances (de l’ontologie) entre différentes applications
utilisant des langages de représentation différents.
Engagement ontologique minimal. Une ontologie doit faire un minimum
d’hypothèses sur le monde : elle doit contenir un vocabulaire partagé mais ne

53
Rapport AS « Web sémantique »

doit pas être une base de connaissances comportant des connaissances


supplémentaires sur le monde à modéliser.
D’autres principes du même type sont proposés par d’autres auteurs (cf. article de
A. GómezPérez (2000)). Il est facile de voir que la méthodologie que nous avons
décrite (cf. supra) fournit des moyens d’appliquer ces principes, au niveau
sémantique ou au niveau formel selon les cas.
M. Fernàndez et al. proposent, dans la méthodologie METH ONTOLOGY, de
construire une ontologie en respectant des activités de gestion de projet (planification,
assurance qualité), de développement (spécification, conceptualisation, formalisation,
implémentation, maintenance) et des activités de support (intégration, évaluation,
documentation). On retrouve là des problématiques de génie logiciel et de gestion de
projet informatique qu’on a tout intérêt à voir s’appliquer à la construction de
grandes ontologies, si on a une méthodologie réelle de construction, évidemment.
Cette méthodologie rejoint pour partie celle décrite par F. Gandon (2002) et
développée au sein de l’équipe ACACIA de l’I NRIA.
Enfin, nous renvoyons à l’article de A. Gómez-Pérez (2000), pour une description
plus complète d’ontologies et de méthodologies centrées sur des problématiques de
cycle de vie des ontologies.

3.2.2 Acquérir une ontologie à partir de DTD


Dans le cadre du Web sémantique, les systèmes médiateurs permettent d’établir une
connexion entre différentes sources d’information sur un même domaine. Ils utilisent
une ontologie qui sert de schéma global intermédiaire dans lequel sont exprimées les
requêtes qui peuvent être traduites dans la représentation de chaque source
d’information. Si ces sources d’information sont été développées avant le médiateur,
ce qui est le cas des organisations relatives à l’industrie du voyage, on peut disposer
des ontologies des sources (souvent sous forme de DTD XML) pour essayer de
construire l’ontologie du médiateur. C’est ce type de travail qui a été expérimenté
dans le projet P ICSEL et qui est abordé au chapitre 5, section 3 (Giraldo & Reynaud,
2002).
Il est important de noter que le Web sémantique ne se construira que si les
personnes et les institutions au sens large partagent une même sémantique d’un
domaine. Dans un domaine comme le voyage, décrit ici, il y a un existant dont il faut
tenir compte et on ne peut créer une ontologie ex-nihilo. Des approches à partir de
DTD, si elles n’aboutissent pas encore à des méthodologies stables permettent de tenir
compte de l’existant et sont ainsi indispensables à l’avènement et au fonctionnement
du Web sémantique (cf. § 3.4).

3.3 DES ÉDITEURS D ’ ONTOLOGIES


3.3.1 Introduction
De nombreux outils permettent aujourd’hui d’éditer des ontologies. Parmi ceux-ci,
quelques uns essaient de guider leur utilisateur dans l’élaboration de l’ontologie en
suivant une méthodologie de conception plus ou moins complète, que ce soit en
respectant des principes de cycle de vie et validation logiciels (cf. § 3.2.1), d’un côté,
ou, de l’autre côté, en outillant une réflexion épistémologique (cf. § 2.2.2). Dans tous
les cas, force est de constater qu’aucun de ces outils n’a réussi à s’imposer et la
réflexion sur l’outillage de la construction des ontologies reste donc ouverte. Les
outils proposés peuvent se regrouper grossièrement en deux catégories. Dans la
première, on trouve les plus anciens historiquement, qui permettent de spécifier les

54
4 – Ontologies pour le Web sémantique

ontologies au niveau symbolique (voir, par exemple, le serveur ONTOLINGUA26


(Farquar et al., 1995)) : une grande partie des définitions des objets se fait
directement dans un langage de représentation de connaissances donné (pour
ONTOLINGUA, il s’agit de KIF), auquel le créateur et l’utilisateur de l’ontologie
doivent se plier. Dans la seconde catégorie, les outils prennent mieux en compte
l’importance du niveau des connaissances : ils proposent à leur utilisateur de créer
l’ontologie de manière relativement indépendante de tout langage implémenté et
prennent ensuite automatiquement en charge l’opérationalisation de l’ontologie, en la
transposant dans divers langages. Cette évolution tend à rapprocher les ontologies de
leur but original : il semble en effet naturel de chercher à s’abstraire – dans un
premier temps – du niveau symbolique si on veut obtenir une ontologie permettant un
réel partage d’une compréhension. Cette dernière catégorie regroupe les outils
principalement utilisés aujourd’hui.

3.3.2 PROTÉGÉ-2000
PROTÉGÉ-2000 27 (Noy et al., 2000) est un environnement graphique de
développement d’ontologies développé par le SMI de Stanford. Dans le modèle des
connaissances de PROTÉGÉ, les ontologies consistent en une hiérarchie de classes qui
ont des attributs (slots), qui peuvent eux-mêmes avoir certaines propriétés (facets).
L’édition des listes de ces trois types d’objets se fait par l’intermédiaire de l’interface
graphique, sans avoir besoin d’exprimer ce que l’on a à spécifier dans un langage
formel : il suffit juste de remplir les différents formulaires correspondant à ce que
l’on veut spécifier. Ce modèle autorise d’ailleurs une liberté de conception assez
importante puisque le contenu des formulaires à remplir peut être modifié suivant les
besoins via un système de métaclasses, qui constituent des sortes de « patrons » de
connaissance. L’interface, très bien conçue, et l’architecture logicielle permettant
l’insertion de plugins pouvant apporter de nouvelles fonctionnalités (par exemple, la
possibilité d’importer et d’exporter les ontologies construites dans divers langages
opérationnels de représentation ou encore la spécification d’axiomes) ont participé au
succès de PROTÉGÉ-2000 qui regroupe une communauté d’utilisateurs assez
importante et constitue une référence pour beaucoup d’autres outils.

3.3.3 OILEd
OILEd 28 (Bechhofer et al., 2001), développé sous la responsabilité de l’université
de Manchester, a été conçu pour éditer des ontologies dans le langage de
représentation OIL, un des précurseurs du langage OWL29 (Ontology Web Language) qui est
aujourd’hui en voie d’être une recommandation W3C (cf. chap. 2). Officiellement, il
n’a pas d’autre ambition que de construire des exemples montrant les vertus du
langage pour lequel il a été créé. A ce titre, OILEd est souvent considéré comme une
simple interface de la logique de description SHIQ. Néanmoins, il offre la plus grande
partie de ce que l’on peut attendre d’un éditeur d’ontologies. On peut créer des
hiérarchies de classes et spécialiser les rôles, et utiliser avec l’interface les types
d’axiomes les plus courants. Cet éditeur offre également les services d’un raisonneur,
F aCT, qui apermet de tester la satisfaisabilité des définitions de classes et de découvrir
des subsomptions restées implicites dans l’ontologie.

26
http://www-ksl-svc.stanford.edu:5915/
27
http://protege.stanford.edu/index.shtml
28
http://oiled.man.ac.uk/
29
http://www.w3.org/2001/sw/WebOnt/

55
Rapport AS « Web sémantique »

3.3.4 OntoEdit
Contrairement aux deux outils précédents, ONTOEDIT (Sure et al., 2002) n’est pas
disponible gratuitement dans sa version complète30. Il présente les fonctionnalités
essentielles communes aux autres éditeurs (hiérarchie de concepts, expression
d’axiomes, export de l’ontologie dans des langages divers) et a le mérite de
s’appuyer sur une réflexion méthodologique significative. La modélisation des
axiomes a fait l’attention de soins particuliers pour pouvoir être effectuée – en tout
cas pour les types les plus répandus – indépendamment d’un formalisme privilégié et
cela pour faciliter la traduction d’un langage de représentation à un autre. Il propose
également une gestion originale des questionnaires de compétences. Des questions
pour les réponses desquelles l’ontologie doit fournir le matériel conceptuel, on peut
extraire les termes appelés à intégrer l’ontologie. Un petit outil fait une comparaison
lexicale des termes extraits des différentes questions pour en déduire
automatiquement d’éventuelles subsomptions. Le procédé semble cependant loin
d’être fiable puisqu’il repose sur l’hypothèse que le nom d’un concept se retrouve
parfois dans le nom de ses spécialisations.

3.3.5 WebODE
WebODE31 (Arpirez et al., 2001), développé par le LAI de Madrid, est une plate-
forme de conception d’ontologies fonctionnant en ligne. D’un point de vue
méthodologique, l’outil fait suite à ODE, un éditeur qui assurait fidèlement le support
de la méthodologie maison METHONTOLOGY (cf. § 3.2.1). Il illustre bien l’évolution
des outils de construction d’ontologies, puisque les nombreuses tables de son
prédécesseur ont été remplacées par une interface très travaillée, réalisant un pas
supplémentaire vers une conception au niveau des connaissances. On peut cependant
regretter que cette évolution se soit faite au détriment de l’application des contraintes
méthodologiques : les représentations intermédiaires utilisées dans le processus de
conception sont désormais moins mises en avant, à tel point que le guide de
l’utilisateur ne les signale que pour « assurer la compatibilité conceptuelle avec
ODE ». L’accent a plus été mis sur la possibilité d’un travail collaboratif ou sur la
mise à disposition d’outils complémentaires, comme un moteur d’inférences.

3.3.6 DOE
Le dernier outil présenté ici est DOE pour Differential Ontology Editor32 (B achimont
et al., 2002; Troncy & Isaac, 2002). Cet outil n’a pas pour ambition de concurrencer
les grands environnements existants, mais plutôt de fournir un début
d’implémentation à la méthodologie de structuration différentielle proposée par B.
Bachimont (cf. § 2.2.2). A l’instar des autres éditeurs, il offre une représentation
graphique des arbres de concepts et des relations de l’ontologie et permet d’interagir
avec les hiérarchies. L’outil assiste également la saisie des principes différentiels issus
de la méthodologie en automatisant partiellement cette tâche. Le modèle de
représentation de l’ontologie est finalement proche de celui du langage RDFS, à ceci
près qu’il autorise la modélisation de relations n-aires. Au niveau formel, l’éditeur est
capable de faire quelques inférences en vérifiant la consistance de l’ontologie
(propagation de l’arité le long de la hiérarchie des relations et héritage des domaines
par exemple).

30
Une version de démonstration est disponible sur le site d’Ontoprise, la société qui le développe en
collaboration avec l’AIFB de Karlsruhe
31
http://delicias.dia.fi.upm.es/webODE/
32
L’outil est disponible gratuitement à http://opales.ina.fr/public/

56
4 – Ontologies pour le Web sémantique

3.3.7 Des outils à parfaire


Tous ces outils sont capables de produire des ontologies dans les langages
DAML+OIL33 et RDFS34. Mais comme le montrent les expérimentations effectuées
dans le cadre des Workshops EON (Angele & Sure, 2002), les ontologies générées
sont loin d’être interopérables malgré un langage commun. Le support de ces outils
vis-à-vis du nouveau langage OWL est, lui, très hétérogène : PROTÉGÉ, O ILEd et D OE
produisent des ontologies OWL valides mais seul DOE est capable d’en importer. Enfin,
et c’est l’objet de la prochaine section, ils n’ont pas toutes les fonctionnalités, de plus
en plus nombreuses au fur et à mesure que les recherches se précisent, que réclame le
développement distribué du Web sémantique.

3.4 C OMPARAISON ET VERSIONS DES ONTOLOGIES


Nous avons vu précédemment les problèmes fondamentaux liés à la construction
d’ontologies réutilisables ou universelles (cf.. § 2.2.4). La conséquence de cette
situation est de solliciter des réflexions sur la façon de comparer et fusionner des
ontologies. En effet, même si on admet que les ontologies pour le Web sémantique
vont être partagées, au moins dans un premier temps, par des communautés d’intérêts
restreintes, les ontologies déjà développées pour un même domaine sont multiples, par
exemple dans le cas des voyages (cf. § 3.2.2) ou de la médecine. Plus, on peut très
facilement imaginer que les ontologies vont être développées dans des environnement
distribués et décentralisés qui vont requérir des fonctionnalités spécifiques (Klein &
Noy, 2003).
Les travaux autour de la question de la comparaison/fusion visent donc à prendre
en charge d’abord la tâche de comparaison de concepts au sein d’une ontologie :
c’est, en effet, via cette comparaison que l’on pourra décider de la fusion.
L’apparition d’environnements décentralisés connectés nous interrogent eux sur la
gestion des versions des ontologies au sens large. Sur ces questions, un rapport du
projet O NTOWEB35 fa it le point sur le fonctionnement et l’intégration d’un certain
nombre d’outils et nous a servi de point d’entrée pour cette analyse (OntoWeb, 2002)
mais en plus d’y renvoyer le lecteur nous voulons discuter les aspects sémantiques et
techniques importants de ces questions :
Comparaison des concepts dans la structure ontologique globale. La
comparaison des ontologies pour partage ou fusion n’est possible que si les
langages de représentation sont identiques. Leur puissance d’expression
permet alors des comparaisons logiques, sur les propriétés, etc. très fructueuses
mais le point crucial reste le sens réel des concepts : 2 concepts A et B ,
respectivement dans 2 ontologies O1 et O2 , qui semblent semblables
correspondent-ils réellement au même concept ? Le nom du concept, son label
dans l’ontologie ne suffit pas, surtout pas, à répondre : en effet, ce n’est pas le
label du concept qui fait sa signification dans une ontologie, c’est sa place
dans l’arborescence (cf. § 2.2.2). Si ce label nous aide à intuiter la
signification du concept, il n’est porteur de rien vis-à-vis de la représentation
et peut même laisser croire à des identités qui n’en sont pas (Bachimont,
2000). Dans ce contexte, certains travaux comme ceux de Noy et Musen
(2001) sont intéressants : ils partent de paires de concepts qui semblent
proches (découverts de façon automatique ou proposés manuellement) et
calculent leur similarité « hors contexte » en étudiant les chemins qui relient
les paires de concepts. Le « hors contexte » vient que les paires de concepts
étudiées (les ancres de la recherche) peuvent être éloignées. Ces réflexions

33
http://www.daml.org/language/
34
http://www.w3.org/TR/rdf-schema/
35
http://www.ontoweb.org

57
Rapport AS « Web sémantique »

sont implémentées dans Anchor-PROMPT et, à notre avis, prometteuses pour


une comparaison sémantique des ontologies.
Gestion des versions. La gestion des versions est une tâche indispensable de
l’ingénierie ontologique au sein des environnements distribuées (cf. supra).
La plupart des éditeurs d’ontologies (cf. § 3.3) ont une fonction de log qui
offre une trace des changements effectués sur l’ontologie éditée mais elle est
insuffisante dans de tels environnements : en effet, il ne suffit pas d’avoir une
simple trace des changements effectués dans une ontologie, il faut pouvoir
prendre en charge un certain nombre de fonctionnalités répondant au
questionnement suivant (Klein & Noy, 2003) :
Mise à jour d’ontologies. Les évolutions d’une ontologie sont-elles
conceptuelles ou sont-elles des évolutions de la spécification, c’est-à-dire
de la théorie logique sous-jacente ? Il est clair que ces 2 caractéristiques
peuvent évoluer différemment et que la spécification (le formel) ne suffit
pas à décrire une ontologie. Quel est alors le bon niveau de description
d’une ontologie en vue gérer ses évolutions (Klein et al., 2002) ?
Mise à jour d’ontologies distribuées. Si on adapte une ontologie distante à un
usage local et que cette ontologie distante évolue, il faut pouvoir (si
nécessaire) faire évoluer l’ontologie locale. À la suite de la question
précédente, peut-on construire une grammaire des changements à prendre
en compte ? Peut-on construire une ontologie des changements (Klein et
al., 2002) ?
Vérification et validation d’une ontologie. Si plusieurs personnes ou équipes
interviennent pour faire évoluer des ontologies, il faut pouvoir valider ou
pas les changements et faire marche arrière si nécessaire. Cela pose des
questions du même type que précédemment.
Consistance. Si une ontologie évolue, quel est le statut de cette évolution,
formellement parlant ? La théorie logique sous-jacente peut évoluer. Les
axiomes valables dans l’ancienne version, sont-ils toujours valables dans la
nouvelle ? Les données interprétées dans l’ancienne version sont-elles
toujours correctement interprétées dans la nouvelle ?
Ces questions sont abordées et obtiennent des propositions de réponses dans les
références citées ici et d’autres au sein de la communauté Web sémantique.

4 RECHERCHES FUTURES POUR LE WEB


SÉMANTIQUE

4.1 V ERS UNE MÉTHODOLOGIE ET DES OUTILS INTÉGRÉS


Les propositions méthodologiques faites dans la section 2.2.2 n’abordent pas
toutes les conséquences logiques de l’engagement ontologique, pourtant nécessaire à
toute formalisation. Si l’on veut développer une méthodologie qui prenne en compte
toutes les étapes de la construction d’ontologie, il est alors nécessaire d’étudier les
liens qu’entretiennent la normalisation sémantique et l’engagement ontologique de N.
Guarino36.

36
La question a été abordée dans (Bachimont, 2001) qui constate que la formalisation est une
spécification formelle donc extensionnelle de l’ontologie ainsi définie et que le sens des concepts est
alors dans les objets définis en extension. Ainsi, N. Guarino a abordé des problèmes analogues à la
normalisation sémantique, en proposant, au niveau formel (Guarino, 1999), une méthode à base de
métapropriétés (identité, rigidité, anti-rigidité, dépendance) qui contraint l’organisation d’une ontologie
formelle, en particulier la relation de subsomption, en fonction des propriétés des nœuds qui la

58
4 – Ontologies pour le Web sémantique

Par ailleurs, il ne se dégage pas de consensus sur les méthodologies de construction


d’ontologies. Cela est dû en partie à la diversité des motivations de construction des
ontologies et à la complexité des domaines. Une ontologie d’indexation d’équipes de
recherche comme exemplifiée dans le projet (KA) 2 (Benjamins et al., 1998) est
beaucoup plus simple et appréhendable qu’une ontologie de la réanimation
chirurgicale destinée à rendre des services terminologiques (Le Moigno et al., 2002).
Ce sont pourtant deux facettes des problèmes d’indexation dans le contexte du Web
sémantique. La conséquence d’une telle disparité se retrouve au sein des nombreux
outils, les éditeurs d’ontologies, développés. Ces outils ont besoin d’être utilisés dans
de nombreux projets pour tester leur utilisabilité et réfléchir sur les fonctionnalités
nécessaires à l’édition d’ontologies du début à la fin du processus. Nous verrons, dans
les cas les plus complexes, que d’autres solutions doivent être envisagées que
l’élaboration et l’utilisation d’une « simple » ontologie (cf. § 4.3).

4.2 C OMPARAISON ET FUSION DES ONTOLOGIES


Si les travaux sur les ontologies ont une dizaine d’années, ceux sur la fusion ou la
gestion des versions sont évidemment encore plus récents (cf. § 3.4) et leur poursuite
est indispensable pour que les ontologies servent le Web sémantique : que ce soit dans
la dimension syntaxique, où les travaux du Web sémantique sont bien avancés même
s’ils soulèvent de nombreuses questions de représentation (cf. chap. 2), ou dans la
dimension logique où l’utilisation d’une ontologie doit pouvoir être caractérisée et
assurée durant l’évolution de celle-ci. Plus important encore, la dimension sémantique
des ontologies doit être prise en compte dans les comparaisons/fusions, c’est-à-dire
que les ontologies doivent pouvoir être comparées pour la signification des concepts
et pas seulement, même si c’est nécessaire, pour leur caractéristique logique. Cette
prise en compte est ainsi cruciale dans de nombreux points du Web sémantique, en
particulier, dans le contexte des systèmes de médiations centralisés (cf. chap. 5, § 4.1).
Nous renvoyons le lecteur à ce dernier chapitre pour approfondir les nécessités autour
des ontologies en ce domaine.

4.3 C ACHER LA COMPLEXITÉ


Un des aspects importants, en vue de l’adoption du Web sémantique, est la capacité
d’aider des utilisateurs non spécialistes à créer et à exploiter des ressources
exploitables dans le cadre des infrastructures et des outils proposés par le Web
sémantique. En d’autres termes, comment cacher la complexité des technologies du
Web sémantique ?
Avant de répondre à cette dernière question, il est nécessaire de prendre conscience
que le niveau de conceptualisation des ontologies n’est pas toujours accessible aux
utilisateurs, même spécialistes du domaine. Ainsi, les ontologies en médecine sont
inaccessibles à d’autres que leurs créateurs : d’abord parce qu’elles représentent un
niveau de conceptualisation utile pour la tâche qui est demandé au SBC mais inutile à
l’expression des concepts médicaux dans la pratique médicale, ensuite parce qu’en
médecine comme dans d’autres domaines, l’expression des connaissances se fait en
langue naturelle et que cette expression est normée par des thesaurus développés et
utilisés depuis de très nombreuses années (cf. § 2.2.3). Ainsi, l’accès aux ontologies
par des utilisateurs, mêmes professionnels, nécessite de gérer le lien entre les concepts
des ontologies et les termes du langage naturel, que ce soit pour une simple
compréhension ou pour l’indexation et la construction de requêtes destinées à des
tâches de recherche d’information. Les solutions mises en œuvre à ce jour passent par
deux types de propositions :

composent. Cette convergence de vues peut être intéressante à exploiter dans la recherche d’une
méthodologie intégrée.

59
Rapport AS « Web sémantique »

– des méthodologies séparant explicitement les termes et les concepts d’un


domaine et c’est ce qui est expérimenté en médecine dans des serveurs de
terminologie (Rector, 1998) ou dans d’autres domaines dans ce que les
chercheurs appellent des thesaurus sémantiques (Roussey et al., 2002) ;
– des méthodologies s’écartant de la formalisation des ontologies et recherchant
des proximités conceptuelles dans les termes d’un domaine permettant d’en
appréhender intuitivement la complexité (Bourigault & Lame, 2002) ;

Cette dernière approche interroge directement les chercheurs du Web sémantique :


saurons-nous mettre en place des ressources formelles, des ontologies, pour le Web
sémantique ou devrons-nous en passer par des ressources moins formelles mais
appréhendables par les utilisateurs ? Ces deux possibilités n’étant d’ailleurs pas
exclusives.

RÉFÉRENCES
J. A NGELE & Y. S URE , Eds. (2002). First International Workshop Evaluation of Ontology-based
Tools (EON’02) , volume (62) of CEUR-WS, Sigüenza, Espagne. http://CEUR-
WS.org/Vol-62/.
ARPIREZ J., C ORCHO O., F ERNÁNDEZ-LÓPEZ M. & G ÓMEZ-PÉREZ A. (2001). WebODE : a
Workbench for Ontological Engineering. In First international Conference on Knowledge
Capture (K-CAP’01), p. 6–13, Victoria, Canada: ACM.
AUSSENAC-GILLES N., B IEBOW B. & SZULMAN S. (2003). D’une méthode à un guide pratique de
modélisation des connaissances à partir de textes. In Actes des 5 es journées Terminologie et
Intelligence Artificielle, p. 41–53, Strasbourg.
BACHIMONT B. (2000). Engagement sémantique et engagement ontologique : conception et
réalisation d’ontologies en ingénierie des connaissances. In J. CHARLET, M. Z ACKLAD, G.
KASSEL & D. BOURIGAULT, Eds.,Ingénierie des connaissances : évolutions récentes et
nouveaux défi , chapter 19. Paris: Eyrolles.
BACHIMONT B. (2001). Modélisation linguistique et modélisation logique des ontologies :
l’apport de l’ontologie formelle. In J. CHARLET, Ed., Actes des 5 es Journées Ingénierie des
Connaissances, p. 349–68, Grenoble, France.
BACHIMONT B., ISAAC A. & TRONCY R. (2002). Semantic Commitment for Designing
Ontologies: A Proposal. In A. G OMEZ-PÉREZ & V. B ENJAMINS, Eds., 13th International
Conference on Knowledge Engineering and Knowledge Management (EKAW’02), volume
(2473) of Lecture Notes in Artificial Intelligence, p. 114–121, Sigüenza, Espagne: Springer
Verlag.
BECHHOFER S., H ORROCKS I., G OBLE C. & S TEVENS R. (2001). OilEd: a Reason-able Ontology
Editor for the Semantic Web. In Joint German/Austrian conference on Artificial Intelligence
(KI’01), volume (2174) of Lecture Notes in Artificial Intelligence, p. 396–408, Vienne,
Autriche: Springer Verlag.
BENJAMINS V. R ., F ENSEL D. P. A. (1998). Knowledge management through ontologies. In
Proceedings of the 2nd Conf. On Practical Aspects of Knowledge Management, Basel,
Switzerland.
BOURIGAULT D. (2002). Analyse distributionnelle étendue. In Actes de la 9 e conférence sur le
traitement automatique des langues, Nancy.
BOURIGAULT D., AUSSENAC-GILLES N. & C HARLET J. (2003). Construction de ressources
terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de
cas. Revue d’Intelligence Artificielle . À paraître.
BOURIGAULT D. & F ABRE C. (2000). Approche linguistique pour l’analyse syntaxique de corpus.
Cahiers de Grammaires, (25), 131–51. numéro spécial « sémantique et corpus ».

60
4 – Ontologies pour le Web sémantique

BOURIGAULT D. & L AME G. (2002). Analyse distributionnelle et structuration de terminologie.


application à la construction d’une ontologie documentaire du droit. Traitement automatique
des langues, 43(1).
BRACHMAN R. (1983). What IS-A Is and Isn’t: An analysis of taxonomic links in semantic
networks. IEEE Computer, 16(10), 30–6.
BRACHMAN R. J., M CGUINESS D. L., P ATEL-SCHNEIDER P. F., R ESNIK L. A. & B ORGIDA A.
(1991). Living with Classic: When and how to use a KL-ONE-like language. In J. F. SOWA,
Ed., Principles of Semantic Networks, chapter 14, p. 401–456. San Mateo, Ca. Morgan
Kaufmann Publishers.
C HARLET J. (2002). L’Ingénierie des connaissances : développements, résultats et perspectives
pour la gestion des connaissances médicales. Habilitation à diriger des recherches, Université
Paris 6.
C HARLET J., BACHIMONT B., BOUAUD J. & ZWEIGENBAUM P. (1996). Ontologie et
réutilisabilité : expérience et discussion. In N. AUSSENAC-GILLES, P. LAUBLET & C.
R EYNAUD, Eds., Acquisition et ingénierie des connaissances : tendances actuelles, chapter 4,
p. 69–87. Cepaduès-éditions.
F ARQUAR A., F IKES R., P RATT W. & R ICE J. (1995). Collaborative Ontology Construction for
Information Integration. Rapport de recherche KSL-95-63, Knowledge Systems Laboratory,
Department of Computer Science.
F AURE D. & N EDELLEC C. (1999). Knowledge acquisition of predicate argument structures from
technical texts using machine learning: The system ASIUM. In Proc. of the 11 th European
Workshop, Knowledge Acquisition, Modelling and Management, number 1937 in LNAI, p.
329–334, Juan-les-Pins, France: Springer-Verlag.
F ERNÀNDEZ M., GÓMEZ-PÉREZ A., P AZOS J. & P AZOS A. (1999). Bulding a chemical ontology
using methontology and the ontology design environment. IEEE Intelligent System and their
Applications, 14(1), 37–45.
GANDON F. (2002). Ontology Engineering : a Survey and a Return on Experience. Rapport
interne 4396, I NRIA. 181 p., ISSN 0249-6399.
GIRALDO G. & R EYNAUD C. (2002). Construction semi-automatique d’ontologies à partir de
DTDs relatives à un même domaine. In B. BACHIMONT, Ed., Actes des 6es Journées Ingénierie
des Connaissances, p. 53–61, Rouen, France.
GÓMEZ-PÉREZ A. (2000). Développements récents en matière de conception, de maintenance et
d’utilisation d’ontologies. Terminologies Nouvelles, (19), 9–20. Traduit de l’anglais par S.
Descotte.
GRUBER T. R. (1993). A translation approach to portable ontology specifications. Knowledge
Acquisition, 5, 199–220.
GUARINO N. (1997). Undestanding, building, and using ontologies. International Journal of
HumanComputer Studies, 45(2/3), 293–310.
GUARINO N. (1999). The role of identity conditions in ontology design. In V. BENJAMINS, B.
C HANDRASEKARAN, A. G OMEZ-PEREZ, N. G UARINO & M. U SCHOLD, Eds., Proc. of the
IJCA’99 Workshop on Ontologies and Problem-Solving Methods, p. 2/1–2/7, Sweden.
GUARINO N. & G IARETTA P. (1995). Ontologies and knowledge bases. In Towards Very Large
Knowledge Bases. Amsterdam: IOS Press.
GUARINO N. & WELTY C. (2000). A Formal Ontology of Properties. In R. DIENG & O. C ORBY,
Eds., 12th International Conference on Knowledge Engineering and Knowledge Management
(EKAW’00), volume (1937) of Lecture Notes in Computer Science, p. 97-112, Juan-les-Pins,
France: Springer Verlag.
KLEIN M., KIRYAKOV A., OGNYANOFF D. & F ENSEL D. (2002). Finding and specifying
relations between ontology versions. In Proceedings of the workshop on Ontologies and
Semantic Interoperability at the 15th ECAI, Lyon, France. Accessible à
http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-64/.

61
Rapport AS « Web sémantique »

KLEIN M. & N OY N. F. (2003). A component-based framework for ontology evolution. In


Proceedings of the workshop on Ontologies and Distributed Systems at the 9th IJCAI,
Acapulco, Mexico.
LE MOIGNO S., C HARLET J., B OURIGAULT D. & J AULENT M.-C. (2002). Construction d’une
ontologie à partir de corpus : expérimentation et validation dans le domaine de la réanimation
chirurgicale. In B. BACHIMONT, Ed., Actes des 6es Journées Ingénierie des Connaissances, p.
229–38, Rouen, France.
MAEDCHE A.& STAAB S. (2000). Mining ontologies from text. In R. DIENG & O.C ORBY, Eds.,
Proc. of the 12th European Workshop, Knowledge Engineering and Knowledge management:
methods, models and Tools.
NELSON S. J., J OHNSTON D. & H UMPHREYS B. L. (2001). Relationships in medical subject
headings. In C. A. BEAN & R.GREEN, Eds., Relationships in the organization of knowledge,
New York: Kluwer Academic Publishers.
NEWELL A. (1982). The knowledge level. Artificial Intelligence , 18, 87–127.
NOY N., F ERGERSON R. & MUSEN M. (2000). The knowledge model of Protégé2000 :
Combining interoperability and flexibility. In R. D IENG & O.CORBY, Eds., 12th International
Conference on Knowledge Engineering and Knowledge Management (EKAW’00), volume
(1937) of Lecture Notes in Computer Science, p. 17–32, Juan-les-Pins, France: Springer
Verlag.
NOY N. F. & MUSEN M. A. (2001). Using non-local context for semantic matching. In
Proceedings of the workshop on Ontologies and Information Sharing at the 17th IJCAI, Seattle.
ONTOWEB C. (2002). Ontology-based information exchange for knowledge management and
electronic commerce. Deliverable 1.3, IST Projetc IST-2000-29243 OntoWeb.
R EBEYROLLES J. (2000). Repérage automatique de structures linguistiques en corpus : le cas des
énoncés définitoires. Cahiers de Grammaires, (25), 153–74. numéro spécial «sémantique et
corpus ».
R ECTOR A. L. (1998). Thesauri and formal classifications: Terminologies for people and
machines. Methods of Information in Medicine, 37(4–5), 501–509.
R OUSSEY C., C ALABRETTO S. & P INON J.-M. (2002). Le thésaurus sémantique : contribution à
l’ingénierie des connaissances documentaires. In B. BACHIMONT, Ed., Actes des 6es Journées
Ingénierie des Connaissances, p. 209–20, Rouen, France.
S LODZIAN M. (1999). WordNet et EuroWordNet : questions impertinentes sur leur pertinence
linguistique. Sémiotiques, (17), 51–70. Numéro spécial Dépasser les sens iniques dans l’accès
automatisé aux textes, coordonné par B. Habert.
S LODZIAN M. (2000). Wordnet: what about its linguistic relevancy? In R. DIENG, Ed., Proc. of
the EKAW conference, Juan-les-Pins, France.
S URE Y., E RDMANN M., A NGELE J., S TAAB S., S TUDER R. & W ENKE D. (2002). OntoEdit:
Collaborative Ontology Engineering for the Semantic Web. In I. HORROCKS & J. H ENDLER,
Eds., First International Semantic Web Conference (ISWC’02), volume (2342) of Lecture
Notes in Computer Science,p. 221–235, Chia, Sardaigne, Italie: Springer Verlag.
TRONCY R. (2003). Le raisonnement dans les descriptions documentaires : l’apport de la
représentation des connaissances. In R. DIENG-KUNTZ, Ed., Actes des 7es Journées Ingénierie
des Connaissances, Laval, France: Presses universitaires de Grenoble.
TRONCY R. & I SAAC A. (2002). DOE : une mise en œuvre d’une méthode de structuration
différentielle pour les ontologies. In 13es Journées Francophones d’Ingénierie des
Connaissances (IC’02) , p. 63–74, Rouen, France.
USCHOLD M. & GRUNINGER M. (1996). Ontologies: Principles, methods and applications.
Knowledge Engineering Review.
VA N HEIJST G., S CHREIBER A. T. & WIELINGA B. J. (1997). Using explicit ontologies in KBS
development. International Journal of Human-Computer Studies, 45(2/3), 183–292.

62
4 – Ontologies pour le Web sémantique

WEIS J.-C. & C HARLET J. (2003). Construction d’ontologie à partir de textes : application à un
réseau de périnatalité. In R. DIENG-K UNTZ, Ed., Actes des 7es Journées Ingénierie des
Connaissances, Laval, France: Presses universitaires de Grenoble.
WOODS W. A. (1991). Understanding subsumption and taxonomy: A framework for progress. In
J. F. S OWA,Ed.,Principles of Semantic Networks, chapter 1, p. 45–94. San Mateo, Ca:
Morgan Kaufmann Publishers.
ZWEIGENBAUM P., BACHIMONT B., BOUAUD J., C HARLET J. & B OISVIEUX J.-F. (1995). Issues
in the structuring and acquisition of an ontology for medical language understanding. Methods
of Information in Medicine, 34(1/2).

63
5 – L’intégration de sources de données
Mohand-Saïd Hacid1, Chantal Reynaud2

1
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
mshacid@liris.univ-lyon1.fr
2
Université Paris X
LRI (Université Paris-Sud & CNRS), UR INRIA Futurs *
(*) Gemo, Pôle Commun de Recherche en Informatique du plateau de Saclay,
CNRS, École Polytechnique, INRIA, Université Paris-Sud.
Chantal.Reynaud@lri.fr

Résumé
La diversité des sources d’information distribuées et leur hétérogénéité est une des
principales difficultés rencontrées par les utilisateurs du Web aujourd’hui.
L’infrastructure du Web sémantique doit permettre leur intégration donnant ainsi
l’impression à l’utilisateur qu’il utilise un système homogène. Les solutions à
l’intégration d’information proposées dans le cadre du Web sémantique tireront parti
des recherches concernant les approches médiateurs et les entrepôts de données. Les
premières réalisations sont en cours. Un des premiers verrous scientifiques à lever
concerne le passage à l’échelle du Web. Parmi les travaux futurs, dont le
développement doit être favorisé, figurent la mise en œuvre de systèmes de médiation
décentralisés, l’étude des problèmes liés à l’intégration de données multimédias,
l’intégration temps réel et également la prise en compte de la complexité croissante
des données à intégrer, signe d’une évolution vers une intégration de connaissances.
Mots-clés : intégration d’information, médiateurs, entrepôts de données.

65
Rapport AS « Web sémantique »

1 P RÉ SENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES

La diversité des sources d’information distribuées et leur hétérogénéité est une des
principales difficultés rencontrées par les utilisateurs du Web aujourd’hui. Cette
hétérogénéité peut provenir du format ou de la structure des sources (sources
structurées : bases de données relationnelles, sources semi-structurées : documents
XML, ou non structurées : textes), du mode d’accès et de requête ou de
l’hétérogénéité sémantique : entre les schémas conceptuels ou ontologies implicites
ou explicites sous-jacentes. Il est en effet illusoire de penser qu’une même ontologie
“ universelle ” sera largement utilisée. Par ailleurs, les termes sont parfois exprimés
dans des langues différentes.
La prise en compte de ces problèmes est une des clés de la mise en place
d’applications Web sémantique. Elle s’avèrera encore plus fondamentale si l’on
adhère à la vision, à plus long terme, d’agents logiciels capables de raisonner en
accédant à des ressources variées. Dans ce contexte, le Web sémantique doit d’abord
être une infrastructure dans laquelle l’intégration des informations d’une variété de
sources peut être réalisée et facilitée. Le Web sémantique devrait donc tirer largement
bénéfice des recherches déjà effectuées en intégration d’information, concernant en
particulier la réalisation de systèmes de médiation et la réalisation d’entrepôts de
données et des résultats déjà obtenus.
L’aide apportée par les systèmes de médiation peut recouvrir différentes formes :
découvrir les sources pertinentes étant donnée une requête posée, puis aider à accéder
à ces sources pertinentes, évitant à l’utilisateur d’interroger lui-même chacune d’elles
selon leurs propres modalités et leur propre vocabulaire, enfin combiner
automatiquement les réponses partielles obtenues de plusieurs sources de façon à
délivrer une réponse globale. De tels systèmes de médiation offrent à l’utilisateur une
vue uniforme et centralisée des données distribuées, cette vue pouvant aussi
correspondre à une vision plus abstraite, condensée, qualitative des données et donc,
plus signifiante pour l’utilisateur. Ces systèmes de médiation sont, par ailleurs, très
utiles, en présence de données hétérogènes, car ils donnent l’impression d’utiliser un
système homogène. Parmi les différentes grandes catégories d’applications de ces
systèmes de médiation, on peut citer les applications de recherche d’information,
celles d’aide à la décision en ligne (avec entre autres l’utilisation d’entrepôts de
données) et celles, de manière plus générale, de gestion de connaissances au sens
large.
A titre d’illustration très simple du premier type d’applications, supposons qu’un
utilisateur pose la requête suivante : quels sont les films de Woody Allen à l’affiche à
Paris ce soir ? où ? leurs critiques ? Supposons l’existence de deux sources
d’information. La première, Internet Movie Data Base, utilise un système de gestion
de bases de données relationnel et contient une liste de films, précisant pour chacun
le titre, les acteurs et le cinéaste. La seconde, Pariscope, qui peut utiliser des fichiers
XML, contient, par film, les salles où le film peut être vu et, pour chaque salle, le nom
de la salle et l’adresse. La réponse à la requête devra être construite en interrogeant
chacune d’elles et en combinant les résultats de l’interrogation de façon à offrir à
l’utilisateur une réponse globale.
Plus récemment, de nouvelles applications ont vu le jour dans les entreprises :
eCRM, Business Intelligence, eERP , eKM, etc. Ces applications, que l’on désigne
parfois sous le vocable de WebHouse (Kimball & Merz, 2000) si elles sont menées
dans le contexte du Web, s’appuyent sur la construction d’entrepôts de données sur le
Web. Elles se trouvent également confrontées au problème de la médiation
puisqu’elles mettent en œuvre un processus d’acquisition de données, souvent en
temps réel, provenant de sources multiples, distribuées et hétérogènes. La conception

66
5 – L’Intégration de sources de données

d’outils de médiation intelligents entre les utilisateurs et les sources d’informations,


accessibles via le Web ou stockées localement, est nécessaire. Ils aident l’utilisateur à
spécifier facilement les données qu’il recherche, celui-ci ayant l’impression d’utiliser
un système unique et homogène.
L’approche médiateur a fait l’objet de nombreux travaux. Les résultats obtenus à
ce jour sont intéressants mais ne peuvent être mis en œuvre en l’état à l’échelle du
Web. Dans le cadre du Web sémantique, l’intégration de sources d’information devra
s’appuyer sur de multiples systèmes de médiation, ces systèmes participant de manière
distribuée et collective au traitement des requêtes utilisateurs. Les connexions entre
systèmes de médiation donneront au Web toute sa puissance, autorisant la recherche
de données dans des sources non directement connectées aux sources du serveur
interrogé.

2 MÉTHODES , TECHNIQUES ET OUTILS EXISTANTS SUR


LESQUELS ON PEUT S ’APPUYER

Les solutions à l’intégration d’information proposées dans le cadre du Web


sémantique tireront parti des recherches déjà effectuées dans le domaine. Nous
présentons ci-dessous les deux approches d’intégration existantes : les approches
médiateurs et les approches entrepôts de données.

2.1 L’APPROCHE MÉDIATEUR


2.1.1 Présentation générale
L’approche médiateur (Wiederhold, 1992) consiste à définir une interface entre
l’agent (humain ou logiciel) qui pose une requête et l’ensemble des sources
accessibles via le Web potentiellement pertinentes pour répondre. L’objectif est de
donner l’impression d’interroger un système centralisé et homogène alors que les
sources interrogées sont réparties, autonomes et hétérogènes.
Un médiateur (Cf. Fig. 1) comprend un schéma global, ou ontologie, dont le rôle
est central. C’est un modèle du domaine d’application du système. L’ontologie
fournit un vocabulaire structuré servant de support à l’expression des requêtes. Par
ailleurs, elle établit une connexion entre les différentes sources accessibles. En effet,
dans cette approche, l’intégration d’information est fondée sur l’exploitation de vues
abstraites décrivant de façon homogène et uniforme le contenu des sources
d’information dans les termes de l’ontologie. Les sources d’information pertinentes,
pour répondre à une requête, sont calculées par réécriture de la requête en termes de
ces vues. Le problème consiste à trouver une requête qui, selon le choix de conception
du médiateur, est équivalente ou implique logiquement, la requête de l’utilisateur mais
n’utilise que des vues. Les réponses à la requête posée sont ensuite obtenues en
évaluant les réécritures de cette requête sur les extensions des vues.
L’approche médiateur présente l’intérêt de pouvoir construire un système
d’interrogation de sources de données sans toucher aux données qui restent stockées
dans leurs sources d’origine. Ainsi, le médiateur ne peut pas évaluer directement les
requêtes qui lui sont posées car il ne contient pas de données, ces dernières étant
stockées de façon distribuée dans des sources indépendantes. L’interrogation effective
des sources se fait via des adaptateurs, appelés des wrappers en anglais, qui traduisent
les requêtes réécrites en termes de vues dans le langage de requêtes spécifique accepté
par chaque source.

67
Rapport AS « Web sémantique »

Requête de l’utilisateur : Film (Woody Allen, Adresse, Date)

Requêtes

et réponses
Domaine d’application 1 Domaine d’application
n

Schéma Schéma
global 1 global n
Moteur
de
requête
s

Vues de la Vues de la Vues de la Vues de la Vues de la Vues de la


source 11 source 12 source 1k source n1 source nl
source n2

Réécritures
et réponses

Adaptateur Adaptateur Adaptateur Adaptateur Adaptateur Adaptateur


11 12 1k n1 n2 nl

Schéma Schéma Schéma Schéma Schéma Schéma


Données Données Données Données Données Données

Base de données Fichiers HTML Fichiers XML Base de données Fichiers HTML Fichiers XML

F I G . 1 - Architecture d’un système médiateur

2.1.2 Panorama des médiateurs existants


Les différents systèmes d’intégration d’informations à base de médiateurs se
distinguent par : d’une part, la façon dont est établie la correspondance entre le
schéma global et les schémas des sources de données à intégrer, d’autre part les
langages utilisés pour modéliser le schéma global, les schémas des sources de données
à intégrer et les requêtes des utilisateurs.
Concernant le premier point, on distingue l’approche Global As Views (GAV) de
l’approche Local As Views (LAV). L’approche GAV, qui provient du monde des
bases de données fédérées, consiste à définir le schéma global en fonction des
schémas des sources de données à intégrer. Les systèmes suivant cette approche sont :
HERMES (Subrahmanian et al., 1995), TSIMMIS (Chawathe et al., 1994) (Ullman,
1997), MOMIS (Beneventano et al., 2000). L’approche LAV est l’approche duale.
Elle est adoptée dans les systèmes suivants : Razor (Friedman & Weld , 1997), Internet
Softbot (Etzioni & Weld, 1994), Infomaster (Genesereth et al., 1997), Information
Manifold (Kirk et al., 1995) (Levy et al., 1996), SIMS (Arens & Knoblock, 1993),
OBSERVER (Mena et al., 1996), PICSEL (Rousset et al., 2002). Les avantages et
inconvénients de ces deux approches sont inverses (Rahm et al., 2001). Selon
l’approche LAV, il est très facile d’ajouter une source d’information, cela n’a aucun
effet sur le schéma global. En revanche, la construction des réponses à des requêtes est
complexe, contrairement à la construction de réponses dans un système adoptant une
approche GAV qui consiste simplement à remplacer les prédicats du schéma global de
la requête par leur définition.

68
5 – L’Intégration de sources de données

Les systèmes existants se différencient également par le langage qu’ils utilisent


pour exprimer le schéma global. On distingue les systèmes fondés sur un schéma
global à base de règles (Razor, Internet Softbot, Infomaster, Information Manifold,
HERMES), des systèmes fondés sur un schéma à base de classes (langage orienté objet
(TSIMMIS)), logique de description (SIMS, OBSERVER, MOMIS), ou encore des
systèmes combinant le pouvoir d’expression d’un formalisme à base de règles et
d’un formalisme à base de classes (PICSEL). Enfin, plus récemment, sont apparus des
médiateurs au dessus de données semi-structurées ayant le format de documents XML
(C-Web, Xyleme (Xyleme, 2001)). Ces systèmes sont fondés sur un schéma global à
base d’arbres. Ils relèvent à la fois de l’approche GAV et LAV, la correspondance
entre le vocabulaire du médiateur et celui des sources étant exprimée par de simples
mappings de chemins.

2.1.3 Problèmes étudiés


Les travaux réalisés jusqu’alors dans le domaine des systèmes médiateurs se situent
dans le contexte d’une médiation centralisée.
Dans ce cadre, des études ont porté sur les langages pour modéliser le schéma
global, pour représenter les vues sur les sources à intégrer et pour exprimer les
requêtes provenant des utilisateurs humains ou d’entités informatiques (Goasdoué et
al., 2000).
Des travaux ont porté sur la conception et la mise en œuvre d’algorithmes de
réécriture de requêtes en termes de vues sur les sources de données pertinentes, celles-
ci pouvant être connectées directement ou indirectement aux sources du serveur
interrogé. Le problème à ce niveau peut consister à générer des expressions de calcul
permettant de définir tous les objets du niveau global à partir des sources existantes.
Le calcul de ces expressions nécessite la connaissance de l’ensemble des sources utiles
à sa dérivation.
Enfin, plus récemment, certains travaux portent sur la conception d’interfaces
intelligentes assistant l’utilisateur dans la formulation de requêtes, l’aidant à affiner
une requête en cas d’absence de réponses ou de réponses beaucoup trop nombreuses
(Bidault et al. 2000).
L’idée de médiation entre sources de données utilisant des relations sémantiques
locales n’est par ailleurs pas nouvelle. Ce problème a été également étudié dans le
cadre des bases de données fédérées, consistant à étudier les mises en correspondance
entre relations stockées. Dans le contexte du Web, toutefois, les techniques de bases de
données fédérées ne sont pas réutilisables car le problème est étudié à plus grande
échelle et les techniques proposées ne sont pas suffisamment flexibles. Il doit être bien
plus facile de faire des ajouts ou des retraits de données et donc des mises en
correspondance entre relations. Les systèmes accessibles via le Web sont par ailleurs
particuliers dans la mesure où ils peuvent jouer des rôles multiples. Il peut s’agir de
sources de données et/ou de systèmes intégrant des services.

2.2 L’APPROCHE ENTREPÔT DE DONNÉES


Un Data Warehouse répond aux problèmes de données surabondantes et localisées
sur de multiples systèmes hétérogènes, c’est une architecture capable de servir de
fondation aux applications décisionnelles. Pour être exploitables, toutes les données
provenant des systèmes distribués doivent être organisées, coordonnées, intégrées et
enfin stockées pour donner à l’utilisateur une vue globale des informations.

2.2.1 Les étapes d’intégration


Nous distinguons deux niveaux dans la construction des entrepôts de données. Le
premier niveau correspond à la construction des sources de données opérationnelles,

69
Rapport AS « Web sémantique »

et de l’entrepôt de données global. Le second niveau englobe tous les entrepôts de


données locaux. La raison de cette distinction est, qu’à chaque niveau, sont associées
différentes étapes de traitement et différentes difficultés techniques.
Au premier niveau, le processus de construction est décomposé en quatre étapes
principales, qui sont : (1) l’extraction des données des sources de données
opérationnelles, (2) la transformation des données aux niveaux structurel et
sémantique, (3) l’intégration des données, et (4) le stockage des données intégrées
dans le système cible. La figure 2 résume l’enchaînement de ces étapes de traitement.

Sources Extraction Transformatio Intégration Chargemen DW


n t
F I G . 2 - Etapes de traitement du premier niveau de construction d’un entrepôt de données

Notez cependant que cette décomposition est seulement logique. L’ étape


d’extraction et une partie de l’étape de transformation peuvent être groupées dans le
même composant logiciel, tel qu’un « wrapper » ou un outil de migration de données.
L’étape d’intégration est souvent couplée avec des possibilités de transformation de
données riches dans un même composant logiciel, qui, habituellement, réalise le
chargement dans l’entrepôt de données. Toutes les étapes de traitement peuvent aussi
être groupées dans un même logiciel, comme par exemple un système multibase.
Quand les étapes d’extraction et d’intégration sont séparées, les données nécessitent
d’être stockées entre les deux. Ceci peut être fait en utilisant un média par source ou
un média pour toutes les sources. Une vue opérationnelle typique de ces composants
est donnée par la figure 3. Les composants logiciels sont représentés par des
rectangles. Les ellipses désignent des stockages intermédiaires des résultats de l’étape
d’extraction/transformation. Toutes les données qui sont en entrée du composant
intégration utilisent le même modèle de représentation de données. Finalement, un
« wrapper » est associé à chaque source, fournissant ainsi une interface API à la
source.
Au second niveau, le processus de construction comporte trois étapes distinctes, qui
sont : (1) l’extraction de données à partir d’une base de données (entrepôt de
données local ou global), (2) le calcul des données dérivées pour l’entrepôt de
données local cible, et (3) le stockage des résultats dans l’entrepôt de données local.
L’étape d’extraction est un cas particulier de celle du premier niveau car les données
de l’entrepôt sont stockées dans une base de données. A l’opposé, dans le premier
niveau, l’extraction peut concerner des sources de données arbitraires, comme des
fichiers par exemple. Le calcul des données dérivées est assez spécifique car il peut
impliquer des requêtes complexes avec agrégats.

70
5 – L’Intégration de sources de données

Wrapper
Source

Extraction/Transformation
D
W
Source
Intégration/
Transformation/
Chargement
Extraction/Transformation
F I G . 3 - Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données

2.2.2 Les types d’intégration


Le type d’intégration réalisé dans la conception d’un entrepôt de données est celui
que l’on réalise dans le domaine de l’intégration d’information, qui a été exploré
dans différents domaines comme :
- les bases de données,
- les systèmes d’information coopératifs,
- les systèmes d’information globaux,
- la représentation des connaissances.
Une première classification des différentes approches repose sur le contexte
d’intégration, et par conséquent, le type des entrées/sorties du processus d’intégration,
et le but du processus lui-même. Nous distinguons l’intégration de schémas,
l’intégration de données virtuelle, et l’intégration de données matérialisée.
- Intégration de schémas : Dans ce cas, l’entrée de l’intégration est un ensemble
de schémas sources, et la sortie est un schéma de données correspondant à la
représentation intensionnelle réconciliée de tous les schémas en entrée.
L’entrée comporte également la spécification de la façon d’associer les
schémas des données sources à des parties du schéma résultant (cible).
- Intégration de données virtuelle (médiateurs) : L’entrée est un ensemble de
données sources, et la sortie est une spécification décrivant la façon de fournir
un accès global et unifié aux sources dans le but de satisfaire certains besoins
en information, sans interférer avec l’autonomie des sources.
- Intégration de données matérialisée : Comme dans le cas précédent, l’entrée
est un ensemble de données sources, mais ici la sortie est un ensemble de
données représentant une vue réconciliée des sources, à la fois au niveau
intensionnel et au niveau extensionnel.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB


SÉMANTIQUE

Face à l’ampleur du nombre de sources d’informations accessibles via le Web, le


passage à l’échelle ne représente pas simplement un saut technologique. Il nécessite
un véritable travail de recherche pour s’attaquer de façon fondamentale à certains
verrous scientifiques qui sont des obstacles importants à la mise en œuvre d’une
approche médiateur à l’échelle du Web. Des travaux relatifs à certains de ces verrous
scientifiques ont déjà débuté.
Un des problèmes abordés concerne la construction d’ontologies comme support
pour l’interrogation de données pré-existantes pouvant être nombreuses,
sémantiquement hétérogènes et réparties dans des sources multiples. La construction

71
Rapport AS « Web sémantique »

d’ontologies est centrale dans le développement de systèmes médiateurs. La


construction manuelle d’une ontologie, même assistée par des outils conviviaux, est
un travail de modélisation long et difficile. Actuellement des travaux mettant en
oeuvre différentes approches permettant d’automatiser la construction d’ontologies
pour des systèmes médiateurs sont en cours de développement. Il s’agira ensuite
d’exploiter les ontologies ainsi construites, qui factorisent et abstraient un ensemble
important de sources d’informations, pour répondre aux requêtes des utilisateurs de
façon efficace et coopérative. De telles approches ne sont possibles que si on se libère
de l’hétérogénéité des formats des sources d’information considérées.
Dans le projet PICSEL 2 au Laboratoire de Recherche en Informatique de Paris-
Sud, c’est le problème de l’intégration d’un grand nombre de sources de données
ayant le format de documents XML qui est étudié. Un premier prototype, OntoMedia,
a été développé pour extraire des composants d’une ontologie à base de classes à
partir de DTD spécifiques à un domaine d’application donné (Giraldo & Reynaud,
2002). Une expérimentation réalisée à partir de DTD élaborés par un organisme de
standardisation de transactions commerciales laisse penser que l’approche peut
permettre la construction de systèmes médiateurs plus « ouverts ». Ces derniers
pourraient être capables de regrouper a priori tous les systèmes dont l’interface est
conforme aux standards ayant permis la construction de l’ontologie mais qui, au
moment de la construction de cette ontologie, ne sont pas forcément identifiés. Une
telle ouverture est intéressante dans une optique Web sémantique même s’il ne s’agit
pas d’une approche complètement générale, s’appliquant à toutes les ressources
identifiables via le Web, quelle qu’elles soient.
D’autres travaux portent sur la conception d’outils de « data mining » pour
regrouper automatiquement un vaste ensemble de documents similaires (Termier et
al., 2002) L’objectif est ensuite de structurer les regroupements, de les caractériser par
des descripteurs pertinents, puis de fusionner ces descripteurs, pouvant être vus
comme des parties d’ontologies, de façon à obtenir une ontologie intégrée.
Un second verrou scientifique est la conception d’architectures de médiation
décentralisées et facilement extensibles de façon à ce qu’un utilisateur puisse à tout
moment ajouter de nouvelles données dans une source, modifier le schéma local
d’une source ou les mises en correspondance entre schémas locaux, ceci quelque soit
la source et son domaine d’application. Ce sont ces architectures qui permettront
réellement le passage à l’échelle du Web. L’objectif est d’éviter la conception d’un
schéma global unique, exigeant un gros travail de conception, difficilement
extensible.
Des travaux réalisés dans le cadre des systèmes de gestion de données pair-à-pair
(PDMS - Peer Data Management System) ont débuté dans cette direction à
l’Université de Washington à Seattle aux Etats-Unis (Halevy et al., 2003). Ils
s’appuient sur les travaux concernant les architectures distribuées pair-à-pair mais
vont au-delà, ces architectures ne prenant absolument pas en compte la sémantique
des données. Les premières réalisations portent sur la médiation de schémas dans les
systèmes de données pair-à-pair, plus particulièrement sur l’étude et la conception
d’un langage suffisamment flexible pour être utilisé dans le cadre d’une médiation
décentralisée. Ce langage est une extension des formalismes d’intégration de données
connus de façon à les rendre utilisables dans le cadre d’une architecture distribuée.
L’objectif est d’avoir un langage qui reste très expressif mais beaucoup plus flexible.
Le changement de contexte soulève deux problèmes majeurs. Le langage utilisable au
sein d’une architecture distribuée doit, d’une part, permettre d’établir des mises en
correspondance entre des schémas d’un système et celui de ses pairs, chaque système
étant soit une source de données, soit un médiateur. Il ne s’agit plus d’établir des
relations entre d’un côté, un médiateur, de l’autre côté, un ensemble de sources de
données. D’autre part, le langage doit permettre de définir localement des relations
sémantiques entre les schémas locaux de quelques systèmes et également de répondre

72
5 – L’Intégration de sources de données

globalement aux requêtes utilisateurs en exploitant le réseau des systèmes reliés


sémantiquement. Là encore, on se différencie de l’approche médiation centralisée
fondée sur une architecture à deux niveaux pour laquelle les algorithmes et la
complexité du problème de la reformulation des requêtes ont fait l’objet de
nombreuses études.
Enfin, le troisième point que des travaux commencent à aborder concerne la mise
en correspondance entre ontologies. Doan, Domingos et Halevy ont travaillé sur un
problème similaire en intégration d’information selon une approche médiateur. Le
système GLUE (Doan et al., 2002) qu’ils proposent a été conçu à partir du système
LSD (Doan et al., 2001) dont l’objectif était d’identifier, dans un contexte de
médiation centralisée, des mises en correspondance entre un schéma global et le
schéma (DTD) de sources d’information XML. Le système GLUE est appliqué au
contexte du Web sémantique. Il permet d’assister le processus de mise en
correspondance entre les taxinomies de deux ontologies en proposant d’utiliser
plusieurs techniques d’apprentissage automatique, chacune exploitant des types
d’information différents : les termes, leur format, leur fréquence, leur position, les
caractéristiques des distributions de valeurs. Un méta-système combine l’ensemble des
résultats obtenus. L’approche ne porte que sur des mises en correspondance de type
1-1. Le problème est posé en ces termes : étant donné un concept d’une taxinomie,
quel est le concept le plus similaire dans la taxinomie d’une autre ontologie ?

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

4.1 V ERS DES SYSTÈMES DE MÉDIATION DÉCENTRALISÉS


L’intégration de sources d’information hétérogènes dans le cadre du Web
sémantique s’appuiera nécessairement sur de multiples systèmes de médiation.
Certains systèmes pourront suivre une approche centralisée. D’autres suivront une
approche décentralisée consistant à considérer une coalition de serveurs
d’information, chaque serveur jouant indifféremment le rôle de serveurs de données
ou de médiateurs avec ses pairs, et participant de manière distribuée et collective au
traitement des requêtes des utilisateurs. Une telle architecture sera plus adaptée grâce à
sa flexibilité. Dans ce contexte de médiation décentralisée apparaissent de nouveaux
challenges.
Il est important de concevoir une nouvelle catégorie d’outils d’interrogation de
données réparties au sein de systèmes multiples, ces outils étant dotés de langages de
requêtes riches. Il s’agit réellement d’outils d’un type nouveau dont l’utilisation doit
être compatible avec la possibilité pour quiconque d’ajouter à tout moment de
nouvelles données dans un des systèmes, d’établir des relations avec les concepts ou
schémas déjà définis, de définir de nouveaux schémas locaux alors immédiatement
utilisables pour poser des requêtes au niveau global, de définir des mises en
correspondance entre schémas locaux. Une architecture pair-à-pair s’impose
naturellement. Les recherches dans ce domaine sont ainsi fondamentales mais non
suffisantes. A l’aspect décentralisé auquel les travaux sur les architectures pair-à-pair
peuvent apporter des solutions, s’ajoute la dimension sémantique, indispensable pour
connecter sémantiquement les systèmes mis en relation.
Un problème nouveau et important lié à cette dimension sémantique concerne la
définition de correspondances sémantiques entre les ontologies manipulées par
chacun des systèmes amenés à communiquer. Il faut pouvoir disposer d’une
approche simple et naturelle de description de correspondances sémantiques entre
ontologies. Le passage à l’échelle du Web n’est envisageable que si la conception de
ces définitions peut être en partie automatisée. Il est donc nécessaire d’étudier

73
Rapport AS « Web sémantique »

comment cette automatisation est possible, sachant qu’elle devra pouvoir être établie
entre des ontologies qui sont locales à des sources et qui sont hétérogènes. Les
recherches pourront s’appuyer sur les travaux effectués sur la mise en
correspondance de schémas proposant une automatisation partielle pour des domaines
d’application particuliers. Dans le contexte du Web sémantique, néanmoins, il serait
souhaitable que les solutions proposées au problème de mise en correspondance
soient indépendantes de tout domaine d’application et prennent en compte toute la
complexité des ontologies. En particulier, des travaux de recherche doivent
s’intéresser à l’automatisation des mises en correspondance de type 1-n ou n-m, pas
seulement de type 1-1. Ils doivent également chercher à exploiter les contraintes sur
les attributs ou les relations définies au sein des ontologies.
Il faut ensuite pouvoir raisonner sur les correspondances entre ontologies. Il faut
s’attendre à une explosion du nombre d’ontologies utilisées. Beaucoup décriront des
domaines similaires mais n’utiliseront pas forcément les mêmes termes, d’autres
décriront des domaines qui pourront se recouvrir. Il est nécessaire pour cela de
développer des recherches portant sur la représentation explicite des mises en
correspondance entre ontologies ainsi que sur la conception d’algorithmes de
raisonnement efficaces et adaptés au traitement des mises en correspondance de
différentes sortes : égalité, inclusion, recouvrement.
Enfin, ces systèmes distribués reposent sur l’exploitation d’ontologies elles-aussi
distribuées. Un champ de recherches à favoriser concerne alors la gestion à grande
échelle de ce nombre très important d’ontologies pouvant couvrir des domaines
identiques ou se recouvrant.

4.2 I NTÉGRATION DE DONNÉES MULTIMÉDIAS


La numérisation de l’information multimédia a permis l’apparition de nouveaux
équipements et de nouvelles applications (enseignement à distance, télé-médecine,
surveillance électronique, etc.). Cette production croissante de données multimédias
numérisées amplifie les problèmes classiques de gestion de données multimédias et en
crée de nouveaux tels que l’accès par le contenu, la personnalisation des contenus,
l’accès à partir d’appareils mobiles, etc. Les problèmes majeurs concernent la
modélisation, le stockage et l’indexation physique des données multimédias,
l’intégration des données multimédias, et le traitement des requêtes sur ces données.

4.3 I NTÉGRATION ET ANALYSE DE DONNÉES EN TEMPS RÉEL


Les pressions résultant des demandes des clients et de la compétitivité liée à la
nouvelle économie ont créé une demande insatiable pour une intégration et analyse,
en temps réel, de l’information. Il n’est plus acceptable pour les décideurs de prendre
des décisions en se basant sur des données datant de plus d’une semaine, voir même
d’une journée. Les employés, les décideurs, les clients et tous les partenaires
économiques ont besoin d’accéder à l’information quand elle est pertinente.

La possibilité d’accéder à temps et de façon simple à des données pertinentes au


moyen d’outils d’interrogation et d’analyse est fondamentale pour les organisations
qui souhaitent être compétitives. Cependant, avec la prolifération d’environnements
hétérogènes qui doivent être intégrés à des systèmes d’aide à la décision, à des
entrepôts de données, etc., les défis sont nombreux. Les données – données clients,
données financières, données de navigations – constituent un avantage considérable
sous réserve qu’elles soient intégrées et utilisées pour faciliter les échanges entre
partenaires économiques. Une solution au problème de l’intégration de données en
temps réel constituera une étape importante vers l’exploitation effective des
possibilités de l’Internet dans le domaine de l’aide à la décision.

74
5 – L’Intégration de sources de données

Le traitement et l’intégration de gros volumes de données sur le Web posent des


problèmes épineux comme le montrent les résultats de tests effectués sur un Pentium
III, 700 MHz, 1 Go Ram et 100 Mbit Ethernet (cf. table 1).

Taille Fichiers Logs Temps de Traitement Temps de traitement


des fichiers Logs sur le des fichiers Logs sur une
réseau même machine
100 Mo 8 min 4 min
1 Go 44 min 23 min
2.5 Go 1h12 min 48 min
5 Go 2h08 min 1h32 min
T a b l e 1 - Temps de calcul nécessaire à l’intégration en temps réel de données sur le Web

Ainsi, dans le cas du WebHouse par exemple, le problème majeur reste celui de
concevoir et de développer des agrégateurs incrémentaux efficaces. Des solutions à ce
problème d’intégration de données pourraient conduire à terme à unifier proprement
les différents services d’une entreprise géographiquement distribuée (cf. FIG. 5).

Autre
BD
Data Mining

Webhouse

Transformateur Analyseur Générateur


Fichiers rapports
Logs

R APPORTS

F I G . 4 - Phases de transformation de données pour une analyse en temps réel de données collectées sur

le Web

75
Rapport AS « Web sémantique »

4.4 DE L ’ INTÉGRATION DE DONNÉES À L ’ INTÉGRATION DE


CONNAISSANCES
Bien que l’idée de construire un entrepôt de données intégré soit séduisante d’un
point de vue conceptuel, elle est difficilement réalisable en pratique. Les observations
indiquent que les architectures fédérées pour les entrepôts de données sont beaucoup
plus pratiques des points de vues politique, opérationnel et technique (Kerscherg &
Weishar, 2000) (Firestone, 1999). Les organisations réalisent de plus en plus leurs
échanges via Internet et établissent des partenariats via des portails et des «extranets»
avec leurs clients et leurs fournisseurs, les données pour une e-entreprise sont alors
réparties entre plusieurs entités.
La notion d’entrepôt de données doit par ailleurs être étendue pour inclure non
seulement les données orientées transactions, mais aussi des données créées par les
employés au sein de l’entreprise. Nous devons, à l’avenir, pouvoir inclure des
rapports techniques, des présentations vidéos, audio, etc.
Un autre facteur d’influence concerne le développement des services web
(Mcllraith et al., 2001), ceux-ci permettant la création de e-entreprises configurables
dynamiquement. Les concepts et outils des entrepôts de données devront évoluer pour
inclure des mécanismes d’accès à des bases de données de ces services web. Les
informations obtenues devront pouvoir être intégrées et stockées dans des entrepôts de
données fédérés. On peut ainsi imaginer des agents intelligents (Kerschberg, 1997a),
(Kerschberg, 1997b) interagissant avec des fournisseurs des services web pour obtenir
des informations pertinentes pour des entrepôts de données.
L’entrepôt de données deviendra alors petit à petit un entrepôt de connaissances
comportant des données issues des entrepôts traditionnels mais aussi des
connaissances du domaine, des ontologies, des méta données, etc.

FIG. 5 – Exemple de data Warehouse intégrant les différents services d’une entreprise
géographiquement distribuée

76
5 – L’Intégration de sources de données

RÉFÉRENCES
BENEVENTANO D. & BERGAMASCHI S. & CASTANO S. & CORNI A. & GUIDETTI R. &
MALZVEZZI G. & MELCHIORI M. & VINCINI M. (2000). Information integration: The
MOMIS project demonstration. In VLDB 2000 proceedings of 26 th International Conference on
Very large Data Bases. September 10-14. Cairo – Egypt. p. 611-614.
BIDAULT A. & FROIDEVAUX C H. & SAFAR B. (2000). Repairing queries in a mediator
approach. In 14th European Conference on Artificial Intellignece. p. 406-410. Berlin.
C HAWATHE S. & G ARCIA-MOLINA H. & H AMMER J. & I RELAND K. & P APAKONSTANTINOU
Y. & ULLMAN J. & W IDOM J. (1994). The TSIMMIS project: Integration of heterogeneous
information sources. In proceedings of IPSI conference, Tokyo Japan.
DOAN A. & DOMINGOS P. & L EVY A. (2001). Reconciling Schemas of Disparate Data Sources:
A Machine-Learning Approach. Proceedings of the 2001 ACM SIGMOD International
Conference on management of Data. p. 509-520. Santa Barbara. CA: ACM Press.
DOAN A. & M ADHAVAN J. & D OMINGOS P. & H ALEVY A. (2002). Learning to map between
Ontologies on the Semantic Web. Proceedings of the 11th international Conference on WWW.
p. 662-673. Honolulu, Hawaï, USA.
ETZIONI O. & WELD D. (1994). A Softbot-Based Interface to the Internet. Communications of
the ACM. Vol. 37(7). p. 72-76.
F IRESTONE J. M. (1999). DKMS Brief No. Nine: Entreprise integration, Data federation, and
DKMS: A Commentary. Executive Information Systems, Inc.
FRIEDMAN M. & WELD D. S. (1997). Efficiently executing information-gathering plans. In
15th International Joint Conference on Artificial Intelligence. p. 785-791, Nagoya. Japan.
GENESERETH M. R. & KELLER A. M. & DUSCHKA O. M. (1997). Infomaster: an
information integration system. In proceedings of SIGMOD 97. p. 539-542. New-York.
GIRALDO G. & REYNAUD Ch. (2002). Construction semi-automatique d’ontologies à partir de
DTDs relatifs à un même domaine. 13èmes journées francophones d’Ingénierie des
Connaissances. Rouen.
GOASDOUE F. & LATTES V. & ROUSSET M.-CH. (2000). The use of the Carin language and
algorithms for Integration Information: the PICSEL system. International Journal of
Cooperative Information Systems. Vol. 9(3). p. 383-401.
GRIBBLE S. & H ALEVY A. & IVES Z. & R ODRIG M. & S UCIU D. (2001). What can databases do
for Peer-to-Peer ? WebDB01 - Workshop on databases on the Web. p. 31-36. Santa Barbara,
California, USA.
HALEVY A. Y. & IVES Z. G. & S UCIU D. & T ATARINOV I. (2003). Schema Mediation in Peer
Data management Systems. ICDE. Bangalore, India.
HAMMER J. & GARCIA-MOLINA H. & W IDOM J. & L ABIO W. & Z UGHE Y. (1995). The Stanford Data Warehousing
Project. In Data Engineering, Special Issue on Materialised Views on Data Warehousing. Vol. 18(2), p. 41-48.
HULL R. & ZHOU G. (1996). A framework for supporting data integration using the materialized and virtual approaches.
In proceedings of the ACM SIGMOD International Conference of the Management of Data. p. 481-492. Montreal,
Canada.
KERSCHBERG L . & W EISHAR D. (2000). Conceptual Models and Architectures for Advanced
Information Systems. Applied Intelligence. Vol. 13(2). p. 149-164.
KERSCHBERG L. (1997). Knowledge Rovers: Cooperative Intelligent Agent Support for Enterprise Information
Architectures. In Cooperative Information Agents. Vol. 1202, LNAI. P. Kandzia & M. Klusch Eds. p. 79-100.
KERSCHBERG L. (1997). The Role of Intelligent Agents in Advanced Information Systems. In Advances in Databases.
Vol. 1271, LNCS. C. Small & P. Douglas & R. Johnson & P. King & N. Martin Eds. p. 1-22.
KIMBALL R. & MERZ R. (2000). The data Webhouse Toolkit : Building the Web-Enabled Data
Warehouse. John Wiley & Sons Inc.
KIMBALL R.. (1996). The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses.
John Wiley & Sons, Inc.

77
Rapport AS « Web sémantique »

KIRK T. & LEVY A. Y. & SAGIV Y. & SRIVASTAVA D. (1995). The Information Manifold. In proceedings of the AAAI
1995 Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments, Stanford
University, California. p. 85-91.
LEVY A. & S RIVASTAVA D. & K IRK T. (1995). Data Model and Query Evaluation in Global
Information Systems. Journal of Intelligent Information Systems. Vol.5. p.121-143.
LEVY A. Y. & R AJARAMAN A. & ORDILLE J. (1996). Query answering algorithms for
information agents. In proceedings of the 13th National Conference on Artificial Intelligence
(AAAI-96). Portland, Oregon. p. 40-47.
MCLLRAITH S. A. & S ON T. C. & Z ENG H. (2001). Semantic Web Services. In IEEE Intelligent
Systems. Special Issue on the Semantic Web. Vol. 16(2). p. 46-53.
MENA E. & KASHYAP V. & SHETH A. & ILLARRAMENDI A. (1996). OBSERVER: An
approach for query processing in global information systems based on interoperation across
pre-existing ontologies. In 4 th Int. Conf. on Cooperative Information Systems. p. 14-25.
Bruessels. Belgium.
R AHM E. & B ERNSTEIN P. A. (2001). A survey of approaches to automatic schema matching,
VLDB Journal. Vol. 10. p.334-350.
ROUSSET M.-Ch. & BIDAULT A. & FROIDEVAUX Ch. & GAGLIARDI H. & GOASDOUE
F. & REYNAUD Ch. & SAFAR B. (2002). Construction de médiateurs pour intégrer des
sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. Vol.2. n°1. p.5-
59.
SUBRAHMANIAN V.S. & ADALI S. & BRINK A. & EMERY R. & LU J. J. & RAJPUT A. &
ROGERS T. J. & ROSS R. & WARD C. (1995). HERMES: A heterogeneous reasoning and
mediator system. Technical Report. Univ. of Maryland.
TERMIER A. & ROUSSET M.-Ch. & SEBAG M. (2002). Treefinder: a first step towards xml
data mining. In International Conference on data Mining ICDM02. Maebashi Terrsa, Maebashi
City, Japan.
ULLMAN V. (1997). Information integration using logical views. In proceedings of the 6th
International Conference on Database Theory (ICDT’97). p. 19-40. Delphi, Greece.
WIEDERHOLD G. (1992). Mediators in the architecture of future information systems, Computer,
Vol. 25(3). p.38-49.
WIENER J. L. & GUPTA H. & LABIO W. J. & ZHUGE Y. & G ARCIA-MOLINA H. & W IDOM J.
(1996). A System Prototype for Warehouse View Maintenance. Proceedings of the ACM
Workshop on Materialized Views: Techniques and Applications. p. 26-33. Montreal, Canada.
XYLEME L. (2001). A dynamic warehaouse for xml data of the web. IEEE Data Engineering
Bulletin. Vol. 24(2). p. 40-47.
ZHOU V & HULL R. & K ING R. & F RANCHITTI J.-C. (1995). Data integration and warehousing
using HO2. IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 18(2) p.
29-40.
ZHOU V & H ULL R . & K ING R . & F RANCHITTI J.-C. (1995). Using Object matching and
materialization to integrate heterogeneous databases. In proceedings of the 3rd International
Conference on Cooperative Information Systems (CoopIS’95). p. 4-18.
ZHOU V & HULL R. & KING R. (1996). Generating Data Integration Mediators That Use
Materialization. In Journal of Intelligent Information Systems. Vol. 6(2). p. 199-221.
http://www.intelligententerprise.com/info_centers/data_int/
http://www.pdit.com/
http://www.datajunction.com/
http://www.hummingbird.com/products/dirs/
http://www.paladyne.com/

78
6 – Adaptation et personnalisation
dans le Web sémantique
S. Garlatti 1, Y. Prié2

1
Département IASC GET - ENST Bretagne
Serge.Garlatti@enst-bretagne.fr
2
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
yprie@liris.univ-lyon1.fr

Résumé
Au travers d’Internet, un nombre potentiellement infini de services et de
documents est accessible à tous les usagers. La plupart des services et documents
fournis actuellement sur Internet proposent une organisation, un contenu, un mode
d’interaction et une présentation uniques pour tous. Ceci peut être suffisant dans
certains cas. Mais tous les utilisateurs ne sont pas intéressés par les mêmes
informations et n’ont pas les mêmes attentes, connaissances, compétences, centres
d’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des services et des
documents dont l’organisation, le contenu, les modes d’interaction et la présentation
sont adaptés à leurs besoins. Parmi les problèmes qui se posent on peut citer :
l’accès à l’information pertinente, la navigation dans un grand espace de ressources et
la compréhension d’une ressource complexe. L’adaptation / personnalisation dans le
«Web sémantique » peut s’appuyer sur les domaines suivants : les hypermédia
adaptatifs, la modélisation utilisateur et les documents virtuels personnalisables. Les
travaux actuels sur l’adaptation dans le Web sémantique peuvent être décomposés en
deux parties : l’une sur les hypermédias adaptatifs et l’autre sur les documents
virtuels adaptatifs. Les futures recherches sur le Web Sémantique pour l’adaptation /
personnalisation peuvent s’articuler autour des cinq points suivants : la modélisation
utilisateur et des utilisations, la protection de la vie privée, la recherche
d’information, les services et documents adaptatifs, et l’ergonomie des services et des
documents.

79
Rapport AS « Web sémantique »

1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES

1.1 ADAPTATION / PERSONNALISATION SUR LE WEB SÉMANTIQUE


Au travers d’Internet, un nombre potentiellement infini de services et de documents
est accessible à tous les usagers. La plupart des services et documents fournis
actuellement sur Internet propose une organisation, un contenu, un mode
d’interaction et une présentation uniques pour tous. Ceci peut être suffisant dans
certains cas. Mais tous les utilisateurs ne sont pas intéressés par les mêmes
informations et n’ont pas les mêmes attentes, connaissances, compétences, centres
d’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des services et
des documents dont l’organisation, le contenu, les modes d’interaction et la
présentation sont adaptés à leurs besoins. Parmi les problèmes qui se posent on peut
citer :
- L’accès à l’information pertinente : la recherche d’information sur Internet
par des mots clés n’est pas satisfaisante. En effet, les critères de rappel et de
précision ne sont pas satisfaisants (précision souvent inférieure à 1%).
L’utilisation d’ontologies et donc du « web sémantique » va grandement
améliorer les résultats. Néanmoins, il restera bien souvent un nombre
considérable de ressources qui satisferont les demandes des utilisateurs. Il est
donc nécessaire de mieux cibler les résultats en fonction des besoins
utilisateurs afin d’effectuer un filtrage des ressources.
- La navigation dans un grand espace de ressources : dès que l’espace
d’information accessible à un utilisateur par navigation est important, la perte
de repères et la désorientation ne permettent pas à l’utilisateur de retrouver les
informations recherchées ni de savoir d’où il vient, où il peut aller et comment
y aller. Il est important ici de pouvoir guider l’utilisateur dans cet espace
d’information en d’autres termes d’adapter l’accès à l’information en
fonction de ses besoins.
- La compréhension d’une ressource complexe – site web, service, etc. : en
psychologie cognitive, la compréhension d’un document est souvent
caractérisée par la construction mentale d’une représentation, d’un modèle de
ce document. La lisibilité du document peut être définie comme l’effort
mental nécessaire au processus de construction d’un modèle (Kaheneman,
1973; Thüring, Hannemann et al., 1995). Afin d’accroître la lisibilité d’un
document hypermédia, il est nécessaire d’assister l’utilisateur dans la
construction de ce modèle mental, par exemple en favorisant les facteurs utiles
pour le processus de construction, et en diminuant les facteurs qui le
perturbent. Deux facteurs principaux ont été identifiés : la cohérence et le
surcoût cognitif (Thüring, Hannemann et al., 1995). Pour augmenter la
cohérence d’un document, il faut fournir à l’utilisateur des repères l’aidant à
identifier les composants majeurs du document et sa structure globale. Pour
réduire l’effort mental de compréhension, il n’est pas suffisant d’avoir une
structure globale cohérente. Il faut aussi communiquer cette structure à
l’utilisateur. Il est alors possible de lui fournir les différents composants du
document ainsi que leurs relations, par exemple à l’aide d’outils graphiques.
Conklin caractérise le surcoût cognitif comme l’effort supplémentaire et la
concentration nécessaire pour gérer plusieurs tâches en même temps (Conklin,
1987). Ce phénomène est dû aux capacités cognitives limitées du processus
humain de traitement de l’information (Kaheneman, 1973). Dans un
document hypermédia, ces efforts sont dus à l’orientation et la navigation.
Pour éviter la désorientation, l’utilisateur doit non seulement connaître la
structure globale du document, mais aussi ses déplacements dans cette

80
6 – Adaptation et personnalisation dans le Web sémantique

structure. Il doit en fait savoir où il est, d’où il vient et où il peut aller.


Compréhension et orientation sont en effet très fortement liées. La
compréhension d’un document hypermédia ou autre est donc liée à la
compréhension de la structure globale de ce dernier, à sa présentation et à son
contenu. Assurer une bonne compréhension d’une ressource complexe
nécessite donc d’être capable d’adapter la structure globale d’une ressource,
son contenu et sa présentation aux besoins utilisateurs.
Dans l’avenir, l’adaptation et la personnalisation seront des points clés pour
l’utilisation, la vente et l’accès aux services et documents par les entreprises et les
particuliers. Toutefois, il est important de faire la différence entre adaptable et
adaptatif (Bra, 1999), même si la conjonction des deux est possible. Dans un système
adaptable, l’utilisateur définit un ensemble de contraintes au travers d’une requête,
d’un questionnaire ou d’un formulaire. Le système propose alors une ressource qui
correspond au profil de l’utilisateur – les contraintes. Ce profil peut regrouper les
préférences de l’utilisateur en terme de présentation (couleurs, type de média, style
d’apprentissage, etc.) ainsi que son savoir-faire (qualifications, connaissances). Dans
un système adaptatif, ce dernier observe le comportement de l’utilisateur et utilise ses
observations afin d’adapter la présentation de l’information. L’évolution des
préférences et de la connaissance de l’utilisateur est alors déduite (en partie) des accès
aux pages Web. Le plus souvent, l’adaptation est obtenue au travers de la navigation
de l’utilisateur, mais parfois le système peut aussi utiliser le comportement de
l’ensemble des autres utilisateurs pour adapter la ressource. On se placera ici dans le
cadre de l’adaptation/personnalisation (adaptable ou adaptatif) pour des utilisateurs au
moyen de ressources liées à ces derniers – on ne se préoccupe pas de problèmes
d’adaptation entre agents ou services qui ne font pas intervenir l’utilisateur ou des
informations sur celui-ci.
Le cadre général que nous proposons est fondé sur le principe général suivant :
- Un ensemble de ressources est disponible sur le web (pages web, documents
structurés, résultats de services, services) ;
- Un utilisateur « demande un résultat » ou pose une requête liée à sa tâche à un
module logiciel en fixant un ensemble de contraintes qui sont des données
non persistantes définies à partir d’un formulaire ou d’un simple hyperlien
qui peut avoir été calculé pour ses besoins.
- Le module logiciel, à partir de cette demande, plus éventuellement un
« profil » (données rémanentes caractérisant un utilisateur ou un groupe
d’utilisateurs particuliers) sélectionne un sous-ensemble de ces ressources
(requêtes logicielles). Un profil peut contenir des caractéristiques sur les
connaissances, les préférences, les objectifs, les centres d’intérêts, etc. d’un
utilisateur ou d’un groupe d’utilisateurs.
- Puis, le module logiciel compose ces ressources pour fournir à cet utilisateur
un document ou service Web (page simple : liste ordonnée d’URL - adresses
de documents, de page web ou de services - ou encore un site web ou service :
portails, cours en ligne, musées virtuels, etc.), avec lequel l’utilisateur peut
interagir à nouveau.
Dans un tel contexte, que peut faire le web sémantique dans le cadre de
l’adaptation/personnalisation pour aider l’utilisateur ?
Une aide à l’utilisateur peut se faire aux étapes 2, 3 et 4 :
2) Demande utilisateur : proposer des termes adéquats au contexte de la tâche
utilisateur, réécrire interactivement ou non sa demande en termes « reconnus »
par les ressources et/ou les systèmes de gestion de ressources – hétérogènes,
fournir à l’utilisateur un lien activant une requête adaptée à ses besoins.
3) Recherche et filtrage des ressources pertinentes à partir de la requête utilisateur
et de son profil : la demande initiale et certaines données du profil utilisateur
peuvent servir au filtrage des ressources pertinentes, que celui-ci soit

81
Rapport AS « Web sémantique »

automatique ou interactif. L’enjeu est ici de réduire l’espace des ressources à


celles qui s’apparient ou qui sont adéquates aux contraintes de la demande,
aux besoins utilisateurs (via le profil).
4) Composition des ressources : après sélection des ressources pertinentes, il
s’agit de les organiser pour les présenter à l’utilisateur. Cette organisation est
le résultat de l’application de règles de composition qui peuvent prendre
notamment les formes suivantes :
- Une structure implicite résultat d’un calcul comme un simple tri – de
type résultat de moteur de recherche, ordre temporel, etc.
- Une structure explicite comme un modèle de tâche, une structure
narrative, etc. qui organise un site Web (portail, musée virtuel, ...), etc.
L’organisation sert de support pour la navigation et la compréhension. En
effet, celle-ci est fortement liée à l’organisation et l’orientation dans un
service ou document. Il est ici possible d’adapter/personnaliser l’organisation,
le contenu, les modes d’interaction et la présentation des services ou
documents.

1.2 E XEMPLES D ’ UTILISATION DE L ’ ADAPTATION /


PERSONNALISATION DANS LE WEB SÉMANTIQUE
Un scénario d’utilisation du web sémantique et de l’adaptation articulé autour de
l’enseignement à distance est présenté dans la partie dédiée aux annotations et aux
méta-données. Ce scénario montre qu’il est possible d’effectuer de la recherche
d’information adaptative à partir des méta-données qui caractérisent les ressources et
d’un profil utilisateur. Par exemple à partir des connaissances acquises par un
utilisateur dans un domaine particulier et des connaissances nécessaires à la
compréhension d’une ressource, on peut juger de la pertinence de cette ressource et
en informer l’utilisateur. Il est aussi possible de modifier l’organisation d’un cours,
son contenu et sa présentation en fonction d’un profil utilisateur.

2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR


LESQUELS ON PEUT S ’APPUYER

On a pu voir au travers du scénario que l’on doit être capable de calculer un


document ou un service dynamiquement en fonction d’une spécification et/ou d’un
profil utilisateur. L’adaptation/personnalisation dans le « web sémantique » peut
s’appuyer sur les domaines suivants : les hypermédia adaptatifs, la modélisation
utilisateur et les documents virtuels personnalisables (pour de plus de détails voir
(Iksal, 2002)).
Le Web peut être vu comme un immense hypermédia dans lequel les informations
sont reliées entre elles par des liens. Dès la fin des années 80, des équipes se sont
intéressées à la notion d’ « hypermédia flexible ». Un système hypermédia flexible est
un système qui propose différentes vues d’un même hypermédia en fonction de
l’utilisateur ou qui génère dynamiquement l’hypermédia et son contenu au moment
de la consultation. Ils se déclinent principalement autour de deux approches
(Oberlander & Milasavljevic, 1997) :
- L’utilisation des techniques venant de la recherche d’information et du
filtrage afin d’évaluer la pertinence des nœuds d’un hypermédia et de
modifier la présentation de l’information en fonction de cette évaluation.
- Les hypermédias adaptatifs (Brusilovsky, 1996) utilisent des caractéristiques de
l’utilisateur afin de modifier la topologie d’hypermédias existants et de

82
6 – Adaptation et personnalisation dans le Web sémantique

présenter le contenu informationnel en fonction de ces caractéristiques 37. Le


point central de cette approche est la prise en compte de modèles utilisateurs.

2.1 LES HYPERMÉDIAS ADAPTATIFS


Le principe des hypermédia adaptatifs repose sur la constatation suivante : les
hypermédia traditionnels présentent les mêmes pages et les mêmes hyperliens à tous
les utilisateurs. Or, ceux-ci peuvent différer les uns des autres par leurs objectifs, leurs
acquis, leurs antécédents et leurs connaissances par rapport au sujet traité par
l’hypermédia. Par conséquent, ils ne seront pas intéressés par les mêmes informations
de la page et ne suivront pas les mêmes liens lors de leur navigation. Les informations
et liens non pertinents pour un utilisateur mais présentés à l’écran n’entraînent
qu’une surcharge cognitive de celui-ci. L’utilisateur est facilement « perdu » dans
l’étendue parfois vaste de l’hyperespace. Il a notamment souvent des difficultés à
retrouver lui-même des chemins qu’il a précédemment suivis et il tourne facilement
en rond dans son parcours des liens. Il éprouve souvent des difficultés à évaluer la
quantité de pages qu’il a déjà visitées - ou qu’il lui reste à visiter. Rapidement,
l’utilisateur peut mal interpréter le document, et se faire une mauvaise représentation
mentale de la structure de l’hypermédia. Les objectifs des hypermédias adaptatifs sont
donc de réduire la désorientation de l’utilisateur et le risque d’incompréhension du
document qui en résulte le plus souvent.
Peter Brusilovsky nous en donne la définition suivante « By adaptive hypermedia
systems we mean all hypertext and hypermedia systems which reflect some features of
the user in the user model and apply this model to adapt various visible aspects of the
system to the user » (Brusilovsky, 1996). Toutefois, il est important de connaître la
différence entre un hypermédia adaptable et un hypermédia adaptatif (Bra, 1999) (cf.
plus haut). Un hypermédia est composé de deux types d’éléments, des contenus et des
liens. Les méthodes d’adaptation ont donc été classées en deux catégories, les
méthodes de présentation adaptative qui manipulent le contenu des hypermédia et les
méthodes de navigation adaptative qui concernent plus particulièrement les liens (Bra
1999 & Brusilovsky, 2001). L’idée de la présentation adaptative est d’adapter le
contenu d’une page accédée par un utilisateur particulier, à sa connaissance, ses
objectifs ou encore d’autres caractéristiques qui lui sont propres. La navigation
adaptative a pour but d’aider les utilisateurs à trouver leur chemin dans l’espace
d’information en adaptant la présentation des liens en fonction des objectifs, de la
connaissance ou encore d’autres caractéristiques de l’utilisateur. Ces caractéristiques
sont utilisées afin de classer les pages Web - appelées aussi nœuds - qui correspondent
aux destinations des liens. Le système manipule alors les liens afin de guider
l’utilisateur vers l’information la plus intéressante, la plus pertinente. Il se sert de la
classe d’un nœud afin par exemple d’annoter ou de supprimer le lien qui pointe vers
ce dernier.

37
Il n’est pas ici question de générer dynamiquement l’hypermédia et son contenu mais uniquement d’effectuer de
l’adaptation par rapport à un hypermédia préexistant.

83
Rapport AS « Web sémantique »

Fragments
Présentation conditionnels
multimédia
adaptative Pages et fragments
variants

Présentation Présentation
Strechtext
Adaptative adaptative de
texte

Tri de fragments
Adaptation de
modalité
Techniques à base
de frames
Méthodes pour
Hypermédias
Adaptatifs Guidage Direct

Tri des liens Masquage

Masquage des
Désactivation
Navigation liens
Adaptative
Annotation de
Suppression
liens

Adaptation de
carte

Fig1. Méthodes d’adaptation

Les travaux de recherche sur les hypermédia adaptatifs qui nous intéressent se sont
principalement portés sur deux axes : l’adaptation de documents hypermédia (des
sites Web – ELMART, AHA, INTERBOOK, etc. ou des applications locales) dont la
structure globale était le plus souvent fixée à priori et sur la recherche d’information
adaptative. Dans tous les cas, l’adaptation de la navigation, du contenu et des
informations retrouvées nécessite des méthodes d’évaluation des liens, des contenus
ou des informations retrouvées qui sont à la base des méthodes d’adaptation qui ont
été proposées.

2.2 LA MODÉLISATION UTILISATEUR


Adapter, personnaliser un document ou une application pour un utilisateur
particulier nécessite de disposer d’informations sur ce dernier permettant d’évaluer la
pertinence des objets disponibles (fragments de texte, menus, boutons, etc.) ou d’aider
le système à faire des choix. Le modèle utilisateur est « une source de connaissances,
une base de données sur un utilisateur » (McTear, 1993). Plus précisément, il s’agit
d’un ensemble de données persistantes qui caractérisent un utilisateur ou un groupe
d’utilisateurs particuliers. Un tel modèle peut contenir des caractéristiques sur les
connaissances, les préférences, les objectifs, les centres d’intérêts, etc. d’un utilisateur.
Il existe différents types de modèles utilisateur qui peuvent être combinés. Le
modèle individuel regroupe les caractéristiques propres à un individu. Il s’agit
d’informations pouvant être soit renseignées par l’utilisateur, soit déduites par le
système, soit acquises lors de l’utilisation de l’application. Le stéréotype correspond à
un condensé des caractéristiques les plus représentatives d’un groupe - ou classe -
d’individus, que nous pouvons qualifier de valeurs par défaut. Le stéréotype peut être
utilisé tel quel, ou dans une optique d’individualisation de modèle (Rich, 1989). Le
modèle de recouvrement associe pour un utilisateur particulier, une valeur à chaque
concept du modèle de domaine. Chaque valeur correspond à une estimation du
niveau de connaissance de l’utilisateur pour le concept. Le modèle de recouvrement
est facile à mettre à jour mais souvent difficile à initialiser. Les actions de l’utilisateur
sont analysées pour augmenter ou réduire le niveau de connaissance des concepts du

84
6 – Adaptation et personnalisation dans le Web sémantique

domaine (Brusilovsky, Eklund et al., 1998). Le modèle partagé est un modèle


réutilisable dans plusieurs applications. En effet, de nombreuses caractéristiques d’un
utilisateur sont utilisées systématiquement par toutes les applications adaptatives.
L’idée du modèle partagé est de disposer d’une partie commune et de parties
spécifiques à chacune des applications ou tâches à réaliser. Kobsa et Wahlster (1989)
proposent de disposer d’un modèle central et de plusieurs sous-modèles disjoints.
L’utilisateur peut être modélisé selon plusieurs points de vue :
- La connaissance de l’utilisateur apparaît comme la caractéristique la plus
utilisée dans un système adaptatif. La façon la plus simple de gérer les
connaissances est de mémoriser ce que l’utilisateur connaît ou ne connaît pas.
Pour cela, on utilise souvent soit un stéréotype (modèle de groupe) soit un
modèle de recouvrement (modèle individuel) qui associent aux concepts d’un
modèle de domaine un niveau de connaissance (vrai/faux ou une valeur
numérique).
- L’expérience et les compétences sont deux caractéristiques similaires à la
connaissance définie dans le paragraphe précédent mais qui en diffèrent de
par la nature même de l’information qu’elles représentent. L’expérience de
l’utilisateur représente son savoir-faire, la familiarité et l’aisance qu’il possède
avec le type de système qui lui est présenté. Les compétences possédées par
l’utilisateur correspondent aux connaissances qui ne relèvent ni du domaine,
ni de l’expérience mais qui sont néanmoins considérées comme pertinentes
dans le fonctionnement du système.
- Les préférences de l’utilisateur peuvent porter sur une généralité et/ou un
point particulier. Par exemple, un voyageur exige le côté fenêtre
systématiquement, sauf pour l’avion, où il demande le couloir. Contrairement
aux autres caractéristiques, les préférences ne peuvent être déduites par le
système. En effet, chaque utilisateur possède ses propres préférences, et c’est à
lui de les renseigner.
- Les objectifs : dans les systèmes d’information en ligne, les utilisateurs ont
l’habitude de n’accéder qu’à une partie de l’espace d’information - ensemble
de fragments - qui dépend principalement de leurs objectifs (Brusilovsky,
Schwarz et al., 1996; Vassileva, 1996). L’objectif est un état que l’utilisateur
espère atteindre, et les plans décrivent les étapes pour y arriver. Les modèles de
tâches sont très appropriés pour modéliser ces plans et par conséquent les
objectifs des utilisateurs. Souvent ces démarches sont typiques d’une catégorie
d’utilisateurs, c’est pourquoi on associe un modèle de tâches statique à un
stéréotype (Garlatti, 1999). Ces modèles de tâches sont souvent utilisés en
interaction homme/machine pour l’évaluation et l’interprétation (Tricot &
Nanard, 1997) ainsi que la conception d’hypermédia (Fraissé 1997; Garlatti,
Iksal et al., 1999). Il n’est envisageable d’utiliser une telle méthode que
lorsque les objectifs utilisateur ont une certaine stabilité.
Nous avons vu que l’adaptation nécessite des connaissances sur les utilisateurs. Ces
connaissances sont obtenues grâce à la gestion de modèles utilisateurs qu’ils soient
construits pour des communautés (stéréotypes) ou pour des individus. De nombreux
travaux ont été menés sur les méthodes et outils de gestion de modèles utilisateurs.
L’acquisition des caractéristiques utilisateur peut être réalisée par observation directe,
interviews, questionnaires ou encore par apprentissage. Néanmoins dans le cadre du
Web, le passage à l’échelle nécessitera d’avoir des méthodes adaptées.

2.3 LES DOCUMENTS VIRTUELS PERSONNALISABLES


Les hypermédias flexibles ont évolué vers la notion de document virtuel. Les
documents virtuels sont nés d’un besoin d’interactivité et d’individualisation des
documents, plus particulièrement sur le Web. Dès 1993, Thomas Gruber définit les

85
Rapport AS « Web sémantique »

documents virtuels comme des documents hypermédia qui sont générés à la demande
en fonction de plusieurs sources d’information et en réponse à une demande de
l’utilisateur (le lecteur) (Gruber, Vemuri et al., 1996). En 1999, lors de la première
conférence sur les documents virtuels, Carolyn Watters et Michael Shepherd (Watters
& Shepherd, 1999) définissent brièvement le document virtuel comme étant un
document qui ne possède pas d’état persistant et pour lequel toutes les instances sont
générées lors de la consultation. Maria Milosavljevic (Milosavljevic, Vitali et al., 1999)
lors de l’introduction de la conférence, précise que le document virtuel est composé
de l’information et des mécanismes nécessaires à la génération du document réel qui
sera consulté par le lecteur. Un document virtuel possède donc les caractéristiques
suivantes :
- réutilisation de différentes sources d’information,
- génération dynamique du document à la demande en fonction de l’utilisateur.
Il correspond à un espace d’information et des mécanismes de génération.
Si un utilisateur peut adapter/personnaliser le document réel produit en fonction de
ses besoins, on parlera de document virtuel personnalisable (DVP), sinon uniquement
de document virtuel. Un document virtuel peut être personnalisé à partir d’au moins
un des trois critères suivants :
- Les contraintes utilisateur sont des données non persistantes définies à partir
d’une requête, d’un formulaire ou d’un simple hyperlien et qui lui sont
propres.
- Le modèle utilisateur : il s’agit d’un ensemble de données persistantes qui
caractérisent un utilisateur ou un groupe d’utilisateurs particuliers. Un tel
modèle peut contenir des caractéristiques sur les connaissances, les
préférences, les objectifs, les centres d’intérêts, etc. d’un utilisateur (Rich,
1989; Brusilovsky, Schwarz et al., 1996).
Le contexte (Brézillon, 2002) : support de lecture, taille d’écran, vitesse de
transfert, conditions géographiques, météorologiques (Garlatti & Iksal, 2000),
etc.
En 1999, Sylvie Ranwez et Michel Crampes définissent les documents virtuels
personnalisables comme les éléments et les mécanismes permettant de réaliser une
construction dynamique de documents adaptatifs. Un DVP peut être considéré
comme un ensemble d’éléments (ou fragments) associé à des mécanismes de filtrage,
d’organisation et d’assemblage sous contraintes, c’est-à-dire en respectant un modèle
de l’utilisateur et des principes narratifs (Ranwez & Crampes, 1999). Bien souvent,
l’organisation et la sélection de fragments pertinents nécessitent des mécanismes de
recherche d’information et de filtrage qui utilisent entre autres les index des
fragments. L’indexation des fragments peut aller de l’utilisation d’un simple concept
issu d’un modèle de domaine à celle plus complexe d’un schéma de méta-données.
La caractérisation de ces fragments et de leur indexation ne peut pas être séparée de
celle des mécanismes d’un DVP. En effet, un DVP est fondé sur deux étapes
principales qui sont indissociables : la spécification et la composition du document
réel. La spécification d’un DVP, c’est l’ensemble des informations nécessaires au
système pour composer le document. Cette étape dépend bien évidemment des
principes mis en oeuvre dans la composition. Elle permet au minimum aux auteurs
d’un DVP de définir les fragments (nature, granularité et indexation), mais aussi les
règles d’organisation et d’assemblage. Les deux dernières ne sont pas toujours
accessibles aux auteurs. La composition a pour objet la construction d’un document
réel à partir d’une spécification et des critères de personnalisation. Spécification et
composition sont en quelque sorte deux faces d’une même pièce ; elles ne peuvent
être conçues l’une sans l’autre et forment un tout indissociable.
Dans le cadre des documents virtuels personnalisables sur Internet qui génèrent des
hypermédias, il est intéressant de prendre en compte les méthodes et techniques

86
6 – Adaptation et personnalisation dans le Web sémantique

d’adaptation proposées dans le domaine des hypermédias adaptatifs. La


personnalisation, l’adaptation pour un utilisateur donné est favorisée par l’utilisation
des modèles utilisateurs qui représentent ces utilisateurs. En ce qui nous concerne, les
DVP sont fondés sur des informations provenant de sources hétérogènes, la
réutilisation et le partage sont des enjeux des DVP qui peuvent être assurés par le Web
Sémantique.

3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB


SÉMANTIQUE

Les travaux actuels sur l’adaptation dans le Web sémantique peuvent être
décomposés en deux parties : l’une sur les hypermédias adaptatifs et l’autre sur les
documents virtuels adaptatifs. Dans le domaine des hypermédias adaptatifs de
nombreux travaux sont en cours sur l’adaptation au support physique et aux
préférences de l’utilisateur. Le système Cuypers a pour objet la génération
automatique de présentations hypermédia temporelles adaptées aux préférences et
capacités des utilisateurs et du support physique (Ossenbruggen, Hardman et al.,
2001). La méthodologie Hera a été utilisée pour la conception de systèmes
d’information intelligents et adaptatifs sur Internet. L’adaptation se fait par rapport
au support physique et à l’historique de navigation des utilisateurs (Frassincar &
Houben, 2002). Des travaux sont également en cours sur des systèmes adaptatifs à
l’initiative de l’utilisateur (Aragão, Fernandes et al., 2001). Dans le domaine des
documents virtuels personnalisables, on peut citer des travaux sur la création de
mémoires d’entreprise (Fortier & Kassel, 2002), ainsi que le projet RNRT KMP
(Knowledge Management Portal), les dossiers thématiques personnalisables (Iksal &
Garlatti 2001; Iksal, Garlatti et al., 2001) (projet ICCARS) (Iksal, 2002) et le E-
learning (Projet Candle, http://www.candle.eu.org/). Dans la cadre des prochains
workshops intitulé Adaptive Hypermedia and Adaptive Web-Based Systems
(http://wwwis.win.tue.nl/ah2003/) d’autres travaux seront présentés.
Il existe actuellement de nombreux travaux sur la description des politiques de gestion
des données utilisateur – publiques/privées : travaux du W3C autour de P3P
(http://www.w3c.org/P3P/) (possibilité de comprendre et de gérer l’utilisation de ses
données personnelles).

4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE

Les futures recherches sur le Web Sémantique pour l’adaptation/personnalisation


peuvent s’articuler autour des cinq points suivants :
- la modélisation utilisateur et des utilisations,
- la protection de la vie privée,
- la recherche d’information,
- les services et documents adaptatifs,
- l’ergonomie des services et des documents.

4.1 M ODÉLISATION DES UTILISATEURS ET DES UTILISATIONS


Pour la modélisation utilisateur/utilisation, il est important d’avoir des standards de
modèles utilisateur/utilisation disponibles sous formes d’ontologies pour des
catégories de services/documents (possibilité d’enrichissement dynamique du modèle
utilisateur courant afin qu’il puisse bénéficier de services adaptatifs/personnalisables).

87
Rapport AS « Web sémantique »

En effet, si nous pouvons espérer dans l’avenir disposer de nombreux services et/ou
documents adaptatifs, il sera nécessaire d’avoir accès à différentes catégories de
modèles utilisateur/utilisation qui ne seront sans doute pas sans intersection commune.
Il en de même aujourd’hui pour les méta-données puisque différents schémas de
méta-données ont des champs qui sont communs et d’autres qui différent. Il sera
donc nécessaire de standardiser certains modèles.
Actuellement, la plupart des méthodes d’analyse du comportement des utilisateurs
sur le Web pose le problème du passage à l’échelle et du choix des critères pertinents
à analyser. En fait, on peut disposer d’énormes quantités de données, mais il est
difficile de savoir comment les analyser et lesquelles sont pertinentes pour un objectif
donné des utilisateurs et/ou des concepteurs. Il y a donc un réel problème pour
l’acquisition et la maintenance des modèles utilisateur – dynamiques et/ou statiques,
ainsi que pour l’acquisition de connaissances sur les utilisateurs/utilisations par
observation de comportements. Il s’agit notamment ici de développer des
observatoires des usages, et de mettre en place des outils permettant de saisir des
utilisations significatives, et non de simples « logs ininterprétables ». A partir de ces
observatoires, il faudrait pouvoir déterminer les paramètres pertinents à observer chez
les utilisateurs par classe de services et en déduire des standards de modèles utilisateur
qui seraient réutilisables et partageables.

4.2 P ROTECTION DE LA VIE PRIVÉE


Comme on vient de le voir, l’utilisation de modèles utilisateur est des points clés de
l’adaptation/personnalisation. Chacun aura un ou plusieurs modèles qui seront mis à
jour par les services accédés. Mais qui va posséder/archiver ses modèles ? Comment
peut-on contrôler l’utilisation de ceux-ci a fortiori lorsque certains logiciels feront
des déductions à partir des données enregistrées ? Il faut donc mettre en place des
politiques claires sur l’utilisation, l’archivage et la mise à jour des modèles. Il faudra
établir des standards de services et de qualité de services à propos de la sécurité et du
partage entre données privées/publiques. Il est probable qu’il faudra développer des
serveurs de modèles utilisateurs indépendants des services proposés afin d’assurer un
minimum d’indépendance entre l’archivage, l’utilisation, la mise à jour et les
fournisseurs de services.
Il serait donc intéressant d’avoir des services muni de « certificats » qui assurent
une qualité de service et de confidentialité conforme à des standards établis. Chaque
classe de service aura des méta-données conformes à leur « certification » et qui seront
ainsi accessible par des moteurs de recherche utilisant les schémas de méta-données
adéquats qui devront être à disposition sur internet.

4.3 LA RECHERCHE D ’ INFORMATION


Dans l’avenir, il existera très certainement plusieurs ontologies sur le même
domaine ou ayant le même objectif. Elles vont devoir coexister et collaborer. En effet,
il est difficile de mettre tout d’accord avec une unique ontologie dans certains
domaines. Il sera donc nécessaire d’aider les utilisateurs à poser une requête par
sélection d’une ou plusieurs ontologies pour un domaine donné ou par proposition
de différents vocabulaires. Il en est de même pour la transformation d’une requête en
une autre fonction des ressources hétérogènes disponibles sur le réseau et de leur
modélisation. Il s’agit ici de développer des systèmes médiateurs capables d’établir les
correspondances entre différentes modélisation d’un domaine.
Pour la recherche d’information adaptative, Il serait également important d’être
capable de filtrer des ressources et/ou d’annoter et/ou de classer des ressources en
fonction de modèles utilisateur (situation géographique, tâche courante, préférences,
support physique ou nature du réseau de transmission). Pour cela, il faut développer

88
6 – Adaptation et personnalisation dans le Web sémantique

des méthodes d’évaluation des ressources qui devront prendre en compte des schémas
de méta-donnés, des modèles utilisateur et des méthodes d’adaptation qui devront
tous être « standardisés » - ontologies pour les schémas de méta-données, les modèles
utilisateurs et les modèles d’adaptation.

4.4 S ERVICES ET DOCUMENTS ADAPTATIFS /PERSONNALISABLES


Pour fournir des services et documents adaptatifs aux utilisateurs, il est nécessaire
d’être capable de construire dynamiquement ces services et ces documents à partir de
ressources, d’une spécification du service ou document, d’un modèle utilisateur et de
méthodes d’adaptation et d’évaluation des ressources. Du point de vue des
fournisseurs de services ou documents, il est important d’avoir des méthodes de
création et de maintenance, les plus automatisables possible. Pour cela, il faut donc
étudier l’apport des ontologies, des méta-données et des mécanismes d’inférence qui
assurent cette automatisation.
Pour l’adaptation, les relations entre les méta-données, la granularité et les modèles
utilisateurs jouent un rôle important. Par exemple, l’adaptation se fait-elle par le choix
– filtrage - d’un document ou service pertinent ou par la sélection d’une partie du
service ou document, certains types de méta-données sont-elles dédiés à l’adaptation ?
Est-ce un invariant pour tous les services ou documents ou dédiés à certaines classes
de services ou documents ? etc. La standardisation et/ou la description sémantique de
ces relations entre modèles utilisateurs, méta-données, granularité et adaptation devrait
assurer une bonne réutilisation de ces services et documents adaptatifs.
Du coté des auteurs/concepteurs, il est nécessaire de développer des environnements
qui permettent autant que possible de voir le système auteur comme une « Glass Box »
afin que ceux-ci soient en mesure de connaître le comportement du système à partir
de leur spécification et plus particulièrement pour l’adaptation. En effet, un système
peut potentiellement engendrer une infinité de services ou documents réels. Pour cela,
il faut analyser en quoi l’utilisation des ontologies et du raisonnement peu faciliter les
tâches des auteurs et quelles sont les IHM les plus pertinents et comment pourrait-on
les engendrer dynamiquement à partir de leur description à un niveau sémantique. IL
est en effet tout à fait possible d’utiliser les principes des DVP pour la création
d’interface adaptative. Là encore, l’utilisation de description au niveau sémantique
devrait permettre une mise en œuvre plus rapide et une meilleure réutilisation.
Pour chaque service, ses politiques d’adaptation et les modèles utilisateur requis
doivent être clairement identifié afin qu’un modèle « global » de l’utilisateur soit mis
à jour sans dupliquer certaines données déjà présentes et non spécifiques à un service.
Il faut donc pour cela établir des schémas de méta-données particuliers et/ou des
catégories de schémas.

4.5 E RGONOMIE DES SERVICES ET DOCUMENTS


Pour l’ergonomie des services et des documents, il est nécessaire de développer des
recherches dans les domaines de la sociologie, de la psychologie cognitive et de
l’ergonomie cognitive sur les aspects suivants :
- Évaluation de l’utilisabilité, de l’utilité, de l’acceptabilité et de l’ergonomie
des services et documents.
- Études sur la présentation de l’information, les formats et la compréhension,

RÉFÉRENCES

89
Rapport AS « Web sémantique »

ARAGÃO V. R., F ERNANDES A. A. A. et al. (2001). Towards an Architecture for Personalization


and Adaptivity in the Semantic Web. Proc. 3rd. Intl. Conf. on Information Integration &
Web-Based Applications & Service, IIWAS 2001, Linz, Austria. Austrian Computer
Society: 139-149.
BRA P. D. (1999). Design issues in adaptive hypermedia application development. Workshop on
Adaptive Systems and User modeling on the World Wide Web, Toronto & Banff.
BRÉZILLON P. (2002). Hors du contexte, point de salut. S. O. Communicants". Autrans, France.
BRUSILOVSKY P. (1996). “Methods and techniques of adaptive hypermedia.” User Modeling and
User-Adapted Interaction 6(2-3): 87-129.
BRUSILOVSKY P. (2001). “Adaptive Hypermedia.” User Modeling and User-Adapted Interaction
11: 87-110.
BRUSILOVSKY P., E KLUND L. et al. (1998). Web-based Education for all: A tool for development
adaptive courseware. Seventh International World Wide Web Conference. Computer
Networks and ISDN Systems, (30): 291-300.
BRUSILOVSKY P., S CHWARZ E. et al. (1996). ELM-ART: An intelligent tutoring system on
World Wide Web. Third International Conference on Intelligent Tutoring Systems, ITS-
96, Montreal: 261-269.
C ONKLIN J. (1987). “Hypertext: An introduction & Survey.” IEEE Computer, 20(9):17--41
F ORTIER J. Y. & K ASSEL G. (2002). Génération de documents virtuels personnalisés à partir de
modèles de connaissances. Documents Virtuels Personnables 2002, Brest, 10-11 Juillet,
S. Garlatti, M. Crampes, ENST Bretagne: 115-126.
F RAISSÉ S. (1997). Une approche systèmatique pour la conception de documents hypermédias.
Hypertextes et Hypermédia. J. P. Balpe, A. Lelu, M. Nanard & I. Saleh, Hermes: 249-
260.
F RASSINCAR F. & H OUBEN G.-J. (2002). Hypermédia Presentation Adaptation on the Semantic
Web. Adaptive Hypermedia and Adaptive Web-Based Systems, Malaga, Springer Verlag,
Lecture Notes in Computer Science: 133-142.
GARLATTI S. (1999). Adaptive Web Server for On-line Information Systems. 5th European
Summer School , EUNICE’99, Barcelone.
GARLATTI S. & IKSAL S. (2000). Concept Filtering & Spatial Filtering in an Adaptive
Information System. Adaptive Hypermedia & Adaptive Web-Based Systems. P.
Brusilovsky, O. Stock & C. Strapparava. Trento, Springer Verlag: 315-318.
GARLATTI S., I KSAL S. et al. (1999). Adaptive On-line Information System by means of a Task
Model & Spatial Views. Second Workshop on Adaptive Systems & User Modeling on
the World Wide Web, Toronto & Banff, Eindhoven University of Technology.
GRUBER T. R., V EMURI S. et al. (1996). Model-based Virtual Document Generation, Knowledge
Systems Laboratory, KSL-96-16.
IKSAL S. (2002). Spécification Déclarative et composition sémantique pour des documents virtuels
personnalisables. Thèse IASC. Brest, ENST Bretagne.
IKSAL S. & GARLATTI S. (2001). Revisiting and Versioning in Virtual Special Reports.
Hypermedia: Openness, Structural Awareness and Adaptivity, Third Workshop on
Adaptive Hypertext & Hypermedia. S. Reich, M. M. Tzagarakis and P. D. Bra. Åarhus,
Denmark, Springer Verlag: 264-279.
IKSAL S., G ARLATTI S. et al. (2001). Semantic composition of special reports on the Web: A
cognitive approach. Hypertextes and Hypermédia H2PTM’01. P. Balpe, S. Lelu-Merviel,
I. Saleh & J.-M. Laubin, Hermès: 363-378.
KAHENEMAN D. (1973). Attention & Effort. Englewood Cliffs, Prentice Hall.
KOBSA A. & WAHLSTER W. (1989). User Models in Dialog Systems, Springer Verlag.
MCTEAR M. F. (1993). “User modelling for adaptive computer systems: a survey of recent
developments.” Artificial Intelligence Review 7: 157-184.

90
6 – Adaptation et personnalisation dans le Web sémantique

MILOSAVLJEVIC M., V ITALI F. et al. (1999). Introduction of the virtual document workshop.
Workshop on Virtual Document, Hypertext Functionality & the Web, Toronto.
OBERLANDER J. & M ILASAVLJEVIC M. (1997). Flexible Hypertext - introduction. Hypertext’97,
Proceedings of Flexible Hypertext Workshop , Southampton, UK.
OSSENBRUGGEN J. R. V., H ARDMAN H. L. et al. (2001). Hypermedia and the semantic web: a
research agenda, Centrum voor Wiskunde in Informatica.
R ANWEZ S . & C RAMPES M. (1999). Conceptual document and hypertext documents are two
different forms of virtual document. Workshop on Virtual Document, Hypertext
Functionality and the Web, Toronto.
R ICH E. (1989). Stereotypes and user modeling. user models in dialog systems. A. Kobsa & W.
Wahlster. Berlin, Springer verlag: 35-51.
THÜRING M., HANNEMANN J. et al. (1995). “Hypermedia & Cognition: Designing for
Comprehension.” Communication of the ACM 38(8): 57-66.
TRICOT A. & NANARD J. (1997). Un point sur la modélisation des tâches de recherche
d’informations dans le domaine des hypermédias. Hypertextes and Hypermédia. J. P.
Balpe, A. Lelu, M. Nanrd & I. Saleh, Hermes: 35-56.
VASSILEVA J. (1996). “A Task-Centered Approach for user Modeling in a hypermedia Office
Documentation system.” User Models & User Adapted Interaction (6): 185-223.
WATTERS C. & S HEPHERD M. (1999). Research issues for virtual documents. Workshop on
Virtual Document, Hypertext Functionality & the Web, Toronto.

91
7 – Les web services sémantiques
Patrick Kellert et Farouk Toumani

Laboratoire LIMOS - UMR (6158) du CNRS


ISIMA - Campus des Cezeaux - B.P. 125
63173 AUBIERE Cedex
Email : patrick.kellert@isima.fr et ftoumani@isima.fr

Résumé
Les web services sémantiques se situent à la convergence de deux domaines de
recherche importants qui concernent les technologies de l’Internet, à savoir le web
sémantique et les web services. Ce chapitre s’efforce de définir le concept de web
service sémantique et son apport potentiel aux technologies existantes (web services
et workflow). Un recensement des problématiques de recherche actuelles est proposé
et des directions pour les recherches futures dans ce domaine sont suggérées.
M o t s - c l é s : Web services, Web sémantique, Ontologies, QoS, E-Workflow.

1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES

Les web services sémantiques (DAML Services Coalition, 2002 ; Fensel et al.,
2002 ; McIlraith et al., 2001) se situent à la convergence de deux domaines de
recherche importants qui concernent les technologies de l’Internet : le Web
sémantique et les web services. Le Web sémantique s’intéresse principalement aux
informations statiques disponibles sur le Web et les moyens de les décrire de manière
intelligible pour les machines (cf. l’introduction et le chapitre 2 sur les langages). Les
web services, quant à eux, ont pour préoccupation première l’interopérabilité entre
applications via le Web en vue de rendre le Web plus dynamique.
La notion de «web service» désigne essentiellement une application (un
programme) mise à disposition sur Internet par un fournisseur de service, et accessible
par les clients à travers des protocoles Internet standards (Fensel et al., 2002 ; Casati &

93
Rapport AS « Web sémantique »

Shan, 2001). Des exemples de services actuellement disponibles concernent les


prévisions météorologiques, la réservation de voyage en ligne, les services bancaires
ou des fonctions entières d’une entreprise comme la mise en œuvre de la gestion de la
chaîne logistique.
Le consortium W3C (http://www.w3.org/2002/ws/) définit un web service comme
étant une application ou un composant logiciel qui vérifie les propriétés suivantes :
- Il est identifié par un URI ;
- Ses interfaces et ses liens (binding) peuvent être décrits en XML ;
- Sa définition peut être découverte par d’autres web services ;
- Il peut interagir directement avec d’autres web services à travers le langage
XML et en utilisant des protocoles Internet.
L’objectif ultime de l’approche web services est de transformer le Web en un
dispositif distribué de calcul où les programmes (services) peuvent interagir de
manière intelligente en étant capables de se découvrir automatiquement, de négocier
entre eux et de se composer en des services plus complexes (Fensel et al., 2002 ;
McIlraith et al. 2001). En d’autres termes, l’idée poursuivie avec les web services, est
de mieux exploiter les technologies de l’Internet en substituant, autant que possible,
les humains qui réalisent actuellement un certain nombre de services (ou tâches), par
des machines en vue de permettre une découverte et/ou une composition automatique
de services sur l’Internet. L’automatisation est donc un concept clé qui doit être
présent à chaque étape du processus de conception et de mise en œuvre des web
services. Comme mentionné dans (Casati & Shan, 2001 ; Fensel et al., 2002),
l’automatisation est essentielle pour intégrer les facteurs suivants :
- Passage à l’échelle : il faut être capable de traiter un nombre important de
web services (annuaire de services au niveau mondial).
- Forte réactivité dans un environnement hautement dynamique.
- Réduction des coûts de développement et de maintenance des web services.
On peut de plus rajouter les facteurs suivants:
- Forte adaptabilité facilitant la maintenance et l’évolution des web services : il
est vraisemblable que vu l’enjeu que représente leur réussite et de par leur
orientation métier, les web services créés seront amenés à être modifiés
fréquemment.
- Prise en compte de critères de qualité de services aussi bien d’un point de vue
qualitatif que quantitatif : il est clair que la plupart des critères de qualité de
services proposés actuellement (e.g., le prix) ne prennent pas en compte des
aspects qualitatifs (e.g., la notion de réputation d’un fournisseur (Maximilien
& Singh, 2001)).
Or la plupart des travaux existants qui s’intéressent à l’intégration fonctionnelle
évite le problème fondamental de l’automatisation des différentes étapes liées à la
fourniture d’un web service (par exemples, découverte et composition) puisqu’ils
limitent l’usage des web services aux utilisateurs humains plutôt qu’aux machines. En
effet, de nombreuses connaissances, indispensables pour l’automatisation des services,
sont soit absentes, soit décrites pour être interprétées et exploitées par des humains. Il
en résulte un rôle prédominant pour le programmeur humain. Il semble donc
nécessaire de tendre vers des services intelligibles pour des machines : c’est le concept
de web service sémantique.
Le besoin d’automatisation du processus de conception et de mise en œuvre des
web services rejoint les préoccupations à l’origine du Web sémantique, à savoir
comment décrire formellement les connaissances de manière à les rendre exploitables
par des machines. En conséquence, les technologies et les outils développés dans le
contexte du Web sémantique peuvent certainement compléter la technologie des web

94
7 – Les web services sémantiques

services en vue d’apporter des réponses crédibles au problème de l’automatisation.


Par exemple, la notion d’ontologie peut jouer un rôle prépondérant pour permettre
d’expliciter la sémantique des services facilitant ainsi les communications hommes-
machines, d’une part, et les communications machines-machines, d’autre part.
De manière générale, l’objectif visé par la notion de web services sémantiques est
de créer un Web sémantique de services dont les propriétés, les capacités, les interfaces
et les effets sont décrits de manière non ambiguë et exploitable par des machines et ce
en utilisant les couches techniques sans pour autant en être conceptuellement
dépendants. La sémantique ainsi exprimée permettra l’automatisation des
fonctionnalités suivantes qui sont nécessaires pour une collaboration inter-entreprises
efficace :
- Processus de description et de publication des services ;
- Découverte des services ;
- Sélection des services ;
- Composition des services ;
- Fourniture et administration des services ;
- Négociation des contrats.

2 MÉTHODES , TECHNIQUES , OUTILS EXISTANTS SUR


LESQUELS ON PEUT S ’APPUYER

Les web services tendent à devenir un domaine de recherche à part entière qui
suscite beaucoup d’intérêt de la part de chercheurs de communautés très variées. On
peut citer à titre d’exemple, le génie logiciel, les workflows, les bases de données, la
modélisation d’entreprises, la représentation des connaissances ou les multi-agents.
Cependant, on constate aujourd’hui que la littérature scientifique traitant des web
services est trop dispersée. Il en résulte une absence d’unification et d’intégration de
ses concepts rendant, tout au moins actuellement, difficile une appréhension globale et
synthétique de ce domaine. Ce phénomène est accentué par la diversité (et parfois
l’inconsistance) des visions proposées par les différentes communautés de recherche.
En effet, à l’exception du consensus constaté autour de l’infrastructure de base qui ne
concerne que les couches basses de la pile des web services (descriptions techniques
pour assurer l’interopérabilité), des divergences de vues sur le rôle et le contenu des
couches hautes de la pile (e.g., les relations entre les web services, les business
processes et les workflows) apparaissent clairement dans la littérature. Ce point est
important car il interpelle directement les problèmes d’intégration de processus
d’entreprises, i.e., une intégration effectuée à un haut niveau d’abstraction en
s’appuyant sur la sémantique des services. Ce type d’intégration constitue un des
apports les plus prometteurs de l’approche web services. C’est la raison pour laquelle,
dans la suite de cette section, nous présentons d’abord l’infrastructure de base des
web services. Nous abordons ensuite, à travers la notion de pile conceptuelle des web
services, les différents problèmes liés à la définition et la modélisation des contenus
des couches hautes de cette pile.
Techniquement, un web service peut donc être perçu comme étant une interface
décrivant une collection d’opérations accessibles via le réseau à travers des messages
XML standardisés. D’un point de vue technique, la description d’un web service
inclut tous les détails nécessaires à l’interaction avec le service comme, par exemples,
le format des messages, les signatures des opérations, le protocole de transport et la
localisation du service. Les web services s’appuient sur des mécanismes et des
protocoles standards et sont donc indépendants des langages de programmation (Java,

95
Rapport AS « Web sémantique »

J#, C++, Perl, C#, etc.), du modèle objet (COM, EJB, etc.) ainsi que des plates-formes
d’implémentation (J2EE, .NET, etc.).

2.1 ARCHITECTURE DE RÉFÉRENCE


Les efforts de recherche et de développement récents autour des web services ont
conduit à un certain nombre de spécifications qui définissent aujourd’hui
l’architecture de référence des web services. Cette architecture vise trois objectifs
importants (http://www.w3.org/2002/ws/) : (i) identification des composants
fonctionnels, (ii) définition des relations entre ces composants et (iii) établissement
d’un ensemble de contraintes sur chaque composant de manière à garantir les
propriétés globales de l’architecture.
L’architecture de référence des web services (cf. figure X1) s’articule autour des
trois rôles suivants :
- Le fournisseur de service : correspond au propriétaire du service. D’un point
de vue technique, il est constitué par la plate-forme d’accueil du service.
- Le client : correspond au demandeur de service. D’un point de vue technique,
il est constitué par l’application qui va rechercher et invoquer un service.
L’application cliente peut être elle-même un web service.
- L’annuaire des services : correspond à un registre de descriptions de services
offrant des facilités de publication de services à l’intention des fournisseurs
ainsi que des facilités de recherche de services à l’intention des clients.

Client
§ Recherche/localisation Annuaire de services
§ Lier(bind)/connecter 2- Rechercher WSDL (e.g., UDDI)
§ Invocation
service/méthodes

4- invoquer (SOAP)

Fournisseur de services
§ Implémentation
§ Déploiement
§ Description et publication 1- Publier (WSDL)
3- Lier/connecter

FIG. 1- Architecture des web services.

Les interactions de base entre ces trois rôles incluent les opérations de publication,
de recherche et de liens (bind) d’opérations. Nous décrivons ci-dessous un scénario
type d’utilisation de cette architecture. Le fournisseur de services définit la description
de son service et la publie dans un annuaire de service. Le client utilise les facilités de
recherche disponibles au niveau de l’annuaire pour retrouver et sélectionner un
service donné. Il examine ensuite la description du service sélectionné pour récupérer
les informations nécessaires lui permettant de se connecter au fournisseur du service et
d’interagir avec l’implémentation du service considéré.

96
7 – Les web services sémantiques

Pour garantir l’interopérabilité des trois opérations précédentes (publication,


recherche et lien), des propositions de standards ont été élaborées pour chaque type
d’interactions. Nous citons, notamment les standards émergents suivants :
- SOAP définit un protocole de transmission de messages basé sur XML.
- WSDL introduit une grammaire commune pour la description des services.
- UDDI fournit l’infrastructure de base pour la publication et la découverte des
services.
L’infrastructure de base autour de ces standards répond aux problèmes
d’intégration technique des applications. En effet, contrairement aux approches
d’intégration classiques qui ne sont pas exemptes d’inconvénients (Stal, 2002) (e.g.,
les EAI qui sont des applications propriétaires), les web services proposent une
approche flexible et ‘universelle’ pour l’intégration de systèmes hétérogènes en
s’appuyant sur un modèle d’intégration basé sur un couplage faible des composants
(peer-to-peer) et en exploitant de manière intensive les standards du Web. Ceci a pour
effet de permettre une intégration des applications plus rapide et moins coûteuse et
avec des perspectives d’évolution et de réutilisation réelles pour les entreprises.
Cependant, cette infrastructure n’est pas suffisante pour permettre une utilisation
effective des web services dans les domaines dont les exigences vont au-delà de la
capacité d’interactions simples via des protocoles standards. Par exemple, dans le
domaine du e-business, cette utilisation est motivée par les possibilités de coopération
et de coordination entre des entreprises telles qu’on peut les percevoir dans la mise en
œuvre de la gestion d’une chaîne logistique (eSCM) ou celle de la gestion des
relations clients (eCRM). Le challenge est alors d’être capable de spécifier et de
mettre en œuvre des business processes intra ou inter entreprises. Ceci pose donc
fondamentalement un problème d’intégration fonctionnelle des activités d’entreprises
qui dépasse la simple capacité d’interactions via des protocoles standard. Pour des
raisons de cohérence du discours, nous introduisons dans la section suivante la
problématique de l’intégration inter-organisationnelle ainsi que ses concepts sous-
jacents proposés dans la littérature.

2.2 P ROBLÉMATIQUE DE L ’ INTÉGRATION


Les entreprises actuelles sont organisées en silos fonctionnels (ou par fonction) et
s’avèrent, de fait, très inefficaces lorsqu’il s’agit de coordonner les flots de processus
entre leurs différentes fonctions. La nécessité de les rendre réactives à leur
environnement et performantes, les conduit de plus en plus à migrer vers une
organisation transfonctionnelle (ou horizontale ou orientée processus) (Garvin, 1998).
Le décloisonnement de ces silos revient en conséquence à définir des objectifs
communs aux activités d’une entreprise : ce but peut être efficacement atteint via la
spécification des processus opérationnels (business processes) de l’entreprise
(Vernadat, 1993 ; Vernadat, 1996), voire, dans le cas d’une entreprise étendue, des
processus opérationnels inter-entreprises ou inter-organisationnels38 (Klingemann et
al., 1998 ; Grefen et al., 2000). Selon le consortium « Workflow Management
Coalition » (WfMC : www.wfmc.org), un processus opérationnel est un ensemble de
une ou plusieurs activités liées qui réalisent collectivement un objectif d’entreprise,
normalement dans le contexte d’une structure organisationnelle définissant les rôles
fonctionnels et les associations. Plus concrètement, au niveau organisationnel, un
processus opérationnel est une structure logique indépendante des frontières établies
par la hiérarchie de l’entreprise, qui exprime un regroupement d’activités ou de sous-
processus réalisés par les différents départements (ou services) de l’entreprise. En
d’autres termes, plutôt que de décrire les fonctions des services de l’entreprise en

38
Un processus opérationnel inter-organisationnel est un processus organisationnel dont au moins une activité est sous-
traitée par une organisation différente de celle qui est propriétaire de ce processus opérationnel.

97
Rapport AS « Web sémantique »

termes d’activités non nécessairement liées, on identifie un ensemble d’activités, issues


de fonctions diverses, mais résumées autour de la réalisation d’un objectif commun.
Via cette approche par processus, on a une vue dynamique de comment une
organisation crée (ou non) de la valeur ajoutée. Mais la complexité des processus
d’une entreprise est telle qu’il s’avère indispensable de les modéliser. Cette tâche peut
elle-même s’avérer très complexe. C’est pourquoi la communauté des chercheurs
d’Ingénierie d’Entreprise s’est efforcée, au cours des années 1990, de proposer des
méthodologies de modélisation de processus d’entreprise intégrée implantées dans
des architectures logicielles dont les plus reconnues sont ARIS (Scheer, 1992 ; Scheer,
1999 ; Scheer, 2000), CIMOSA (Vernadat, 1996), PERA (Williams, 1994) ou encore
GERAM (Williams, 1995). Une fois les processus opérationnels d’une entreprise
modélisés, l’étape suivante consiste à transcrire ces modèles en une forme
(informatique) exécutable qui permet de suivre et de contrôler l’exécution des
processus. Cette problématique de coordonner des activités issues de différentes
fonctions autour d’un objectif commun, interpelle directement la notion de travail de
groupe39 supporté par un système de gestion de workflow (WfMS) ou système
workflow ou encore système de gestion de processus (opérationnels). Un WfMS
permet la définition et la création et la gestion de l’exécution des workflows qui
automatisent (tout ou en partie) les processus opérationnels, ces derniers étant, dans les
cas les plus complexes, des processus opérationnels inter-entreprises. La gestion d’un
processus prend également en charge la coordination et la synchronisation des
différents acteurs — ou agents : humains, machines autonomes ou applications
logicielles — du processus (attribution à chaque acteur et au bon moment, des tâches
dont il a la responsabilité avec les ressources — moyens inertes : machines, outils,
véhicules… — et les informations qui lui sont nécessaires).
Il est donc fondamental, dans le cas de workflows intégrés, de bien situer leur place
par rapport aux processus opérationnels. La technologie workflow s’appuie
beaucoup, en effet, sur la technique de modélisation puisqu’un workflow se doit
d’implanter un modèle en répondant, en particulier, aux questions suivantes :
- Quelles sont les activités à réaliser ?
- Quelles sont les compétences nécessaires pour réaliser ces activités ?
- Quand faut-il réaliser ces activités ?
- Quels sont les outils et les informations nécessaires à la réalisation de ces
activités ?
En d’autres termes, pour espérer implanter efficacement un processus opérationnel
dans un souci d’intégration via un workflow, il s’avère indispensable de modéliser ce
processus avant de modéliser le workflow (Bussler, 1996). Les modèles de processus
opérationnels relèvent, en effet, de l’intégration fonctionnelle, tandis que les modèles
de workflows relèvent de l’intégration technique. Grosso-modo, un système de
gestion de workflow est aux processus opérationnels ce qu’un système de gestion de
base de données est aux données (Stohr & Zhao, 2001, p. 283). Le consortium
WfMC propose la définition suivante d’un workflow : « un workflow est un processus
d’une organisation, gérable par un outil workflow. Il est établi dans le but principal
d’automatiser l’exécution du processus, mais il peut aussi servir à le simuler et à
l’analyser ». Toujours selon le WfMC : « un système workflow définit, gère et réalise
des procédures en exécutant des programmes dont l’ordre d’exécution est prédéfini
dans une représentation informatique de la logique de ces procédures — les
workflows ». (Stohr & Zhao, 2001) font le point sur les problèmes posés lors de

39
La notion de travail de groupe supporté par un outil de type système workflow est différente de celle de travail en
groupe supporté par un outil de type collecticiel. La différence entre système workflow et collecticiel, est que les
systèmes workflow prennent efficacement en charge la communication asynchrone entre les activités — c’est la prise
en charge du processus en cours —, contrairement aux collecticiels qui eux, privilégient l’aspect communication
synchrone — c’est la prise en charge de l’activité en cours.

98
7 – Les web services sémantiques

l’automatisation des workflows. (McCready, 1992) identifie trois catégories de


systèmes workflows, à savoir :
- Les systèmes workflows administratifs (General Purpose Workflow
Management Systems) qui implantent des processus administratifs. Les
workflows obtenus sont répétitifs, à forte prédictibilité, à structure simple et
sans grande complexité. De plus, ils subissent très rarement des modifications.
- Les systèmes workflows Ad hoc qui permettent la gestion de processus non
structurés ou peu structurés dans le sens où les tâches peuvent ne pas être
connues lors de l’activation d’un workflow. Un processus non structuré est,
par essence, très difficile à automatiser. Ils sont essentiellement utilisés pour
les besoins d’un travail collaboratif, pour la co-décision, les acteurs étant les
humains.
- Les workflows transactionnels permettent la gestion de processus et de tâches
structurellement complexes (en particulier, les activités des processus sont
réparties sur plusieurs sites). Ces processus sont à forte valeur ajoutée et
réalisent le traitement d’un important volume de transactions. La mise en
œuvre d’un workflow transactionnel nécessite l’interrogation de plusieurs
systèmes d’information hétérogènes et distribués. De par leur orientation
métier, les processus réalisés par ces workflows transactionnels, sont appelés à
être fréquemment modifiés.
Dans la suite, nous ne nous intéressons qu’aux systèmes workflows transactionnels
inter-organisationnels40 (Klingemann et al., 1998) qui interpellent directement le
contexte des web services.
(Stal, 2002) souligne qu’actuellement, les solutions pour résoudre les problèmes
d’intégration technique d’entreprises s’appuient beaucoup sur la technologie EAI.
Or, les solutions EAI sont, par essence, des solutions propriétaires, c’est-à-dire dédiées
à la résolution de problèmes spécifiques, complexes à utiliser et qui ne peuvent pas
bien interopérer les unes avec les autres. Par exemple, quand plusieurs entreprises
intègrent des systèmes qui sont eux-mêmes intégrés en utilisant des EAI, les
développeurs sont confrontés au problème récursif d’intégrer des solutions elles-
mêmes intégrées. Dans un environnement très versatile où les intégrations
fonctionnelle et technique doivent quasiment être réalisées au fil de l’eau, il est
évident que la technologie EAI ne peut prétendre avoir l’ambition de s’imposer, ne
serait-ce que parce qu’elle exige une forte composante humaine avec des temps de
réaction très longs. Contrairement aux web services qui intrinsèquement peuvent être
conçus pour être indépendants des technologies hétérogènes des partenaires d’une
organisation virtuelle.
On comprend alors mieux pourquoi l’infrastructure de base des web services n’est
pas suffisante pour répondre de manière satisfaisante à cette problématique de
l’intégration. Cette dernière, en effet, exige, par essence, la définition d’un protocole
qui permet aux activités intra et/ou inter entreprises composant un processus, d’être
cohérentes relativement à une organisation afin d’atteindre l’objectif visé. Il s’avère
donc nécessaire d’étendre l’architecture de base des web services comme présenté
dans la section suivante.

2.3 ARCHITECTURE ÉTENDUE


Différentes extensions de l’architecture de référence ont été proposées dans la
littérature. Le groupe architecture du W3C travaille activement à l’élaboration d’une
architecture étendue standard.

40
Un workflow inter-organisationnel est l’implantation d’un processus opérationnel inter-organisationnel.

99
Rapport AS « Web sémantique »

Une architecture étendue est constituée de plusieurs couches se superposant les


unes sur les autres, d’où le nom de pile des web services. La figure X2 décrit un
exemple d’une telle pile. La pile est constituée de plusieurs couches, chaque couche
s’appuyant sur un standard particulier. On retrouve, au-dessus de la couche de
transport, les trois couches formant l’infrastructure de base décrite précédemment.
Ces couches s’appuient sur les standards émergents SOAP, WSDL et UDDI.
Comme mentionné précédemment, l’infrastructure de base définit les fondements
techniques permettant de rendre les business processes accessibles à l’intérieur d’une
entreprise et au-delà même des frontières d’une entreprise. Dans ce contexte deux
types de couches permettent de la compléter : (i) les couches dites transversales
(Gottschalk et al., 2002) (e.g., sécurité, administration, transactions et qualité de
services (QoS)) rendent viable l’utilisation effective des web services dans le monde
industriel ; (ii) une couche Business processus permet l’utilisation effective des web
services dans le domaine du e-business. Dans la suite, nous nous intéresserons qu’à la
couche business processus pour laquelle, on peut relever dans la littérature, les
problèmes sous-jacents suivants :
- comment les business processes peuvent-ils être représentés comme des web
services ?
- nécessité de décrire comment les web services sont utilisés pour implanter les
activités d’un business process.
- les problèmes de composition de service, i.e., quel(s) partenaire(s) va (vont)
exécuter quelle(s) partie(s) d’un business process ?

Business Process A
BPEL4WS, BPML, WSFL, … S 1 D
E M
T I
C R
Discovery U N Q
A I o
UDDI R N
I S S
S T
T A
E R
Description C A
WSDL T T
I I
O O
N N
Exchange S
SOAP

Transport
HTTP/HTTPR, SMTP/MIME, MOM/JMS …

Figure X2- Pile des web services

Différents auteurs de la communauté de recherche s’accordent sur la nécessité de


spécifier le comportement externe de chaque partie impliquée dans le protocole
d’intégration de processus (partie publique) sans pour autant révéler leurs
implémentations internes (partie privée). Deux raisons justifient cette séparation :
1 Les entreprises ne tiennent pas forcément à révéler leurs prises de décisions
internes et souhaitent préserver la confidentialité de leurs données.

100
7 – Les web services sémantiques

2 La séparation publique-privé permet de modifier la partie privée


indépendamment de la partie publique.
A cet effet, différents langages ont été proposés dans le but de décrire le processus
public d’un service (e.g., WSCL) ou la spécification, de manière procédurale, de la
composition de services (e.g., BPML (http://www.bpmi.org/), BPEL4WS (http://www-
106.ibm.com/developerworks/library/ws-bpel/)).

3 TRAVAUX ET RÉSULTATS EXISTANTS AUTOUR DES WEB


SERVICES SÉMANTIQUES ET RECHERCHES FUTURES

L’utilisation intensive des standards, d’une part, et celle du langage XML, d’autre
part, constituent les deux caractéristiques fondamentales de la technologie des web
services. Par conséquent, les différentes spécifications d’un web service peuvent être
facilement traitées par une machine. Par exemple, une description WSDL peut être
automatiquement analysée par un parseur XML pour générer un proxy client (i.e., le
code du stub client) facilitant ainsi la tâche du programmeur lors de l’implantation de
son application. Cependant, le consensus sur la mécanique des interactions (e.g.,
format des messages, types des données et protocoles d’échanges) n’est pas suffisant
pour permettre aux web services d’interagir de manière claire et non ambiguë. Par
exemple, deux descriptions XML identiques peuvent avoir des significations
différentes selon le contexte (Paolucci et al., 2002 ; http://www.w3.org/TR/webont-req).
L’absence d’une sémantique explicite limite les possibilités d’automatisation des web
services (DAML Services Coalition, 2002 ; Fensel et al. 2002 ; Benatallah et al.,
2003). Pour pallier cette limitation, il y a clairement un besoin de langages de
descriptions des services qui permettent de conférer une signification explicite et non
ambiguë aux descriptions des web services. Par exemple, la nouvelle version du
langage WSDL préconisé par le W3C permet de définir la sémantique des termes
utilisés dans une description WSDL en référençant des ontologies RDF. La figure X3
ci-dessous reprend la pile des web services augmentée d’une couche représentant la
sémantique. Cette couche peut être exploitée par les trois couches horizontales
supérieures (description, découverte et business processus) ainsi que par certaines
couches verticales telles que les couches transactions ou QoS.

Business Process A
2 BPEL4WS, BPML, WSFL, … S D
12
E M
3 T
C I
R N Q
4 Discovery U A I o
UDDI R
5 N S S
I S
6 T T
A R
Description E C
7 A
WSDL T T
8 I I
9 O O
N N
10 Exchange S
SOAP
11
Transport
HTTP/HTTPR, SMTP/MIME, MOM/JMS …
Figure X3- Pile des web services sémantiques
101
Rapport AS « Web sémantique »

Notons qu’une condition sine qua non pour permettre une automatisation effective
des web services est que la sémantique de ces derniers soit décrite dans un langage qui
la rend intelligible pour une machine.
De manière générale, la problématique de l’automatisation sous-tend deux classes
de problèmes :
- Problèmes de modélisation : il s’agit d’abord d’identifier et de classifier les
connaissances pertinentes en fonction d’un ensemble de fonctionnalités visées
(e.g., découverte, composition, évaluation des performances, etc.) puis
d’étudier ensuite comment les décrire de manière formelle et standard. Dans
ce contexte, la notion d’ontologie en tant que conceptualisation formelle et
consensuelle d’un domaine donné, peut jouer un rôle important pour associer
une sémantique formelle à la description d’un web service.
- Problèmes d’automatisation : il s’agit de développer des algorithmes et des
mécanismes de raisonnement exploitant la sémantique des services pour
automatiser les différentes fonctionnalités (e.g., découverte de service,
composition, évaluation de performances).
Nous décrivons ci-dessous quelques travaux de recherche relatifs à ces deux classes
de problèmes.

3.1 M ODÉLISATION DES SERVICES


3.1.1 DAML-S
DAML-S (DAML Services Coalition, 2002) est une ontologie de web services basée
sur le langage DAML+OIL (Horrocks et al., 2002a ; Horrocks, 2002b). DAML-S
définit un ensemble de classes et de propriétés spécifiques à la description des
services. Dans une description DAML-S, la section profile spécifie les informations
relatives aux capacités d’un service. Elle consiste dans trois types d’informations :
- Une description du service compréhensible par les humains;
- Le comportement fonctionnel du service représenté comme une
transformation des paramètres d’entrée du service vers ses paramètres de
sortie ;
- Plusieurs attributs fonctionnels qui spécifient des informations
supplémentaires relatives au service (e.g., prix du service).
Dans l’approche DAML-S, la section profile est utilisée à la fois par les
fournisseurs pour publier leurs services et par les clients pour spécifier leurs besoins.
Par conséquent, elle constitue l’information utile pour la découverte et la composition
de services.

3.1.2 WSFM
WSFM est un cadre complet de description de services proposé dans le cadre du
projet européen SWWS41 . Il s’appuie sur les deux principes suivants :
- Découplage fort des divers composants qui réalisent une application de
commerce électronique. Ceci implique une distinction claire entre les
descriptions internes d’un service et ses descriptions publiques.
- Des mécanismes de médiation permettant un dialogue automatique entre les
différents composants. De tels mécanismes incluent la médiation entre
différentes terminologies ainsi que la médiation entre différents modèles
d’interaction.

41
http://swws.semanticweb.org

102
7 – Les web services sémantiques

WSFM comprend quatre éléments principaux :


Ontologies qui fournissent la terminologie utilisée par les autres éléments.
Répertoire d’objectifs qui définit les problèmes qui doivent être résolus par les
web services.
Descriptions des web services qui définissent les différents aspects liés aux web
services.
Médiateurs qui sont en charge des problèmes d’interopérabilité.
Dans le cadre du projet SWWS, WSFM devrait être complété par la définition d’un
cadre pour la découverte de services ainsi que des mécanismes de médiation pour les
web services.

3.2 P ROBLÈMES D ’ AUTOMATISATION


3.2.1 Découverte dynamique des services
On entend par découverte dynamique la possibilité de localiser automatiquement
un web service qui répond à des besoins particuliers. Différentes approches ont été
proposées dans la littérature pour réaliser la découverte dynamique de services
(Bernstein & Klein, 2002 ; Chakraborty et al., 2001 ; Gonzàlez-Castillo et al. 2001 ;
Paolucci et al. 2002 ; Benatallah et al., 2003). Toutes ces approches implantent en fait
une découverte approximative car il n’est pas réaliste d’imaginer qu’il y a toujours
un service qui correspond exactement aux besoins spécifiés. Ces approches diffèrent
par le langage de description de services utilisé (e.g., DAML-S, logique de description
(Baader et al. 2003), …) et/ou par l’algorithme de découverte utilisé (matchmaking
(Paolucci et al. 2002 ), test de subsumption (Gonzàlez-Castillo et al. 2001 ), réécriture
(Benatallah et al., 2003)). Par exemple, (Bernstein & Klein, 2002 ) propose d’utiliser
des ontologies de processus pour décrire le comportement des services et définit un
langage d’interrogation de processus (Process Query Language) pour interroger ces
ontologies. (Chakraborty et al., 2001) définit une ontologie basée sur le langage
DAML pour décrire des ressources mobiles et proposent un processus de
correspondance qui localise les ressources en fonction de leurs caractéristiques. Le
processus de correspondance s’appuie sur des règles qui exploitent l’ontologie, les
profils des services et la requête du client pour réaliser une correspondance à partir
des relations attributs-valeurs. Un moteur de raisonnement Prolog permet la mise en
œuvre d’un tel processus de correspondance. D’autres approches basées sur une
description DAML-OIL des services proposent d’exploiter les mécanismes de
raisonnement fournis par DAML-OIL pour supporter la découverte dynamique des
web services. (Gonzàlez-Castillo et al. 2001) décrit une telle mise en œuvre dans
laquelle l’algorithme de correspondance repose sur les tests de subsumption et de
consistance des descriptions. (Paolucci et al. 2002 ) propose un algorithme de
correspondance plus élaboré entre des services et des requêtes décrits en DAML-S.
L’algorithme reconnaît différents degrés de correspondance qui sont déterminés par
la distance minimale entre les concepts dans la taxonomie de concepts. De la même
façon, le système ATLAS (Payne et al., 2001) opère sur des ontologies DAML-S et
utilise deux ensembles séparés de filtres : (i) les attributs fonctionnels et (ii) les E/S des
services. Enfin, le projet MKBEEM (http://www.mkbeem.com) exploite les logiques de
description pour décrire les ontologies de services et définit un algorithme de
découverte de service basé sur la notion de réécriture de concepts (Hacid et al., 2002 ;
Benatallah et al., 2003).

3.2.2 Composition des services


L’objectif de la composition de service est de créer de nouvelles fonctionnalités en
combinant des fonctionnalités offertes par d’autres services existants, composés ou
non en vue d’apporter une valeur ajoutée. Étant donnée une spécification de haut

103
Rapport AS « Web sémantique »

niveau des objectifs d’une tâche particulière, la composition de service implique la


capacité de sélectionner, de composer et de faire interopérer des services existants.
Contrairement aux business processes « traditionnels » qui sont exécutés de manière
prévisible et répétitive dans un environnement statique, les web services composés
s’exécutent dans un environnement versatile où le nombre de services disponibles
évolue très rapidement. De plus, la forte compétition engendrée par la multitude de
fournisseurs de services oblige les entreprises à adapter leurs services pour mieux
répondre aux besoins des clients et ce à moindre coût. Comme le soulignent (Casati &
Shan, 2001), ces deux facteurs imposent des contraintes fortes sur les systèmes qui
délivrent des services composés. En conséquence, les business processes qui décrivent
des services composés devront intégrer d’emblée ces contraintes en exhibant des
possibilités réelles d’adaptabilité à leur environnement.
Des résultats concernant cette problématique commencent seulement à émerger.
Les travaux existants s’intéressent à une modélisation abstraite des services et à la
définition d’un cadre formel pour les composés (Hull et al., 2003, Bultan et al.
2003). Des travaux récents de la communauté Web sémantique (Narayanan &
McIlraith, 2002 ; Hendler et al., 2003) commencent à explorer des approches
combinant des outils d’annotation de services et de planification de manière à pouvoir
composer automatiquement des services en vue d’atteindre des fonctionnalités
prédéfinies. Ce type d’approche constitue une alternative aux langages procéduraux
de type BPEL4WS en permettant de générer l’implantation d’un service composite à
partir de spécifications déclaratives de son comportement. D’un autre côté, (Hull et
al., 2003, Bultan et al. 2003) s’intéressent à la définition d’un cadre formel
permettant de mieux comprendre les relations entre les propriétés globales d’un
service composite et les propriétés locales de ses composants. La motivation étant de
développer des techniques de vérification et de synthèse (construction) des propriétés
d’un service composite à partir des propriétés des de ses composants. Tous ces
travaux tentent de ré-exploiter et d’étendre des techniques existantes, telles que les
logiques temporelles, l’algèbre des processus, les réseaux de Petri, la logique des
situations, etc.

3.3 É VALUATION DES PERFORMANCES DES WEB SERVICES


SÉMANTIQUES
De manière générale, il existe deux types de critères de performance : ceux orientés
utilisateur42 et ceux orientés système 43 (Menascé & Almeida, 1998). La QoS d’un
workflow inter-organisationnel — comportant donc des services externes ou web
services — est un critère de performance orienté utilisateur. Puisque la QoS d’un tel
workflow dépendra étroitement de celles des web services qui le composent, on
comprend aisément que la notion de qualité de web services devient prédominante. Il
convient de distinguer la QoS opérationnelle44, proposée a priori aux clients et
mesurée sur le système réel, de la QoS qualitative et quantitative45 elle aussi mesurée
et exploitée a posteriori pour comprendre comment améliorer les performances d’un
web service offert. La problématique abordée ici concerne l’analyse a priori aussi
bien qualitative46 que quantitative47 des performances d’un web service. Il est clair que

42
par exemple, le temps de réponse du système, c’est-à-dire le temps qui s’écoule entre la date de soumission d’un
travail au système et celle de la fin d’exécution de cette tâche
43
par exemple, le débit du système qui mesure le taux de productivité du système relativement à sa charge, ou encore
les taux d’occupation de ses ressources qui aident à identifier les goulets d’étranglement du système
44
Sécurité, intégrité des informations, traçabilité des opérations, audits de sécurité, contrôle, filtrage et supervision des
accès
45
délai, gigue ou variation du délai de bout en bout, débit maximum atteint, disponibilité ou taux moyen d’erreurs d’une
liaison
46
absence de verrous mortels dans un web-service, validation d’un web-service ou test que le web-service
se comporte comme attendu, vérification de l’existence de certaines propriétés d’un web-service

104
7 – Les web services sémantiques

tout industriel raisonnable qui entrevoit l’apport potentiel des technologies de


l’Internet en terme de bénéfices, n’acceptera d’y souscrire que s’il est capable, entre
autres, d’évaluer a priori et objectivement les performances qualitatives et/ou
quantitatives des web services (complexes ou non) qu’il souhaite proposer.
Concernant l’évaluation qualitative d’un workflow, ce sont les chercheurs de la
communauté des réseaux de Petri (Diaz, 2001) qui sont le plus actifs. L’un des
résultats des plus intéressants est donné dans (Narayanan & MacIlraith, 2002)
puisqu’il propose des solutions pour décrire, simuler, composer automatiquement,
tester et vérifier la composition de web services décrits avec l’ontologie DAML-S. Ils
s’intéressent donc — et c’est ce qui est novateur — à des web services sémantiques.
Un processus composite décrit avec DAML-S, est traduit dans un langage de la
logique du premier ordre, puis cette spécification est elle-même représentée sans
ambiguïté par un réseau de Petri dont les propriétés sont étudiées par simulation.
Cependant, même si les auteurs évoquent le problème de l’évaluation des
performances de la QoS d’un web service, il faut bien avouer que cet objectif leur est
actuellement inaccessible, ne serait-ce que parce que les réseaux de Petri considérés
n’intègrent ni le temps, ni le partage des ressources informatiques exécutant les web
services, la prise en compte de ces ressources étant prévue comme une extension de
DAML-S.
Comme le souligne à juste titre (Cardoso et al. 2002), si la QoS a été une
préoccupation majeure, sinon fondamentale, de domaines tels que les réseaux (Cruz,
1995 ; Georgiadis et al., 1996), les applications temps-réel (Clark et al., 1992) et le
middleware (Zinky et al., 1997 ; Forlund & Koistinen, 1998 ; Hiltunen et al., 2000),
peu de groupes de chercheurs se sont efforcés d’intégrer le concept de QoS dans les
systèmes de gestion de workflows à l’exception, peut-être, de (Moorsel, 2001 ;
O’Sullivan et al., 2002 ; Zeng et al., 2003). En conséquence, très peu de travaux de
recherche traitent du problème de l’évaluation des performances quantitatives de la
QoS d’un workflow et, a fortiori, d’un workflow inter-organisationnel (donc de web
services). Or, le concept de QoS d’un workflow est devenu aujourd’hui
incontournable pour certifier un workflow en termes de performances qualitative et
quantitative, comme le montrent la création de modèles de qualité proposés par la
norme ISO 8402. Selon les auteurs, la QoS d’un workflow représente les
caractéristiques qualitatives et quantitatives d’une application workflow nécessaires
pour atteindre un ensemble d’objectifs prédéfinis. Toujours selon les auteurs, cette
situation est due, à l’absence de mécanismes dans les WfMS actuels permettant de
spécifier la QoS d’un workflow. Ils proposent donc un modèle de QoS d’un
workflow inter-organisationnel construit en définissant des métriques QoS des tâches
pouvant composer un tel workflow. Les métriques QoS d’une tâche jugées pertinentes
sont le temps et le coût d’une tâche, ainsi que la fiabilité et la fidélité d’une tâche.
Force est de constater que l’exploitation d’un modèle d’évaluation des
performances d’un système, nécessite de disposer a priori des caractéristiques des
composants du modèle puisque ces caractéristiques sont les données d’entrée du
modèle. En ce qui concerne les web services, il faut connaître (au moins) des durées
(moyennes) des activités, ainsi que la manière dont ces activités s’enchaînent, cet
enchaînement pouvant être spécifié par des probabilités (dont les valeurs sont
généralement supposées être indépendantes du temps). L’obtention des
caractéristiques d’un web service n’est pas triviale puisque le fait qu’un web service
soit exécuté par un fournisseur, conduit le client à une quasi-impossibilitéé de
connaître a priori ces caractéristiques. Une solution consiste alors à effectuer des
mesures sur le système pour tenter, à l’aide de techniques statistiques, telles que celles
proposées par (Musa, 1993 ; Musa, 1999), d’estimer ces caractéristiques, puis de les
injecter dans un modèle d’évaluation. (Cardoso et al., 2002) ont exploité cette

47
durée moyenne de réalisation d’un web-service, taux moyen d’échecs d’un web-service, coût moyen
d’un web-service

105
Rapport AS « Web sémantique »

technique pour alimenter le modèle QoS qu’ils proposent. Brièvement, leur modèle
fournit une approche multidimensionnelle pour la découverte de web services et leur
intégration à l’aide de métriques syntaxiques, sémantiques et comporte des métriques
opérationnelles principales (ou dimensions) qui sont le temps, le coût, la fiabilité et la
fidélité, ces métriques étant calculées automatiquement. Selon les auteurs, ce modèle
QoS offre la possibilité de construire des e-workflows interopérables grâce, en
particulier, à l’utilisation d’ontologies pour décrire les interfaces entre les tâches d’un
e-workflow et les web services exploités par ce e-workflow. Le modèle QoS proposé
permet également de calculer la QoS d’un e-workflow à partir des attributs (ou
métriques) de ses composants selon deux techniques : (i) en utilisant une modélisation
mathématique (Cardoso, 2002a ; Cardoso, 2002b), qui est une méthode de réduction
de workflow stochastiques qui consiste à appliquer un ensemble de règles de
réduction à un workflow jusqu’à ce que ce workflow se réduise à une tâche atomique
(Kochut et al., 1999), (ii) en utilisant la simulation aléatoire à événements discrets
(Nair et al., 1996 ; Miller et al., 1997 ; Miller et al., 2000). Le choix d’une de ces
techniques dépend essentiellement du compromis entre le temps de calcul des QoS
d’un e-workflow et la qualité des résultats obtenus.
Dans (Klingemann et al., 1999 ; Klingemann et al., 1998), les auteurs proposent
d’évaluer les performances quantitatives d’un web service avec des chaînes de Markov
à temps continu et espace d’état discret. Le problème (fondamental) pour modéliser
un service inter-organisationnel et en accord avec (Cardoso et al., 2002), est que l’on
ne le maîtrise pas explicitement. Il est donc nécessaire de collecter des informations
concernant ce service pendant son exécution (ce service étant réalisé par un
fournisseur de services). Une hypothèse forte est alors que le comportement observé
d’un service représente son comportement futur (l’objectif étant de faire des
prédictions). Dans ces travaux, un service est constitué d’un ensemble de tâche qui
pourront être activées lors d’une exécution de ce service. Les auteurs définissent l’état
d’un service (observé) comme l’ensemble des tâches actives d’un service à un instant
donné. L’exécution d’un service est alors modélisée par une chaîne de Markov dont
les états sont obtenus à partir du journal de ce service et dont les caractéristiques sont
calculées par un processus d’agrégation des données (Klingemann et al., 1998).
Dans le contexte des web services sémantiques, la motivation de recherche réside
dans la possibilité d’intégrer, dans un modèle d’évaluation des performances d’un
web service, des aspects sémantiques permettant d’identifier de nouveaux critères de
qualité d’un web service et de retenir ces critères dans la mise en œuvre effective d’un
web service pour la découverte et la composition dynamique de web services.
L’aspect sémantique pour les web services n’est actuellement considéré par les
chercheurs qu’au niveau des tâches d’un e-workflow. Il serait peut-être opportun
d’étendre ce concept de sémantique à d’autres fonctions de l’entreprise, c’est-à-dire
de réfléchir à quels peuvent être les impacts, par exemple financiers, des web services
sémantiques. Cela reviendrait alors à raisonner, non plus sur des critères de
performances d’un e-workflow, mais sur des indicateurs de performances perçus
comme pertinents par les décideurs d’une entreprise, indicateurs bien sûr qu’il reste
aujourd’hui à identifier et à construire. Pour y parvenir, nous pensons qu’il devra être
nécessaire d’intégrer, entre autres, la notion d’échelle de temps dans les ontologies
des métriques QoS des web services sémantiques et d’étudier leurs conséquences sur
les problèmes d’évaluation qui ne manqueront pas de surgir lorsque l’échelle de
temps des indicateurs et celles des critères se rapprocheront.

4 C ONCLUSION

Aujourd’hui, les web services sémantiques constituent une voie prometteuse


permettant de mieux exploiter les web services en automatisant, autant que possible,

106
7 – Les web services sémantiques

les différentes tâches liées au cycle de vie d’un service. Ils apparaissent donc
indispensables pour permettre une utilisation effective des web services dans des
applications industrielles (e.g., problème du passage à l’échelle, versatilité du Web,
etc.). Ils posent aujourd’hui un certain nombre de problèmes, qui interpellent
différentes communautés de recherche, aussi bien théoriques qu’appliqués. Le
nombre de nouvelles revues, le volume important de publications et de projets dédiés
à ce thème dénotent une vitalité réelle de ce domaine de recherche émergent.
Cependant, on remarque que la tendance actuelle des communautés de recherche
s’intéressant aux web services sémantiques est de ne pas tenir compte explicitement
des caractéristiques fondamentales des web services et de l’environnement dans lequel
ils doivent s’intégrer (e.g., les e-workflows). A notre avis, le succès de cette voie de
recherche dépendra étroitement de sa capacité, entre autres, à tenir compte des
facteurs suivants :
- Les travaux de recherche devront intégrer le plus possible les caractéristiques
des futurs standards actuellement en cours d’élaboration, les éditeurs de
logiciels (e.g., IBM, Microsoft…) étant fortement impliqués dans cette tâche.
Ils doivent donc s’efforcer d’exploiter/compléter ces futurs standards et non
pas ignorer leur existence ou les concurrencer. De la même manière, il est
important de bien identifier les contraintes imposées par les fonctions
d’entreprise afin de resituer les problématiques de recherche.
- La volonté d’automatiser à outrance n’est certainement pas une voie réaliste.
Certains travaux de recherche semblent faire abstraction de la complexité du
contexte de l’intégration de par les hypothèses simplificatrices fortes qu’ils
imposent dans leurs solutions. En effet, le contexte de l’intégration
fonctionnelle est tel que de nombreuses tâches doivent rester à la charge
d’humains. Il est, par exemple, illusoire de vouloir automatiser complètement
la gestion d’une chaîne logistique. Par ailleurs, comme le souligne (Reijers,
2003) pour les workflows, la dimension temps est une composante
fondamentale à prendre en compte pour l’automatisation des web services
sémantiques. Dans ce sens, l’intégration d’un web service sémantique dans un
e-workflow n’a de sens que s’il est pertinent et réaliste d’automatiser les
tâches de ce web service de sorte à apporter de la valeur ajoutée au e-
workflow.
- Le concept de sémantique tel que défini dans le contexte du Web sémantique,
i.e., décrire la sémantique de manière à la rendre intelligible pour les
machines, semble trop restrictif. En effet, il est également très important
d’expliciter la sémantique des web services en vue de faciliter leur utilisation
par les humains, même pour les situations où l’automatisation ne semble pas
réaliste. Il est notoire que dans le domaine des bases de données par exemple,
les modèles sémantiques (e.g., le modèle Entité/Association de Chen) ont été
proposés à l’origine pour faciliter la compréhension de la sémantique des
données d’un système d’information par les humains. Ces modèles se sont
avérés très utiles par la suite pour automatiser partiellement le processus de
conception d’une base de données.

RÉFÉRENCES
F. B AADER , D. C ALVANESE, D. M CGUINNESS, D. NARDI & P.F. P ATEL-SCHNEIDER, (editors)
(2003). The Description Logic Handbook. Theory, Implementation and Applications,
Cambridge University Press, 574 pages.
B. BENATALLAH , M-S. H ACID, C. R EY & F. T OUMANI (2003). Semantic Reasoning for Web
Services Discovery, WWW Workshop on E-Services and the Semantic Web, Budapest,
Hungary.

107
Rapport AS « Web sémantique »

A. B ERNSTEIN & M. KLEIN (2002). Discovering Services: Towards High Precision Service
Retrieval. In CaiSE workshop on Web Services, e-Business, and the Semantic Web:
Foundations, Models, Architecture, Engineering and Applications. Toronto, Canada.
T. B ULTAN, X. F U, R. H ULL & J . S U (2003). Conversation specification: a new approach to
design and analysis of e-service composition. WWW 2003: 403-410.
C. BUSSLER (1996). Workflow-Management-Systems as enterprise engineering tools, in
Modelling and methodologies for enterprise integration, Edited by Bernus, P. and Nemes, L.,
234-247, Chapman & Hall.
J. C ARDOSO (2002a). Stochastic Workflow Reduction Algorithm. LSDIS Lab, Department of
Computer Science, University of Georgia.
J. C ARDOSO (2002b). Workflow Quality of Service and Semantic Workflow Composition. Ph.D.
Dissertation. Department of Computer Science, University of Georgia, Athens, GA.
J. C ARDOSO, J. M ILLER, A. S HETH & J. A RNOLF (2002). Modeling Quality of Service for
workflows and Web Service Processes. Technical Report# 02-2002, LSDIS Lab. Computer
Science, University of Georgia, 44 pages.
F. C ASATI & M-C. S HAN (2001). Models and Languages for Describing and Discovering E-
Services. In ACM SIGMOD, Santa Barbara, USA.
D. CHAKRABORTY, F. P ERICH, S. A VANCHA, & A. J OSHI (2001). DReggie: Semantic Service
Discovery for M-Commerce Applications. In Workshop on Reliable and Secure Applications
in Mobile Environment, 20th Symposium on Reliable Distributed Systems, pages 28–31.
D. C LARK, S. S HENKER & L. ZHANG (1992). Supporting Real-Time Applications in an
Integrated Services Packet Network: Architecture and Mechanism. Proceedings of ACM
SIGCOMM, pp. 14-26.
R.L. C RUZ (1995). Quality of service guarantees in virtual circuit switched networks. IEEE J.
Select. Areas Commun. 13(6): p.1048-1056.
DAML Services Coalition (2002). DAML-S: Web Service Description for the Semantic Web. In
The First International Semantic Web Conference (ISWC), pages 348–363.
M. D IAZ (2001). Les réseaux de Petri. Hermès.
D. F ENSEL, C. B USSLER, & A . M AEDCHE (2002). Semantic Web Enabled Web Services. In
International Semantic Web Conference, Sardinia, Italy, pages 1–2.
S. F ORLUND & J. K OISTINEN (1998). Quality-of-Service Specification in Distributed Object
Systems. Distributed Systems Engineering Journal 5(4).
D.A. GARVIN (1998). The Processes of Organization and Management. Sloan Management
Review, Summer, 33-50.
L. G EORGIADIS, R. G UERIN, V. P ERIS & K. S IVARAJAN (1996). Efficient QoS Provisioning
Based on Per Node Traffic Shaping. IEEE ACM Transactions on Networking 4(4):482-501.
J. GONZÀLEZ-CASTILLO, D. TRASTOUR, & C. BARTOLINI (2001). Description Logics for
Matchmaking of Services. In KI-2001 Workshop on Applications of Description Logics
Vienna, Austria, Sep. http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-
44/.
K. D. GOTTSCHALK, S. G RAHAM, H. KREGER & J. S NELL (2002). Introduction to Web services
architecture. IBM Systems Journal 41(2): 170-177.
P. G REFEN, K. A BERER, Y. H OFFNER & H. L UDWIG (2000). CrossFlow: cross-organisational
workflow management in dynamic virtual enterprises. International Journal of Computer
Systems Science & Engineering, vol. 15, N°5, 277-290.
M.S. H ACID, A. L EGER, C. R EY & F. T OUMANI (2002). Dynamic discovery of e-services: A
description logics based approach, BDA’2002, Paris, 21—25.
J. HENDLER & D. L. MCGUINNESS (2000). The DARPA Agent Markup Language. IEEE
Intelligent Systems, 15(6):67–73.
J. H ENDLER, D. N AU, B. P ARSIA, E . S IRIN & D. W U (2003). Automating DAML-S Web
Services Composition Using SHOP2. à paraître dans ISWC’03.

108
7 – Les web services sémantiques

M.A. HILTUNEN, R. S CHLICHTING, C.A. U GARTE & G.T. W ONG (2000). Survivability through
Customization and Adaptability: The Cactus Approach. DARPA Information Survivability
Conference and Exposition (DISCEX 2000), pp. 294-307.
I. H ORROCKS, P.F.P ATEL-SCHNEIDER, & F . VAN HARMELEN (2002a). Reviewing the Design
of DAML+OIL: An Ontology Language for the Semantic Web. In Proc. of the 18th Nat.
Conf. on Artificial Intelligence (AAAI), 792-797.
I. H ORROCKS (2002b). DAML+OIL: A Reasonable Web Ontology Language. In Proc. of the
EDBT’2002 Prague, Czech Republic, pages 2–13.
R. H ULL, M. B ENEDIKT, V . C HRISTOPHIDES & J . S U (2003). E-services: a look behind the
curtain. PODS 2003, 1-14.
J. K LINGEMANN, J. WÄSCH & K. ABERER (1998). Adaptative outsourcing in cross-organizational
workflows. GMD Report 30, GMD – German National Research Center for Information
Technology.
J. KLINGEMANN, J. WÄSCH & K. ABERER (1999). Deriving Service Models in Cross-
Organizational Workflows. Procs. 9th Int. Worksh. Research Issues in Data Eng., Sydney,
Australia.
K.J. KOCHUT, A.P. S HETH & J.A. MILLER (1999). ORBwork: A CORBA-Based Fully
Distributed, Scalable and Dynamic Workflow Enactment Service for METEOR. Large Scale
Distributed Information Systems Lab, Department of Computer Science, University of
Georgia, Athens, GA.
E. M. M AXIMILIEN & M.P. S INGH, (2001). Conceptual Model of Web Service Reputation,
SIGMOD Record 31(4): 36-41
MCC READY (1992). There is more than one kind of workflow software. Computerworld,
November 2: 86-90.
S. MCILRAITH, T.C. S ON, & H. ZENG (2001). Semantic Web Services. IEEE Intelligent
Systems. Special Issue on the Semantic Web, 16(2):46–53.
D.A. M ENASCÉ & V.A.F. A LMEIDA (1998). Capacity Planning for WEB PERFORMANCE.
Prentice Hall.
J.A. M ILLER, R . N AIR, Z. Z HANG & H. Z HAO (1997). JSIM: A Java-Based Simulation and
Animation Environment. Proceedings of the 30th Annual Simulation Symposium, Atlanta,
GA., 786-793.
J.A. MILLER, A.F. S EILA & X. X IANG (2000). The JSIM Web-based Simulation Environment.
Future Generation Computer Systems: Special Issue on Web-Based Modeling and Simulation,
17(2): 119-133.
A.V. M OORSEL (2001). Metrics for the Internet Age: Quality of Experience and Quality of
Business. Technical Report HPL-2001-179, HP Labs, August 2001. Also published in 5th
Performability Workshop, Erlangen, Germany.
J.D. M USA (1993). Operational Profiles in Software-Reliability Engineering. IEEE Software,
10(2): 14-32.
J.D. Musa (1999). Software reliability engineering: more reliable software, faster development and
testing. New York, McGraw-Hill.
R. NAIR, J.A. MILLER & Z. ZHANG (1996). A Java-Based Query Driven Simulation
Environment. Proceedings of the 1996 Winter Simulation Conference, Colorado, CA., 786-
793.
S. N ARAYANAN & S. M CILRAITH (2002). Simulation, Verification and Automated Composition
of Web Services, Eleventh International World Wide Web Conference (WWW2002), Honolulu.
J. 0’SULLIVAN, D. E DMOND & A. TER HOFSTEDE (2002). What’s in a Service? Distributed and
Parallel Databases, 1 2(2-3), p. 117-133.
M. P AOLUCCI, T. K AWAMURA, T.R. P AYNE, & K.P. S YCARA (2002). Semantic Matching of
Web Services Capabilities. In Int. Semantic Web Conference, Sardinia, Italy, pages 333–347.

109
Rapport AS « Web sémantique »

T.R. P AYNE, M. P AOLUCCI, & K. S YCARA (2001). Advertising and Matching DAML-S Service
Descriptions (position paper). In International Semantic Web Working Symposium, Stanford
University, California, USA.
H.A R EIJERS, (2003). Design and control of workflow processes, LNCS 2617, Springer-verlag,
Berlin Heidelberg, 1-29.
A.-W. S CHEER (1992). Architecture of Integrated Information Systems. Springer-Verlag, Berlin.
A.-W. S CHEER (1999). ARIS – Busines Process Frameworks. Third Edition, Springer-Verlag,
Berlin.
A.-W. S CHEER (2000). ARIS – Busines Process Modeling. Third Edition, Springer-Verlag, Berlin.
M. S TAL (2002). Web Services: Beyond Component-Based Computing, Com. of The ACM,
45(10), 71-76.
E.A S TOHR & J.L. ZHAO (2001). Workflow Automation: Overview and Research Issues.
Information Systems Frontiers, Kluwer Academic Publishers, 3:3, 281-296.
F.B. V ERNADAT (1993). CIMOSA: Enterprise Modelling and Integration Using a Process-based
Approach, In: DIISM.
F.B. VERNADAT (1996). Enterprise modelling and integration: principles and applications,
Editions Chapman & Hall.
T.J. W ILLIAMS (1994). The Purdue Enterprise Reference Architecture. Computers in Industry,
24(2-3), 141, 158.
T.J. WILLIAMS (1995). Development of GERAM, a Generic Enterprise Reference Architecture and
Enterprise Integration Methodology. In Integrated Manufacturing Systems Engineering (P.
Ladet and F.B. Vernadat, eds), Chapman & Hall, London, UK, 279-288.
L. Z ENG, B. B ENATALLAH, M. D UMAS, J. K ALAGNANAM & Q. S HENG (2003). Quality-driven
Web Service Composition. In Proc. of 14th International Conference on World Wide Web
(WWW’03), Budapest, Hungary, p. 411-421, ACM Press.

110
8 – Applications du Web sémantique
Alain Léger1 et Jean Charlet2

1
France Telecom R&D, 4, rue du Clos Courtel, 35512 Cesson - France
2
Mission de recherche STIM, DPA/AP-HP & Université Paris 6 - France
alain.leger@rd.francetelecom.com
charlet@biomath.jussieu.fr

Résumé
Les technologies du web sémantique sont de plus en plus appliquées à un large
spectre d’applications au sein desquelles une connaissance de domaine est modélisée
et formalisée (ontologie) afin de servir de support à des traitements très diversifiés
(raisonnements) effectués par des machines. En outre, ces représentations peuvent-
être rendues compréhensibles par l’homme pour assurer un couplage optimal entre
raisonnements humains (cognitifs) et mécaniques (sémantique formelle) confiant à
l’homme et à la machine des tâches complémentaires.
Pour citer quelques-unes de ces applications : Portails d’entreprises et Mémoire
d’entreprises, E-Commerce, E-Work, Traitement Automatique des Langues et
Traduction Automatique, Recherche d’Information, Intégration d’Entreprises et E-
Work, Communautés d’Intérêts, Data Mining, etc. D’un point de vue économique et
sociétal, cette technologie doit pouvoir contribuer à la croissance économique, en
permettant aux entreprises d’inter-fonctionner plus aisément et de trouver plus
rapidement de nouvelles et meilleures opportunités de marchés, mais également
contribuer à la société civile dans sa vie quotidienne au travail et pour ses loisirs.
Au carrefour d’une maturité technologie émergente et d’une pression économique
pressentant des gains potentiels et l’élargissement ou la création de nouveaux
marchés, se manifeste un intérêt croissant pour l’évaluation des technologies du Web
sémantique sous l’angle des coûts et bénéfices mesurables qu’offre cette nouvelle
technologie. Une première étape dans la mesure objective de l’intérêt de cette
nouvelle technologie est d’en présenter simplement de premiers résultats pré-
industriels pour des applications prototypes les plus prometteuses. C’est bien
l’objectif de ce document qui essaie de tracer les résultats les plus significatifs et les
plus lisibles à ce jour.
M o t s - c l é s : Web sémantique, ontologies, applications, évaluation.

111
Rapport AS « Web sémantique »

1 INTRODUCTION

Via la pénétration profonde des technologies numériques au sein de la société de


l’information, le contenu du Web est multiforme, incertain et très dynamique. Cela
conduit naturellement à tenter d’abstraire cette complexité apparente, en fournissant
des nouveaux services capables de raisonner sur des représentations conceptuelles
(sémantiques) via des automates – ex. Web services. Cette couche sémantique, fait
l’objet d’une très forte activité de R&D mondiale dénommée « Web sémantique »
(DARPA, IST), OntoWeb (2002), Semantic Web (2001), ERCIM News (2002), dont
les applications premières sont évidentes, mais dont les prolongements semblent
potentiellement très riches de retombées technologiques et de services pour tous les
acteurs de la chaîne de traitement de l’information.
Cette nouvelle technologie est à la croisée de nombreuses disciplines telles les
sciences cognitives, l’apprentissage symbolique, le traitement automatique des
langues, les systèmes multi-agents, l’ingénierie des connaissances, les sciences du
raisonnement et de la décision, qui adoptent une approche formelle, normative et
algorithmique des raisonnements de sens commun et leurs traces fortes dans la langue
via la rencontre machinerie-computationnelle/facteur-humain.
Nous présentons ici quelques applications phares, ayant fait l’objet de travaux
importants dans différents domaines applicatifs, ainsi que leurs résultats.

2 E-C OMMERCE

2.1 Q UELS USAGES DES ONTOLOGIES POUR LE E-C OMMERCE ?


Le commerce électronique doit permettre un échange plus fluide d’information et
de transactions entre tous les acteurs économiques, depuis l’offreur de produits ou
services jusqu’aux clients finals. On distingue usuellement deux scénarios : des
offreurs aux clients (B2C – Business-to-Customer) et entre offreurs et grossistes (B2B
– Business-to-Business).
Les applications du B2C permettent aux offreurs de produits et services de
propager et présenter leurs offres, et aux clients, de trouver et de commander
l’offre(s) sélectionnée(s). En fournissant un accès unique à une large collection
d’articles ou de services fréquemment mise à jour, une place de commerce
électronique facilite la rencontre entre l’offre et la demande grâce à des outils de
médiation commerciale.
Les applications du B2B ont une plus longue histoire et utilisent les échanges
informatisés via des structures de messages et de protocoles très codifiées, pré-établies
et normalisées (EDI – Electronic Data Interchange ou Échange de Données
Informatisés) récemment assouplies via des standards basés sur XML (eXtensible
Markup Language).
Une nouvelle génération de services d’échange de messages compatible XML est
en développement : ebXML (electronic business in XML). UN/CEFACT, OASIS et de
nombreux acteurs du commerce électronique ont uni leurs efforts pour concevoir un
nouveau standard pour le commerce électronique. Loin de devoir remplacer
EDIFACT, ebXML se positionne dans la complémentarité et dans la continuité.
EDIFACT est particulièrement adapté aux échanges de gros volumes avec des
partenaires stables, alors que ebXML doit répondre, en plus, à la problématique des
petits échanges entre partenaires épisodiques.

112
8 – Applications du Web sémantique

Actuellement, les systèmes à base d’ontologies apparaissent comme une technologie clé pour le développement de
solutions d’E-Commerce efficaces, ouvertes et profitables. Cependant, par manque de normes de modèles de domaine et
de processus métier dans les plus larges secteurs économiques, le E-Commerce peine à décoller.

En effet, la variété d’entreprises et de solutions de commerce électronique déployées faisant usage de configurations
d’échanges très diversifiées, associée au manque de fiabilité et de sécurité sur Internet, rendent impossible le passage à
l’échelle par l’intégration et l’inter-fonctionnement de ces différentes solutions.

Par ailleurs, dans une situation de marché où coopérations et compétitions


interfèrent, l’adoption de standards de domaines et de transactions économiques est
très difficile à atteindre.
De plus,
Les pratiques commerciales sont très variées et rendent très difficiles les
alignements normatifs ;
Les entreprises sont complexes : la description des produits et services (seuls ou
associés), et leurs interactions sont difficiles à modéliser ;
Les règles du jeu économique sur des places de marché sont très opportunistes ;
L’adoption de standards pourrait limiter la créativité commerciale.
Malgré toutes ces difficultés, de réels bénéfices pourraient être tirés de l’usage
d’ontologies dans les domaines suivants :
- catégorisation de produits dans des catalogues,
- catégorisation de services (dont les Web services),
- pages Jaunes des sociétés de services,
- identification des pays, régions et monnaies,
- identification des organisations, de personnes et d’entités légales,
- identification de containers de transport (type, situation, routes et contenus),
- classification de données statistiques.
Quelques applications B2B font usage de références codées dans des classifications
(ex. UNSPSC, OTA) pour réduire la taille des données à transmettre entre acteurs
économiques. De tels codes s’affranchissent des ambiguïtés inhérentes de la langue
naturelle (polysémie sur les noms de produit et polymorphisme sur les noms propres).
Enfin, pratiquement aucun des schémas de classification utilisés n’est décrit
formellement comme le devrait être une ontologie.
Nous présentons dans la suite deux exemples de tentatives d’usage des technologies
du web sémantique au contexte du E-Commerce.

2.2 LE E-C OMMERCE À BASE DE CONNAISSANCES : OntoSeek® E T


Mkbeem®

Pour des services de pages jaunes ou des catalogues de produits, une représentation
structurée des contenus couplée à des ontologies linguistiques améliore de manière
notable le rappel et la précision des outils de recherche marchands. Le système
ONTOSEEK (1996-1998) a couplé une représentation des connaissances du domaine
(langage à pouvoir d’expression très limité de la famille de graphe conceptuel GC) à
une large ontologie linguistique multilingue (SENSUS basé sur WORDNET) pour une
recherche de produits en langue naturelle multilingue (Guarino et al., 1998).
ONTOSEEK combine un mécanisme de recherche par le contenu sémantique
(ontologie) avec un formalisme de représentation assez pauvre (GC). A la différence
des systèmes connus, l’utilisateur n’est pas supposé connaître le vocabulaire de

113
Rapport AS « Web sémantique »

codage des produits mais grâce à l’ontologie linguistique S ENSUS peut s’exprimer
avec les termes de son vocabulaire.
Les principaux choix d’architecture fonctionnelle d’ONTOSEEK :
- usage d’une Ontologie linguistique généraliste pour représenter finement les
produits ;
- grande flexibilité terminologique dans l’expression des requêtes, grâce à un
mécanisme d’intersection sémantique entre les requêtes et la description des
produits ;
- Assistance interactive pour la formulation de la requête par généralisation et
spécialisation.

Ils font usage d’un formalisme de représentation basique des GC pour représenter
les requêtes et les descriptions des produits. Le mécanisme d’intersection sémantique
est basé sur un simple calcul de subsomption sur les arcs et les nœuds du graphe et ne
met pas en œuvre un calcul complet d’endomorphisme de graphe.
ONTOSEEK n’a pas fait l’objet de déploiement commercial mais à son époque a
très bien montré les gains potentiels que les prémisses de technologie du Web
sémantique pouvaient apporter aux moteurs marchands pour le commerce
électronique.
MKBEEM (2000–2002) projet IST du FP5 avait pour objectif de développer une
plate-forme de commerce électronique multilingue et multiculturelle principalement
centré vers des services pour le B2C. Les résultats finaux ont clairement indiqué que
pour des domaines commerciaux bien délimités – mais totalement réalistes - les
technologies de la connaissance (KRR) couplées à des technologies du traitement
automatique des langues (TAL) fournissent des services de traduction et
d’interprétation de grande qualité et opérationnels à très court terme (Mkbeem,
2002).
L’innovation clé réside dans ce couplage du TAL et du KRR offrant à ce jour les
services suivants :
- représentation de la requête langue naturelle dans une représentation
sémantique (ontologie) ;
- maintenance aisée de catalogues de produits et services multilingues ;
- création aisée d’offres composites de produits et de services ;
- recherche en langue naturelle de produits ou de services par le contenu
sémantique ;
- catégorisation et indexation automatiques des produits ou des services décrits
en langue naturelle ;
- intégration aisée et rapide de nouvelles offres de produits ou de services dans
un contexte multilingue et pluriculturel.
La qualité des résultats a été jugée sur un prototype pan-européen pour le Finnois, le
Français, l’Espagnol et l’Anglais dans les domaines du tourisme (SNCF) et de la vente
par correspondance (Redoute-Ellos). Cette technologie fait l’objet de transfert vers la
Redoute et la RMN.

3 A PPLICATIONS MÉDICALES

La médecine est un des domaines d’applications privilégiés du Web sémantique


comme elle l’a été, à une autre époque, des techniques de l’Intelligence Artificielle, en

114
8 – Applications du Web sémantique

particulier les systèmes experts. C’est en effet un domaine complexe où les


informations à partager sont nombreuses et où il n’y a pas ou peu de solutions
algorithmiques à ce partage comme à l’usage des connaissances, en particulier
cliniques. Ainsi, un des principaux mécanismes du Web sémantique qui est la
description de ressources via des annotations est de la plus grande importance en bio-
informatique, plus particulièrement autour des questions de partage des ressources
génomiques. Dans le contexte, plus ancien, de la recherche d’information, la
médecine a une longue tradition de développement de thésaurus comme le Me SH
(Medical Subject Heading) ou UMLS (Unified Medical Language System –
http://www.nlm.nih.gov/research/umls/umlsmain.html) et les utilise maintenant dans le
cadre des mécanismes du Web sémantique. Enfin, et plus récemment, les services Web
proposent des solutions à la problématique récurrente et non résolue de
l’interopérabilité en médecine, en particulier dans le contexte des SIS (Systèmes
d’Information Hospitaliers). C’est dans ces 3 champs de l’informatique médicale que
nous allons décrire les travaux de recherche qui se développent, les résultats et les
perspectives attendues48.

3.1 LE PARTAGE DE RESSOURCES


Dans le domaine de la génomique fonctionnelle, il est nécessaire d’accéder à une
multitude de bases de données et de connaissances accessibles via le Web, mais
hétérogènes dans leur structure et leur terminologie. Parmi ces ressources, citons les
bases de données comme Swissprot, où les produits de gènes sont annotés par
GENEONTOLOGY, GENBANK, etc. En comparant ces ressources, on s’aperçoit
qu’elles proposent de l’information identique – e.g. des références à des articles –
sous des formats extrêmement différents, bien que XMLl soit mis en avant comme
langage de description (Mougin et al., 2003).
Dans un autre domaine que la génomique mais en utilisant les mêmes mécanismes
du Web sémantique (ontologies, médiateurs), le projet NEUROBASE (Barillot et al.) est
un projet soutenu par le ministère français de la Recherche (MENRT) qui a pour
objectif de fédérer au travers d’Internet des bases d’informations en neuroimagerie,
situées dans différents centres d’expérimentation, cliniques neurologiques ou de
recherche en neurosciences. Ce projet consiste à spécifier comment relier et accéder à
ces bases d’informations par la définition d’une architecture informatique permettant
l’accès et le partage de résultats d’expérimentations ou bien encore de méthodes de
traitement des données au sein d’un même site ou entre sites différents. Cette
architecture repose sur le concept de médiateurs (Cf. chap. 5). Cela permettra, par
exemple et au sein de ces bases d’informations, la recherche de résultats similaires, la
recherche d’images contenant des singularités ou encore des recherches transversales
de type « fouille de données » pour mettre en évidence d’éventuelles régularités. Le
médiateur de NEUROBASE devrait être expérimenté sur une application clinique d’aide
à la décision en chirurgie de l’épilepsie.

3.2 L’INDEXATION ET LE CATALOGAGE


Le site PubMed <http://www.ncbi.nlm.nih.gov/PubMed/> de la NLM (National
Library of Medicine) donne accès à la plus grande base d’articles scientifiques dans le
domaine de la bioinformatique. Ces articles sont indexés à l’aide des termes du MeSH
<http://www.nlm.nih.gov/mesh/meshhome.html>, un thésaurus contenant près de
22 000 descripteurs. La maintenance de PubMed met en lumière un des problèmes de
l’indexation, le travail que représente le choix d’index pertinent pour représenter les
articles. Cela rejoint, comme le projet suivant, la question de la mise en place des

48
Ces descriptions doivent beaucoup au workshop organisé par le Laboratoire d’informatique médicale (LIM) de
Rennes en collaboration avec l’AS Web sémantique (Web sémantique Médical, 2003)

115
Rapport AS « Web sémantique »

annotations (Cf. chap. 3), difficile d’autant plus qu’elle est effectuée a posteriori. La
NLM a ainsi un gros projet d’indexation automatique des ressources fondée sur
l’analyse du titre, du résumé de l’article et des index déjà posés sur les articles cités en
référence (Aronson et al., 2000).
Le site C ISMeF du CHU de Rouen, reconnu en France comme étant le site de
référence en informatique médicale, « catalogue » et indexe l’ensemble des sites
médicaux francophones de qualité (environ 12 000 en 2003 – <http://www.chu-
rouen.fr/cismef/>). En dehors du fait que cela ne se fait pas sans méthode et sans une
certaine force de travail, il est intéressant d’explorer d’un peu plus près les modes
d’indexation des sites (Darmoni et al,. 2000) : ainsi, quand une page Web est
cataloguée, elle est indexée pour pouvoir être retrouvée et reproposée aux intéressés.
RDF et les balises du Dublin Core sont alors utilisés pour décrire des informations de
type bibliographique au sujet de la page (langue utilisée dans le document, année,
auteurs, sujet (mots-clés), etc.). Des balises nécessaires aux ressources médicales
comme la gratuité de la ressource ou son niveau de preuve s’y ajoutent. Comme pour
Medline, c’est le thésaurus MeSH qui est utilisé pour indexer le contenu médical des
ressources.
Ces applications, en particulier CISMeF , nous interrogent sur l’utilisation des
thésaurus pour l’indexation par rapport à la possibilité qu’offriraient les ontologies.
Si les thésaurus montrent ici parfois leur limite avec une organisation des concepts
médicaux parfois ambiguë ou incohérente, la mise en place d’ontologies a un coût
(en temps en particulier) non négligeable et dont la rentabilité n’est pas évidente. De
plus, une ontologie manipule des concepts à une telle granularité qu’ils ne sont pas
facilement accessibles dans le contexte du travail courant du praticien. Des solutions
semblent se mettre en place en reliant les concepts de l’ontologie aux termes des
thésaurus dans un serveur de terminologie comme en propose le projet GALEN (Rector
et al., 1995) qui rejoint les propositions de thésaurus sémantiques dans d’autres
domaines (Roussey & Calabretto, 2002).

3.3 DES SERVICES WEB POUR L ’ INTEROPÉRABILITÉ


Les services Web abordés au § 2.1.1 permettent de proposer des solutions au
problème de l’interopérabilité en médecine. C’est ce type d’usage que cherche à
promouvoir l’association Edisanté <http://www.edisante.org/> dans le cadre de son
groupe de travail GT11 au sein d’un projet « EDI données cliniques » soutenu par le
MENRT. La proposition consiste à utiliser les propositions de E-Commerce et les
langages des services Web, en particulier ebXML et SOAP (Simple Object Access
Protocol) en les augmentant d’éléments spécifiques à la santé pour proposer une
norme d’échange de données cliniques entre praticiens ou institutions (Cordonnier et
al., 2003).
Les propositions du GT11 portent sur une structure permettant de transporter des
données et des documents hétérogènes mais avec des informations associées à ce
transport, renseignant sur la finalité du message et son contenu, et en permettant la
gestion et le traitement – c’est le concept d’enveloppe. Ce concept rejoint totalement
le concept récent d’enveloppe ebXML. Il s’en différencie par deux points
principaux :
Le patient comme unique objet de la transaction. Un tel échange ne saurait être
anonyme du point de vue du couple émetteur-récepteur. Il concerne donc un
émetteur et un destinataire, qui tous deux sont impliqués et responsabilisés
dans l’échange. Le seul moyen de permettre à un émetteur de signer un envoi
réservé à un récepteur précis, concernant un patient qui a le droit d’exiger
d’en connaître le contenu, aboutit à une structure nécessairement unique pour
le triplet {émetteur, récepteur, patient}.

116
8 – Applications du Web sémantique

Le caractère multimédia des informations transportées. Une analyse de l’existant


fait apparaître clairement l’existence chez la majorité des acteurs de santé de
sources multiples d’informations concernant un même patient. Ces
informations médicales ne sont pas nécessairement liées entre elles,
notamment sur le plan informatique, et se présentent sous des formes et sur
des supports divers (bases de données, documents textuels formatés ou pas,
propriétaires ou pas, images, etc.). Si ces informations ne sont pas toujours
gérées de manière centralisée chez l’émetteur, il peut être fondamental de les
réunir à l’occasion d’un échange avec un autre acteur de santé, qui, lui, saura
éventuellement les intégrer dans sa base de données. Même sans lien
informatique structuré, le fait de les envoyer ensemble a un sens sur le plan
médical, par rapport au contexte précis de l’échange, comme par exemple
dans le cas de l’échange d’une image et de son compte rendu. Sur le plan de
la traçabilité de l’échange, il est donc fondamental pour l’émetteur et le
récepteur de pouvoir prouver que ces informations ont été transmises
ensemble.
L’intérêt d’une telle approche est qu’elle trace un chemin vers l’interopérabilité
plus facilement que des normes spécifiant précisément les items d’information
échangés comme le propose le consortium américain HL7 (Health Level 7) ou
l’organisme de normalisation européen CEN TC251 (Charlet et al., 2002). Elle
permet une certaine interopérabilité, loin de l’interopérabilité sémantique que
devraient offrir les ontologies mais plus réaliste dans le contexte de l’informatique
médicale à ce jour.

3.4 E T DANS LE FUTUR ?


Les différents projets et applications reflètent bien un usage majeur du Web attendu
par les communautés médicales, le partage ou l’intégration d’informations ou
connaissances hétérogènes et proposent d’explorer des méthodes ou architectures
différentes pour y répondre : approche médiateur, architecture type système à base de
connaissance reposant sur les langages standards RDF et OWL. Les méthodes,
langages, outils en cours de développement pour le Web Sémantique doivent prendre
en compte ces attentes. Notons enfin que, dans ce cas comme dans d’autres domaines,
le Web sémantique est une vision intégratrice et cohérente de problèmes pour lesquels
des solutions sont réfléchies depuis longtemps.

4 P ORTAILS ET MÉMOIRES D ’ENTREPRISE

4.1 LES SERVICES OFFERTS


Depuis quelques années, la capitalisation des connaissances est vue comme un sujet
stratégique pour les entreprises. C’est ainsi que se sont développées tant du point de
vue méthodologique que technologique les activités de « Mémoire d’entreprise » ou
de « gestion des connaissances de l’entreprise » (KM – Knowledge Management).
Très clairement le KM est interdisciplinaire et fait appel à la gestion des ressources
humaines, à l’organisation et à la culture de l’entreprise, et enfin aux technologies
NTIC qui peuvent y jouer un rôle très fort de mutation des usages.
Dans (Van Heijst et al., 1996), la “mémoire d’entreprise” est définie comme la
“représentation explicite, persistante, et désincarnée, des connaissances et des
informations dans une organisation”. Elle peut inclure par exemple, les connaissances
sur les produits, les procédés de production, les clients, les stratégies de vente, les
résultats financiers, les plans et buts stratégiques, etc. . La construction d’une mémoire

117
Rapport AS « Web sémantique »

d’entreprise repose sur la volonté de “préserver, afin de les réutiliser plus tard ou le
plus rapidement possible, les raisonnements, les comportements, les connaissances,
même en leurs contradictions et dans toute leur variété” (Pomian, 1996). Le
processus de capitalisation des connaissances permet de réutiliser, de façon pertinente,
les connaissances d’un domaine donné, précédemment stockées et modélisées, afin
d’accomplir de nouvelles tâches (Simon, 1996). Le but est de “localiser et rendre
visible les connaissances de l’entreprise, être capable de les conserver, y accéder et les
actualiser, savoir comment les diffuser et mieux les utiliser, les mettre en synergie et
les valoriser (Grundstein, 1995).
Dans un passé récent, les solutions de KM se sont principalement tournées vers les
silos de documents textuels produits par l’entreprise comme lieu privilégié de la
connaissance. Dans un futur proche, les technologies du web sémantique, et tout
particulièrement les ontologies et les raisonnements sémantiques associés offrent de
nouvelles perspectives aux solutions de KM.
Bien que les premières tentatives aient déjà clairement montré tout le potentiel que
l’on pouvait en tirer, de nombreux champs d’investigation restent ouverts avant que le
Web Sémantique tienne ses promesses, par exemple :
- Une intégration « sans couture » des savoirs de l’entreprise est absolument
nécessaire, pour éviter toutes les redondances et surcharges superflues ;
- Une méthodologie, un outillage et une stratégie de mise en place sont
indispensables pour soutenir l’effort de création et de capitalisation des
connaissances. Par exemple des outils de maintenance (semi-) automatisée des
ontologies pour suivre l’évolution dynamique des savoirs ;
- L’accès et la présentation de la connaissance doivent tenir compte du contexte
des tâches courantes ;
- La personnalisation doit tenir compte des attentes des utilisateurs pour éviter
la surcharge cognitive et pour délivrer l’information au bon niveau de
granularité.
Le développement de portails des savoirs servant les besoins de l’entreprise ou de
communautés est plus ou moins à ce jour une tâche essentiellement manuelle. Dans
un contexte économique très versatile et opportuniste, Ontologies et Outils
d’inférence, TAL, devraient faciliter la maintenance évolutive des portails qui doivent
être à jour et de plus en plus pertinents.
Les services classiques associés aux solutions de KM pour lesquelles les
technologies du web sémantique seront fortement contributives sont :
- accès des employés en situation de mobilité à la mémoire de l’entreprise
(Mobile KM) ;
- partage entre employés d’une même communauté (P2P – Peer-to-Peer
computing) où la construction de la connaissance (Ontologie et annotations)
s’opère de manière naturelle et consensuelle ;
- intégration des mémoires d’entreprises décentralisées et multinationales ;
- formation professionnelle continue (e.Learning) sur le portail de l’entreprise
sur lequel l’employé se voit offrir des parcours de formation diversifiés et
surtout personnalisés.
Le KM est évidemment un champ applicatif des technologies du web sémantique
très prometteur. Les technologies documentaires classiques ont clairement montré
leurs limites – très faible capitalisation des savoirs – l’introduction de ces nouvelles
technologies laissent entrevoir de réelles avancées de l’offre et des usages.

118
8 – Applications du Web sémantique

4.2 DES PORTAILS D ’ ENTREPRISE SÉMANTIQUES :


Ontoknowledge® ET C O mma®
OntoBroker (1998) est le premier exemple avancé de mise en œuvre des
technologies du web sémantique au KM. L’architecture se compose d’une interface
d’interrogation, d’un moteur d’inférence et d’un collecteur (crawler) de données sur
le web. Le formalisme d’interrogation est à base de « frame » et définissant la notion
d’instances, de classes, d’attributs et de valeurs (OntoBroker, 1998).
ONTOKNOWLEDGE (Ontoknowledge, 2001) est le projet qui a enrichi les résultats
Ontobroker.
ONTOBROKER a été mis en œuvre avec succès sur les scénarios d’usage suivants :
- portails communautaires : Acquisition et partage de connaissances en
communautés d’employés ;
- annotation de documents (projet (KA)2 – Knowledge Annotation Initiative) ;
- gestion des ressources humaines.
CoMMA (Comma, 2002) est un projet IST subventionné par la commission
Européenne visant à développer et tester un environnement de gestion de la mémoire
d’entreprise. Le projet s’attache à préserver le contexte de l’existence et de
l’utilisation de la mémoire d’entreprise en s’intéressant en particulier à deux
scénarios :
Aide à l’insertion d’un nouvel employé : Utiliser la mémoire d’entreprise pour
permettre aux nouveaux employés de s’insérer rapidement, de comprendre la
politique, le fonctionnement et l’organisation de l’entreprise et les rendre
opérationnels le plus rapidement possible en leur permettant de trouver ou en
leur suggérant pro-activement l’information dont ils ont besoin.
Support de la veille technologique : Utiliser la mémoire d’entreprise pour assister
l’identification et l’évaluation de technologies émergentes concernant
l’activité de l’entreprise, et diffuser l’information pertinente aux personnes
concernées et compétentes.
CoMMA se distingue par son approche basée sur l’intégration de plusieurs
technologies émergentes (Langages du web sémantique : XML, RDF-S, Systèmes
multi-agents, Apprentissage symbolique, Ingénierie des connaissances). Chacune de
ces technologies apporte des éléments de solution pour la réalisation, la gestion et
l’exploitation d’une mémoire organisationnelle distribuée et hétérogène. Les
Intranets reposant sur la technologie Internet, bénéficient des progrès du web
sémantique.

5 TRAITEMENT AUTOMATIQUE DES LANGUES

5.1 L’USAGE D ’O NTOLOGIES “ LINGUISTIQUES ” DANS LES


APPLICATIONS
« Ce qui concerne le sens est le point faible des études sur le langage, et le restera
jusqu’à ce que nos connaissances aient avancé bien loin de leur état actuel »
conjecturait (Bloomfield, 1933).
Que peut apporter le Web sémantique au traitement automatique des langues
(TAL) ? Le langage humain est construit de mots individuels (niveau lexical), qui
peuvent avoir plusieurs sens, et parfois appartenir à plusieurs catégories lexicales ou
parties du discours. Les textes en langue humaine sont des objets très structurés,
présentant une cohésion inter et intra-phrase très forte (IJCAI-97, 1997).

119
Rapport AS « Web sémantique »

La sémantique pour le traitement automatique s’intéresse à la modélisation des


phénomènes sémantiques intervenant dans le langage humain (anaphore, ellipses,
comparatif, références temporelles, attitudes, verbes, …). Traditionnellement, les
approches formelles se sont situées au niveau de la phrase. Elles ont été ensuite
étendues au niveau du discours (FraCaS, a framework for Computational Semantics, –
Fracas, 1998).
Quand un auditeur reçoit un message d’un orateur, il essaie de comprendre ce que
et pourquoi ce locuteur a produit ce message en faisant appel à ses compétences
linguistiques, sa connaissance en général et en particulier celles de la situation
d’énonciation, ses croyances, etc. L’auditeur construit donc une représentation (très
probablement sémantique) de ce qu’il comprend de la proposition du locuteur, afin
de sélectionner une réaction en retour.
Pour construire cette représentation, il doit partager avec l’orateur quelques
croyances et connaissances :
- reconnaissance phonétique et lexicale (si message vocal),
- connaissances lexicales,
- connaissances grammaticales,
- connaissances sémantiques du domaine du discours,
- règles conversationnelles et cohérence discursive,
- connaissances contextuelles.
Selon (Zyl et al., 2000), il y a eu quelques applications faisant usage d’ontologies
linguistiques49. En complément de l’usage traditionnel de ces ontologies pour la
génération (Natural Language Generation, NLG) et la traduction, ces applications les
mettaient en œuvre pour l’extraction de sens d’un texte, pour la recherche
d’information, et pour l’intégration d’informations hétérogènes.
Une ontologie linguistique telle que définie dans (Zyl et al., 2000) sert de format
pivot entre applications ou entre interprétations possibles communes de différentes
langues. Les ontologies linguistiques ont généralement pour objet de résoudre les
questions suivantes : comment représenter les connaissances d’un univers donné et
comment lier cette représentation à celles aujourd’hui classiques des grammaires et
des lexiques ?
De nombreuses applications (toutes ?) du web sémantique devraient à l’avenir faire
appel aux outils traditionnels du TAL enrichis des représentations et des traitements
sémantiques associés.

5.2 LA TRADUCTION AUTOMATIQUE : Pangloss® ET Mikrokosmos®


Une application de génération de langue naturelle fait traditionnellement appel à
une représentation neutre (pivot) à laquelle on relie les différents termes d’une base
lexicale multilingue. Ces applications sont des systèmes de traduction à base de
connaissances (KBMT – Knowledge-Based Machine Translation), traduisant via le
sens (sémantique) un texte d’une langue vers d’autres langues. La représentation du
sens est modélisée dans une ontologie indépendante des langues qui joue le rôle
« d’interlingua ».
Les principaux bénéfices attendus sont : de fournir un fondement pour représenter
le sens de texte dans un « interlingua » ; pour permettre à des lexiques de différentes

49
Le terme d’« ontologie linguistique » peut faire penser à un oxymoron dans la mesure où une ontologie à trait aux
concepts, pas aux mots de la langue. En pratique, les utilisateurs principaux de ce terme (Zyl et al., 2000) décrivent plutôt
l’association d’une ontologie et de lexiques de différentes langues dans le but de créer une représentation pivot.

120
8 – Applications du Web sémantique

langues de partager un même modèle. Le modèle ontologique résultant est du coup


partagé pour le TAL par l’analyse et la génération.
WORDNET et E UROWORDNET (Vossen, 1998) en est un archétype. A la différence
de W ORDNET dédié à la langue anglaise, E UROWORDNET est une base multilingue
(Allemand, Hollandais, Français, Italien, Espagnol, Tchèque et Estonien). Le réseau est
organisé de manière identique à WORDNET en « synsets » (ensembles de mots
synonymes) lié par des liens basiques de synonymie. Ces ensembles sont ensuite reliés
à un interlingua (Inter-Lingual-Index) basé sur le Princeton Wordnet. Au travers de
cet index, les langages sont interconnectés de telle sorte qu’il est possible de passer
des mots d’une langue aux mots similaires d’une autre langue.
Le système PANGLOSS® (Knight et al., 95) traduit des textes Espagnols en
Anglais. L’ontologie linguistique utilisée dans Pangloss ® est SENSUS (identique à
celle utilisée dans le système ONTOSEEK cité plus haut).
Le système MIKROKOSMOS® (Viegas, 99 ;Mahesh, 95) traduit des textes
Espagnols et Chinois en Anglais. Il inclut un interlingua (TMR – Text Meaning
Representation) qui produit une représentation sémantique pour les langues sources
citées. Il propose aussi un outil d’édition et une API pour accéder à l’ontologie
MIKROKOSMOS.

6 C ONCLUSION

Nous avons résumé dans le paragraphe précédent quelques classes d’applications


archétypes de l’usage immédiat et tangible des technologies du web sémantique. Il ne
fait aucun doute que cette technologie du sens doive apporter un saut qualitatif
indiscutable si ce n’est une réelle rupture technologique.
Toutefois, la technologie est encore immature et de nombreuses questions
scientifiques restent ouvertes telles :
- le passage à l’échelle du web,
- la tenue en contexte de forte hétérogénéité (modélisations et langages),
- la tenue en milieu fortement évolutif.
Le réel décollage des technologies du web sémantique ne se fera que quand les
technologies auront atteint un niveau de maturité et de conviction suffisantes (ce qui
est déjà vrai pour quelques domaines comme le E-Commerce) et quand les modèles
économiques feront apparaître de manière évidente les gains en terme de retour sur
investissement (ROI) et d’extension ou d’ouverture vers de nouveaux marchés.
C’est l’objectif majeur du réseau thématique IST-Ontoweb et du futur réseau
d’excellence NoE-KnowledgeWeb (FP6).

RÉFÉRENCES
ARONSON AR, BODENREIDER O, C HANG HF, HUMPHREY SM, MORK JG, NELSON SJ,
R INDFLESCH TC & W ILBUR WJ (2000), The NLM Indexing Initiative, Proc AMIA Symp
p.17-21.
BLOOMFIELD L., (1933) Language, Holt, Rinehart and Winston, New York, 1933.
C HARLET J., C ORDONNIER E.& GIBAUD B. (2002) Interopérabilité en médecine : quand le
contenu interroge le contenant et l’organisation. Revue Information, interaction, intelligence
2(2).
Co MMA (2002) http://www.si.fr.atosorigin.com/sophia/comma/Htm/HomePage.htm

121
Rapport AS « Web sémantique »

C ORDONNIER E., C ROCI S., L AURENT J.-F., G IBAUD B. (2003) Interoperability and Medical
Communication Using “Patient Envelope”-Based Secure Messaging Proceedings of the
Medical Informatics Europe Congress,
DARMONI S.-J., LEROY J.-P., BAUDIC F., D OUYÈRE M., P IOT J. & THIRION B. (2000). CISMeF
: a structured health resource guide. Methods of Information in Medicine, 39(1).
ERCIM News (2002) http://www.ercim.org/publication/Ercim_News/enw51/ Special: Semantic
Web, October.
F RAC AS (1998) Survey of the state of the art in human language technology, Chapter 3 on
Language Analysis and Understanding.
[IJCAI-97, 1997] Ontologies and Multilingual NLP, Kavi Mahesh, August 23-29, 1997, Nagoya,
Japan.
GUARINO N., M ASOLO C.& V ETERE G., OntoSeek: (1999) Content-Based Access to the Web,
IEEE Intelligent System.
KNIGHT, K.; C HANCER, I.; HAINES, M.; H ATZIVASSILOGLOU. V.; HOVY, E. H.; IIDA M.; L UK,
S.K.; WHITNEY, R.A. & Y AMADA, K.( 1995) Filling Knowledge Gaps in a Broad-Coverage
MT System. Proceedings of the 14th IJCAI Conference. Montreal (Canada)..
MAHESH, K.& NIRENBURG, S.(1995) A Situated Ontology for Practical NLP. Proceedings of the
Workshop on Basic Ontological Issues in Knowledge Sharing, International Joint Conference
on Artificial Intelligence (IJCAI-95), Aug. 19-20, 1995, Montreal, Canada.
MKBEEM (2002) Multilingual Knowledge-Based E-Commerce <http://www.mkbeem.com >
ONTOBROKER (1998)http://ontobroker.semanticweb.org/
ONTOKNOWLEDGE (2001) http://www.ontoknowledge.org
OntoWeb (2002). Web site of the EC project IST-OntoWeb http://www.ontoweb.org et SIG4
http://sig4.ago.fr
R ECTOR et al (1999) Terminology and concept representation languages: where are we? Artificial
Intelligence in Medecine. Jan;15(1):1-4
R OUSSEY C., C ALABRETTO S. & P INON J.-M. (2002). Le thésaurus sémantique : contribution à
l’ingénierie des connaissances documentaires. In B. Bachimont, Coordinateur, Actes des 6 es
Journées Ingénierie des Connaissances, p. 209-20, Rouen, France.
S ABAH G. (2000) Sens et traitements automatiques des Langues pp 77-108 in Ingénierie des
langues, Jean-Marie Pierrel, Hermes..
Semantic Web (2001) http://www.ercim.org/EU-NSF/semweb.html Research Challenges and
Perspectives of the Semantic Web, Sophia Antipolis, France, 3-5 October.
VIEGAS (1999), An Overt Semantics with a Machine-guided Approach for Robust LKBs. The
Proceedings of SIGLEX99 Standardizing Lexical Resources, as part of ACL99. University of
Maryland, USA, Maryland.
VOSSEN, P. (ed.) (1998) ; EuroWordNet: A Multilingual Database with Lexical Semantic
Networks. Kluwer Academic Publishers, Dordrecht .
WEB SÉMANTIQUE MÉDICAL (2003) Premières journées Web sémantique médical organisées par le
Laboratoire d’Informatique Médicale de Rennes et l’AS Web sémantique du CNRS.
Présentations, résumés et compte rendu accessible en 2003 à http://wsm2003.org/
ZYL J.& C ORBETT D. (2000), A framework for Comparing the use of a Linguistic Ontology in an
Application, Workshop Applications of Ontologies and Problem-solving Methods,
ECAI’2000, Berlin Germany, August.

122
9 – Conclusion

1 Q UELQUES RÉFLEXIONS

Quelles seront les clés de la pénétration des technologies du Web sémantique ?


Comme pour toute nouvelle technologie dont les usages potentiels sont nombreux, il
est difficile de prévoir lesquels prévaudront et comment telle ou telle catégorie de
professionnels ou d’utilisateurs trouveront un bénéfice réel aux nouvelles possibilités
offertes. Il est néanmoins possible de repérer d’ores et déjà des obstacles à la
diffusion du Web sémantique. Dans une vision prospective, Euzenat (2002) souligne
un ensemble de recherches qu’il serait utile de développer et discute de différents
modèles de croissance du Web sémantique. Les deux modèles extrêmes sont d’une
part celui qui verrait se développer le Web sémantique par des processus similaires à
ceux qu’a connu le Web en HTML (réalisation par analogie et « couper-coller ») et
d’autre part le modèle opposé dans lequel n’existeraient que de « petits » Webs
sémantiques de différentes communautés. Tout intermédiaire est évidemment
possible.
Nous nous contenterons d’insister, dans la première partie de cette conclusion, sur
deux de ces obstacles qui sont particulièrement cruciaux pour les débuts même du
Web sémantique.
Le premier, indéniable, est la diversité et la complexité des langages tels qu’ils sont
actuellement proposés par le W3C. Cela est sans doute inévitable dans cette phase
initiale. Mais il est sans doute bon de rappeler que des raisons du succès d’HTML
sont la diversité de ses utilisations et sa simplicité ainsi que celle des outils permettant
sa mise en œuvre. De même, XML reste relativement simple pour la réalisation
d’applications dans différents métiers et surtout est maintenant bien maîtrisé par de
nombreux développeurs. Même si on n’adhère pas complètement à ce que James
Hendler50 a écrit, on peut affirmer que la convivialité des outils pour la mise en œuvre
des langages du Web sémantique sera ainsi une des principales clés.

50
« Sur le Web, l’expressivité est le baiser de la mort, les langages et les solutions plus simples vont plus loin que les plus
complexes » in (Staab et al, 2002).

123
Rapport AS « Web sémantique »

Le deuxième obstacle provient du fait que la détermination et l’ajout, même de


simples méta-données, n’est pas une activité naturelle pour la plupart des personnes.
Les expériences des chercheurs et des praticiens de la documentation sont éclairantes
de ce point de vue. La difficulté dans le cas de connaissances plus formalisées est
évidemment accrue. Les expériences dans la construction d’ontologies sont, ici aussi,
instructives et pourraient contribuer à lever quelques illusions.
Comme le souligne Euzenat et al. (2001), dans l’idéal les méta-données et les
annotations sémantiques devraient être un sous-produit automatique ou effet de bord
des activités usuelles, personnelles ou professionnelles, des différents types
d’utilisateurs. Même si on ne peut penser atteindre cet objectif en toute généralité, des
avancées dans cette direction doivent être l’objet de recherches. Comme souligné ci-
dessus, on peut, à ce propos, se poser la question de savoir si le Web sémantique se
généralisera ou restera cantonné dans des communautés réduites de professionnels.
Les journées scientifiques organisées par l’AS ont en tout cas montré que la voie
semble ouverte pour deux visions, pour nous complémentaires, du Web sémantique.
La première met plus l’accent sur la réalisation d’outils logiciels utilisant des
représentations munies de sémantique formelle et des mécanismes inférentiels
puissants, avec un coût souvent élevé de construction et de maintenance des
connaissances. La deuxième met plus l’accent sur des représentations semi-formelles
et repose plus sur l’utilisateur pour leur exploitation opérationnelle. Pour ses
partisans, elle peut, à court terme, être plus souple à réaliser et finalement
correspondre mieux aux fonctionnements cognitifs de ces utilisateurs. La première,
par contre, permettra une meilleure prise en charge de différentes tâches par les agents
logiciels et devrait permettre d’obtenir un meilleur niveau de confiance et de sécurité
dans l’utilisation du Web. Le débat est ouvert y compris avec ceux qui expriment des
propositions intermédiaires.

2 P ROPOSITIONS DE RECHERCHE

Nous récapitulons dans cette conclusion, les propositions de recherche qui


émergent des travaux de l’AS et qui sont pour la plupart justifiées dans les chapitres
précédents, particulièrement dans la quatrième partie des chapitres correspondants.
Deux remarques s’imposent :
- La première est que ces thèmes ne sont pas indépendants. Par exemple, les
thèmes métadonnées ou ontologies peuvent être l’objet de recherches en tant
que telles mais sont bien sûr présents dans beaucoup d’autres recherches
comme celles portant sur l’intégration de sources d’information hétérogènes
ou l’accès et la composition de services Web sémantiques ou bien encore dans
toutes les problématiques d’adaptation ou de personnalisation dans les cas où
ces tâches se posent dans le contexte du Web sémantique.
- La deuxième est bien sûr qu’une partie de ces recherches existe
indépendamment du Web sémantique. Mais d’une part, elles sont
indispensables au développement du Web sémantique. Et d’autre part, le fait
de les mener dans ce contexte transforme souvent les problèmes posés et le
type de méthodes et d’outils à considérer afin d’avancer vers la solution de
ces problèmes, comme il a été longuement expliqué dans les différents
chapitres de ce document. Ces nouvelles dimensions peuvent d’ailleurs avoir
un effet en retour sur des recherches menées par ailleurs.

Ces propositions sont ainsi :


Infrastructures et Langages
- rôles des différents langages : RDF + OWL, nouvelles solutions, etc ;

124
9 – Conclusion

- transformations entre langages : modes de spécification et d’exécution,


preuve de la correction des transformations par rapport à leurs
spécifications ;
- services d’inférence automatiques pour les ontologies et le WS :
efficacité, très grandes bases de connaissance, raisonnement en présence
d’informations erronées, périmées, redondantes ;
- technologies des SGBD pour le Web sémantique.
Annotations et métadonnées
- rôle et usages des métadonnées et des annotations dans les activités
individuelles ou collectives ;
- interfaces d’écriture et de visualisation des métadonnées/annotations et
problèmes associés ;
- aide à la construction de méta-données à partir de documents textuels et
autres ;
- cycle de vie des méta-données : évolution, historique, droits.
Ontologies
- méthodologies pour la construction et l’évolution des ontologies ;
- correspondances sémantiques entre ontologies (fusion, alignement) ;
- aide à la construction d’ontologies (et de méta-données) à partir de
documents textuels et autres ;
- outils pour la réalisation et l’utilisation d’ontologies (visualisation,
stockage, recherche) ;
- bibliothèques d’ontologies de haut niveau ou spécifiques ;
- recherches sur les processus d’utilisation distribuées d’ontologies.
Intégration de sources de données
- médiation décentralisée : conception d’architectures flexibles et
extensibles, langages d’interrogation riches et puissants et outils
conviviaux ;
- intégration de données multimédia et en temps réel ;
- méthodes et outils de fouille de données (data mining) sur des
documents non structurés ou mal structurés.
Personnalisation / Adaptation
- modèles utilisateurs et modèles d’utilisation pour le Web sémantique ;
- qualité de services, sécurité et protection de la vie privée ;
- adaptation à l’utilisateur pour la recherche d’information ;
- adaptation dans le contexte de l’accès et de l’utilisation des Web services.
Web services sémantiques
- méthodes et outils du Web sémantique pour automatiser autant que
possible les différentes tâches liées au cycle de vie des services Webs ;
- étude des modèles temporels pour les Web services ;
- Web services sémantiques dans le contexte des e-workflows et des
processus métiers ;
- modèles sémantiques pour les Web services.
Applications
- montrer l’utilité économique et sociétale (innovations) ;
- pousser aux limites ces nouvelles technologies sur plusieurs champs
applicatifs concrets et utiles (test de domaine de validité et verrous
technologiques) ;
- faire remonter de nouvelles problématiques scientifiques (fertilisation
croisée) ;
- montrer qu’elles sont ou seront sous peu opérationnelles (passage à
l’échelle) ;
- accélérer le temps de cycle de transfert vers l’industrie et les services
(transfert technologique et commercial).

125
Rapport AS « Web sémantique »

Questions générales
- qualité de service ;
- contributions du Web sémantique au travail coopératif ;
- modèles de confiance (en fonction du contexte, propagation) ;
- modèles de preuve ;
- facilitation de la prise en main du Web sémantique par les producteurs de
ressources et les différents types d’utilisateurs.

RÉFÉRENCES
EUZENAT Jérôme (ed) (2002). Research challenges and perspectives of the Semantic Web, Report
of the EU-NSF strategic workshop, Sophia-Antipolis.
S TAAB Stefen (ed) et al. (2002). Ontologies’KISSES in Standardization, IEEE Intelligent
Systems, March-April 2002, p.70-79.

126
10 – Activités de l’action spécifique
« Web sémantique »

1 LISTE DES ACTIVITÉS DE L ’AS

L’action spécifique « Web sémantique », financée par le département STIC du


CNRS de fin s’est déroulée de fin novembre 2001 à fin juin 2003. Elle a été placée
sous la responsabilité de Jean Charlet, Philippe Laublet et Chantal Reynaud qui ont
dès le début constitué un groupe de travail et de réflexion (GT) avec les 14 chercheurs
suivants :

Jean Charlet – AP-HP/STIM & Paris 6 Mohand-Saïd Hacid - LISI, Lyon1


Philippe Laublet - LaLICC, Paris 4 Alain Léger - R&D France-Télécom, Rennes
Chantal Reynaud - Paris 10 et LRI, Paris 11 Jean-Luc Minel - LaLICC, Paris 4
Bruno Bachimont - Ina & UT Compiègne Amedeo Napoli51 - LORIA, Nancy
Olivier Corby - INRIA Sophia-Antipolis Yannick Prié - LIRIS, Lyon1
Jérôme Euzenat - INRIA Rhône-Alpes Farouk Toumani-LIMOS, Clermont-Ferrand
Serge Garlatti - ENST Bretagne, Brest Francky Trichet - IRIN, Nantes

Les premières activités de l’AS ont été :


La réalisation d’un site Web : http://www.lalic.paris4.sorbonne.fr/stic/ qui a été
réalisé et géré successivement par Philippe Gauvain (LaLICC) puis Stéphanie
Werli (LaLICC).
Un appel à présentation de recherches dans le domaine sous forme de résumés
qui ont été rendus accessibles sur le site de l’AS. A la fin de l’AS, des
présentations de recherches relevant du Web sémantique et provenant de 22
équipes ont été regroupées dans un dossier spécifique publié dans le numéro
54 d’avril 2003 du Bulletin de l’AFIA.
Les réunions du groupe de travail qui a organisé sa réflexion en six thèmes :
- les langages du Web sémantique ;
- les méta-données et annotations dans le Web sémantique ;
- les ontologies pour le Web sémantique ;
- l’intégration de sources de données hétérogènes ;

51
Remplacé à certaines réunions par Emmanuel Nauer – LORIA, Nancy

127
Rapport AS « Web sémantique »

- l’adaptation et la personnalisation dans le Web sémantique ;


- les Web services sémantiques.
L’AS a été en 2002 rattachée au réseau thématique pluridisciplinaire (RTP)
« Document: création, indexation et navigation » relevant du domaine « Interaction
humaine et cognition » du département STIC du CNRS dont on pourra consulter les
activités sur le site http://rtp-doc.enssib.fr/
L’AS a organisé ou co-organisé plusieurs journées scientifiques et ses responsables
ont effectué un certain nombre de présentations sur la problématique du Web
sémantique. L’ensemble est synthétisé dans le tableau ci-dessous et commenté à la
suite. Notons que les programmes, les présentations et les tutoriaux ainsi que les
résumés et articles, quand ils existent, se trouvent sur le site Web de l’AS.

GT52 Journées scientifiques (JS) organisées (ou co-organisées)


par l’AS - Autres Présentations (Pr) – Divers
Décembre 17
Janvier 29 7 Tutoriel RFIA – Angers (a)
2002
Février
Mars
Avril 29 5 Pr : Journées STIC – Paris
Mai 24 Pr : Journées ISDN – Yenne (b)
Juin 18 Pr : Journées STIC – Paris
Juillet
Aout
Septembre 9
Octobre 10/11 JS de l’AS : “Web Sémantique” – Paris – Ivry (c)
Novembre
Décembre 4/5/6 Pr (avec article) : Assises GDR I3 – Nancy (d)
Janvier 9
2003
Février
Mars 28 17 JS : “Web sémantique médical” – Rennes (e)
Avril Dossier “Web sémantique” du bulletin de l’AFIA n°54
Mai 6 JS : “Semantic Web and Biomedical Informatics” – (f)
7 JS de l’AS : “Web Sémantique et SHS” – Paris – Ivry (g)
Juin 4
Juillet 4 JS “Web sémantique et industrie” AFIA – Laval (h)

(a)D. B OURIGAULT, J. C HARLET, Ph. LAUBLET, Tutoriel intitulé "Ontologies,


terminologies, vers le Web sémantique", Congrès RFIA 2002, Angers, janvier
2002.
(b)Ph. L AUBLET, Web sémantique, J. CHARLET, Ontologies, Séminaire ISDN,
Yenne, mai 2002.
(c)Cette journée a regroupé plus de 100 chercheurs (voir programme ci-dessous).

52
Dans cette colonne sont indiquées, juste pour mémoire, les dates des réunions du groupe de travail de l’AS.

128
10 – Activités

(d)Philippe L AUBLET, Chantal REYNAUD, Jean C HARLET, Sur quelques aspects


du Web sémantique, Assises du GDR I3 , Editions Cépadues, Nancy, décembre
2002.
(e)Cette journée a été co-organisée avec le laboratoire d’informatique médicale
de Rennes par Anita BURGUN (LIM Rennes) et Jean CHARLET (AP-HP - pour
l’AS Web sémantique). Le site officiel de la journée WSM 2003 est
http://www.wsm2003.org/. Elle a regroupé plus de 60 chercheurs (voir
programme ci-dessous)
(f)Ce Workshop a été co-organisé par Jean C HARLET (AP-HP - pour l’AS Web
sémantique) et Anita B URGUN (LIM Rennes) durant la conférence Medical
Informatics Europe 2003 (MIE 2003 – site du workshop :
http://www.med.univ-rennes1.fr/mie2003/wab.html). Il a réuni environ 30
chercheurs.
(g)Cette journée a regroupé plus de 60 chercheurs (voir programme ci-dessous)
(h)Cette journée a été co-organisée par l’AFIA, sur sa plate-forme 2003, l’AS et
le SIG 4 du projet européen Ontoweb (Eunika M ERCIER -L AURENT, Jérôme
EUZENAT et Alain LÉGER). Elle a regroupé environ 20 chercheurs (voir
programme ci-dessous)

2 P ROGRAMMES
Cette section détaille le programme des 4 journées organisées par l’AS.

129
Rapport AS « Web sémantique »

Programme des journées scientifiques


“Web sémantique”
10 et 11 octobre 2002

9h45 Présentation des journées : Philippe Laublet.


-------------------------------------------------------------------------
Session 1 : Ontologies pour le Web sémantique (Jeudi 10 Octobre)
-------------------------------------------------------------------------
10h : Organising Web Documents into Thematic Subsets using an Ontology
(THESUS), B. Nguyen, M. Vazirgianis, I. Varlamis, M. Halkidi.
10h20 : Une ontologie du droit français pour la reformulation de requêtes sur le Web,
D. Bourigault, G. Lame.
10h40 : Un modèle formel d’ontologie pour l’ingénierie, le commerce électronique et
le Web sémantique, le modèle de dictionnaire sémantique PLIB, G.Pierra
11h : Discussion sur le thème introduite par Jean Charlet.
-------------------------------------------------------------------------
Session 2 : Intégration de sources de données hétérogènes pour le Web sémantique
-------------------------------------------------------------------------
11h 55 : Vers l’automatisation de la construction de systèmes de médiation pour le
commerce électronique, C. Reynaud, G. Giraldo.
12h15 : Production de réponses coopératives dans un contexte médiateur, B. Safar, A.
Bidault, C. Froidevaux, H. Gagliardi, C. Reynaud
12h35 : Discussion sur le thème introduite par Mohand-Saïd Hacid.
-------------------------------------------------------------------------
Session 3 : Langages pour le Web sémantique
-------------------------------------------------------------------------
14h30 : Une plate-forme XML pour représenter des documents et leur contenu pour la
mise en œuvre du Web sémantique, R. Al-Hulou, O.Corby, R. Dieng-Kuntz, J. Euzenat,
C. Medina Ramirez, A. Napoli, R. Troncy.
14h50 : Proposition d’un méta-modèle basé sur les Topic Maps pour la structuration
et la recherche d’information, M. Zacklad, J. Caussanel, J.P. Cahier.
15h10 : De la sémantique des langages de programmation à la vérification
sémantique des sites Web, T. Despeyroux, B.Trousse.
15h30 : Discussion sur le thème introduite par Jérôme Euzenat.
-------------------------------------------------------------------------
Session 4 : Les Web-services avec le Web sémantique
-------------------------------------------------------------------------
16h30 : Découverte dynamique de e-services, C. Rey.
16h50 : Programmer des composants actifs dans le web sémantique, Nicolas Sabouret

130
10 – Activités

17h10 : Suivi d’exécution de services accessibles par l’Internet, M.-C. Fauvet, M.


Dumas, B. Benatallah
17h30 : Discussion sur le thème introduite par Farouk Toumani.
-------------------------------------------------------------------------
Session 5 : Applications avec le Web sémantique (Vendredi 11 Octobre)
-------------------------------------------------------------------------
9h : Collecte de données biologiques à partir de sources multiples et hétérogènes. vers
une structure de médiation conviviale et orientée source, M-D. Devignes, M. Smaïl.
9h20 : Intégration de sources de données génomiques du Web, C. Froidevaux, S.
Cohen Boulakia.
9h40 : Indexation sémantique de documents sur le Web : application aux ressources
humaines, E. Desmontils, C. Jacquin, E. Morin.
10h : E-learning et Web sémantique : le projet MEMORAe, M-H. Abel, D. Lenne, O.
Cissé.
10h 20 : Une approche du développement de Webs sémantiques d’entreprise centrée
sur un modèle de l’entreprise, Gilles Kassel.
10h40 : Discussion sur le thème introduite par Alain Léger.
-------------------------------------------------------------------------
Session 6 : Méta-données et annotations dans le Web sémantique
-------------------------------------------------------------------------
11h30 : Topic maps et navigation intelligente sur le Web, B. Le Grand, M. Sotto.
11h50 : Annotations sur le Web : notes de lecture, E. Desmontils , C. Jacquin.
12h10 : SyDoM : un outil d’annotation pour le Web sémantique, C. Roussey, S.
Calabretto, J-M Pinon.
12h30 : Discussion sur le thème introduite par Yannick Prié.
-------------------------------------------------------------------------
Session 7 : Utilisation du Web à l’aide du Web sémantique : navigation, adaptation
et personnalisation
-------------------------------------------------------------------------
14h30 : Fusion de distances et de probabilités pour évaluer un facteur
d’affaiblissement pendant la propagation d’un indice de pertinence, J. Révault.
14h50 : DefineCrawler : un crawler paramétrable pour la recherche d’information
intelligente sur le Web, E. Nauer.
15h10 : Génération de parcours recommandés dans un Web communautaire, T- A.
Ta, J-M. Saglio.
15h30 : Musette : un modèle pour réutiliser l’expérience sur le Web sémantique, P-A.
Champin , Y. Prié.
15h50 : Discussion sur le thème introduite par Serge Garlatti.

131
Rapport AS « Web sémantique »

Programme de la journée scientifique


“Web sémantique et SHS”
7 mai 2003
-------------------------------------------------------------------------
Session 1 : Introduction
-------------------------------------------------------------------------
09h30 : Introduction au Web sémantique - Ph. Laublet
10h00 : Annotations et métadonnées pour le Web sémantique - Y. Prié
-------------------------------------------------------------------------
Session 2 : Quelles sémantiques pour le Web - Anim. : J. Charlet
-------------------------------------------------------------------------
10h30 : Le Web sémantique : entre calcul et interprétation, quelques remarques sur
les questions posées par le Web sémantique aux sciences technologies et aux sciences
humaines ou sociales - B. Bachimont
11h30 : De la sémantique formelle à une approche computationnelle de
l’interprétation - J. Euzenat
12h00 : Du Web cognitivement sémantique au Web socialement sémantique :
exigences représentationnelles de la coopération - M. Zacklad, J.-P. Cahier, X. Petard
12h30 : Discussion
-------------------------------------------------------------------------
Session 3 : Web sémantique pour l’entreprise - Anim. : S. Garlatti
-------------------------------------------------------------------------
14h00 : KMP (Knowledge Management Platform) : exemple de collaboration
pluridisciplinaire pour la construction d’un portail sémantique inter-entreprises - C.
Thomas, A. Giboin, S. Garlatti et équipe KMP
14h30 : Les ontologies dans l’entreprise pour le non structuré : enjeux et cas concrets
- A. Garnier, N. Dessaigne
-------------------------------------------------------------------------
Session 4 : Web sémantique et approches linguistiques - Anim. : Ch. Reynaud
-------------------------------------------------------------------------
15h00 : Rôle des ontologies pour le Web sémantique : métadonnées ou données ? -
B. Pincemin
15h30 : La linguistique textuelle peut-elle contribuer au Web sémantique ? Réflexions
sur un exemple : « Identifier qui a rencontré qui ? Où ? Quand ? » - J.-P. Desclés
-------------------------------------------------------------------------
16h30 : Table ronde
----------------------------------------------------------------------
Web sémantique et/avec les Sciences humaines et sociales Anim. : B. Bachimont avec
Louis Chamming’s, Jean-Pierre Desclés, Jean-Michel Salaün.

132
10 – Activités

Programme de la journée scientifique


“Web sémantique et Médecine”
17 mars 2003 – Rennes

9h30 : Présentation de la journée A. Burgun


-------------------------------------------------------------------------
Exposés généraux
-------------------------------------------------------------------------
9h35 : Introduction au Web sémantique médical, J. Charlet, P. Laublet, C. Reynaud
10h15 : Besoins et langages pour le Web en médecine, C. Golbreich
-------------------------------------------------------------------------
Terminologies et ontologies
-------------------------------------------------------------------------
10h45 : Terminologies et ontologies en médecine : analyse de l’existant, A. Burgun
11h20 : Ressources IMGT et IMGT-ONTOLOGY dans le contexte du Web sémantique
médical, C. Protat et al.
11h40 : Caractérisation de groupes de gènes co-exprimés grâce à l’ontologie GO, M.
Courtine, J-D. Zucker, K. Clément
12h00 : Ontologie stratifiée de l’anatomie du cortex cérébral : application au
maintien de la cohérence, O. Dameron, A. Burgun, X. Morandi, B. Gibaud
12h20 : Vers une Ontologie Anatomo-Fonctionnelle du Cerveau, G. Diallo, D.
Bernhard, B. Batrancourt, M. Simonet
-------------------------------------------------------------------------
Indexation / Annotation
-------------------------------------------------------------------------
14h00 : Les métadonnées dans le cadre du Web sémantique : applications au
domaine biomédical, F. Mougin, A. Burgun, P. Le Beux
14h20 : CISMeF dans l’infrastructure du Web sémantique, LF. Soualmia et al.
14h40 : Indexer le Web médical francophone avec l’UML, P. Zweigenbaum
-------------------------------------------------------------------------
Applications
-------------------------------------------------------------------------
15h20 : La Méta-Modélisation pour la représentation polymorphe des connaissances
des experts, B. Huet, G. Blain
15h40 : Neurobase : Gestion de données et de connaissances distribuées en
neuroimagerie, C. Barillot et al.
16h00 : Vers un Web sémantique en cancérologie, S. Brachais, M. d’Aquin, J. Lieber,
A. Napoli
-------------------------------------------------------------------------

133
Rapport AS « Web sémantique »

Synthèse et table-ronde
-------------------------------------------------------------------------
16h20 : Synthèse de la journée et ouverture à la discussion par P. Le Beux
16h30 : Table ronde animée par M. Cuggia et F. Le Duff
17h30 : Synthèse de la table ronde et clôture de la journée par A. Burgun et J. Charlet

134
10 – Activités

Programme de la journée
“Web sémantique et industrie”
4 juillet 2003 - Laval

-------------------------------------------------------------------------
9h00 - 10h00 : Introduction
-------------------------------------------------------------------------
- Pourquoi le web sémantique? Eunika Mercier-Laurent (EML conseil) présenté par
Jean Rhomer
- Etat de l’art : Jérôme Euzenat (INRIA Rhône-Alpes)
-------------------------------------------------------------------------
10h30 - 15h30 : Présentation de travaux et applications
-------------------------------------------------------------------------
- Web sémantique Web services et Multilinguisme (sémantique) : services pour La
Redoute et la SNCF (IST-Mkbeem): Johannes Heinecke et Alain Léger (France
Télécom R&D)
- Le projet européen Hi-Touch : Jean Delahousse (Mondeca)
- Les ontologies dans l’entreprise pour le non structuré : enjeux et cas concrets :
Nicolas Dessaigne (Arisem)
- Comment faire coopérer le Web Sémantique avec les systèmes traditionnels de
l’entreprise (bases de données relationnelles et gestion documentaire) Jean
Rohmer (Thalès)
-------------------------------------------------------------------------
16h00 - 17h30 : Discussion / Table ronde
-------------------------------------------------------------------------
- OntoWeb SIG 5 : Didier Riou (AGO)

135

Vous aimerez peut-être aussi