Académique Documents
Professionnel Documents
Culture Documents
Web sémantique
Rapport final
Éditeurs
V3 – décembre 2003
Ce document est le rapport produit par les chercheurs de l’action spécifique du
CNRS Web sémantique <http://www.lalic.paris4.sorbonne.fr/stic/> rattachée au réseau
thématique pluridisciplinaire Document!: création, indexation et navigation
<http://rtp-doc.enssib.fr/> relevant du domaine Interaction humaine et cognition du
département STIC du CNRS. L’action spécifique étant terminée, son site est archivé
au sein du site du RTP où le présent rapport peut être téléchargé <http://rtp-
doc.enssib.fr/archiveas.html>. Il a pour but de donner une vue synthétique des
principaux aspects du Web sémantique à ce jour et de proposer des perspectives de
recherche. Le groupe de travail qui s’est mis en place dans le cadre de cette action a
travaillé de décembre 2001 à septembre 2003, date de finalisation de ce rapport.
Les recherches menées pour le développement du Web sémantique ne peuvent se
développer qu’en s’appuyant sur un ensemble de recherches, d’origine parfois
anciennes et provenant de secteurs différents. Les premières discussions, dans ce
groupe, ont permis de choisir un certain nombre de thèmes qui sont apparus essentiels
à discuter et à analyser afin de mieux comprendre et de mieux faire comprendre les
projets, les réalités et les perspectives ouvertes par le projet du Web sémantique. Ils
sont au nombre de six et sont repris dans la structure du rapport!: (2) langages du
Web sémantique, (3) Méta-données et annotations dans le Web sémantique, (4)
ontologies pour le Web sémantique, (5) Intégration de sources de données, (6)
adaptation et personnalisation dans le Web sémantique et (7) Web services
sémantiques. Ces thèmes doivent être vus comme des angles d’approche différents des
recherches sur le Web sémantique qui en associent souvent plusieurs simultanément.
Nous avons souhaité, en séparant ces approches, donner des entrées multiples à la
problématique du Web sémantique, entrées qui peuvent correspondre aux centres
d’intérêts de différentes communautés de chercheurs mais nous sommes bien
conscients que le Web sémantique demande une approche globale et sera ce que nous
obtiendrons si nous réalisons le même processus de globalisation sur la représentation
des connaissances que celui que le Web fit initialement sur l’hypertexte. La conclusion
synthétise les travaux du groupe et propose des pistes de recherche pour que le Web
sémantique de Tim Berners-Lee, Web de demain comme un vaste espace d’échange
de ressources entre êtres humains et machines permettant une exploitation,
qualitativement supérieure, de grands volumes d’informations et de services variés,
devienne une réalité.
iii
1 – INTRODUCTION 1
1 LE WEB SÉMANTIQUE 1
2 L’ORGANISATION DU DOCUMENT 4
3 L’ORGANISATION DES CHAPITRES 5
3.1 PRÉSENTATION ET IMPORTANCE DE LA PROBLÉMATIQUE DU POINT DE
VUE DES USAGES 5
3.2 MÉTHODES, TECHNIQUES, OUTILS EXISTANTS SUR LESQUELS ON PEUT
S ’ APPUYER 5
3.3 TRAVAUX ET RÉSULTATS EXISTANTS DU WEB SÉMANTIQUE 6
3.4 RECHERCHES FUTURES POUR LE WEB SÉMANTIQUE 6
v
Rapport AS « Web sémantique »
vi
4.4 DE L’ INTÉGRATION DE DONNÉES À L’ INTÉGRATION DE
CONNAISSANCES 76
1 INTRODUCTION 112
2 E-COMMERCE 112
2.1 QUELS USAGES DES ONTOLOGIES POUR LE E-COMMERCE ? 112
2.2 LE E-COMMERCE À BASE DE CONNAISSANCES : OntoSeek® ET
Mkbeem® 113
3 A PPLICATIONS MÉDICALES 114
vii
Rapport AS « Web sémantique »
9 – CONCLUSION 123
viii
1 – Introduction
1 LE WEB SÉMANTIQUE
1
Rapport AS « Web sémantique »
2
1 – Introduction
1
La numérotation des figures est faite chapitre par chapitre.
2
Cette opposition a surtout valeur argumentative. Tous les intermédiaires peuvent se présenter. Si l’on prend l’exemple
du e-learning, on peut avoir aussi bien des outils qui permettent de trouver des offres de cours que des applications
dédiées utilisant, par exemple, des méta-données pour personnaliser les parcours.
3
Rapport AS « Web sémantique »
Il est clair que la diversité des recherches relevant aujourd’hui du Web sémantique
rend illusoire toute volonté d’exhaustivité pour ce document dont l’objectif est de
mettre en évidence les points importants pour la réalisation de la vision du Web
sémantique. Pour d’autres points de vue on pourra consulter les premiers livres ou
actes de conférence parus, par exemple (Cruz et al., 2002 ; Fensel et al., 2002 ;
Horrocks & Hendler, 2002) et (Hyvönen et al., 2002) ainsi que (Euzenat et al., 2002).
2 L’ORGANISATION DU DOCUMENT
Ce document a pour but de donner une vue synthétique des principaux aspects du
Web sémantique. Il est produit par les membres du groupe3 de travail et de réflexion
mis en place dès le début de l’action spécifique « Web sémantique » (décembre
2001). Les premières discussions, dans ce groupe, ont permis de choisir un certain
nombre de thèmes qui sont apparus essentiels à discuter et à analyser afin de mieux
comprendre et de mieux faire comprendre les projets, les réalités et les perspectives
ouvertes par le projet du Web sémantique. Bien sûr, comme déjà souligné, les
recherches menées pour le développement du Web sémantique ne peuvent se
développer qu’en s’appuyant sur un ensemble de recherches, d’origine parfois
anciennes et provenant de secteurs différents. Il nous a donc semblé important de
situer aussi les recherches actuelles par rapport à l’existant sur lequel elles s’appuient.
Les chapitres suivants présentent synthétiquement chacun des thèmes. Enrichis par
les discussions des versions successives par le groupe de travail, et par les différentes
activités de l’AS (journées scientifiques, contacts, …), ces chapitres ont été élaborés et
rédigés par un ou plusieurs membres du groupe du travail avec parfois la
collaboration d’autres chercheurs.
Ces chapitres, avec leurs auteurs, sont intitulés :
1 –Introduction
2 –Les langages du Web sémantique : Jean-François Baget, Etienne Canaud,
Jérôme Euzenat et Mohand Saïd-Hacid ;
3 –Méta-données et annotations dans le Web sémantique : Yannick Prié et Serge
Garlatti ;
4 –Les ontologies pour le Web sémantique : Jean Charlet, Bruno Bachimont et
Raphaël Troncy ;
5 –L’intégration de sources de données : Mohand-Saïd Hacid et Chantal
Reynaud ;
6 –Adaptation et personnalisation dans le Web sémantique : Serge Garlatti et
Yannick Prié ;
7 –Les Web services sémantiques : Patrick Kellert et Farouk Toumani ;
8 –Applications du Web sémantique : Alain Léger et Jean Charlet ;
9 –Conclusion ;
Annexe – les activités de l’AS.
Ces thèmes doivent être vus comme des angles d’approche différents des recherches
sur le Web sémantique qui en associent souvent plusieurs. Mais, nous avons souhaité,
en séparant ces approches, donner des entrées multiples à la problématique du Web
sémantique, entrées qui peuvent correspondre aux centres d’intérêts de différentes
communautés de chercheurs. Bien sûr, d’autres thèmes auraient pu s’ajouter, mais
ceux présentés ici semblent constituer le socle minimal pour la réalisation du Web
sémantique.
Dans la partie suivante, nous détaillons l’organisation en quatre parties, choisie afin de
donner un cadre de réflexion commun aux chapitres 2 à 7. Notons qu’elle n’aurait
3
Voir la liste des membres de ce groupe dans le rapport d’activités de l’AS annexé à ce document.
4
1 – Introduction
5
Rapport AS « Web sémantique »
lequel viennent se positionner les travaux présentés dans le chapitre. Ceci est fait du
point de vue des théories ou des outils déjà disponibles.
Exemples : pour les langages : XML et sa galaxie, pour les Web services
sémantiques: les protocoles SOAP, UDDI, WSDL, etc.
6
1 – Introduction
RÉFÉRENCES
BERNERS-LEE Tim, H ENDLER James & L ASILLA Ora (2001). The Semantic Web, Scientific
American,.
C RUZ Isabel, D ECKER Stefan, E UZENAT Jérôme & M CGUINNESS Deborah (eds) (2002). The
emerging Semantic Web, Selected papers from the first Semantic web working symposium,
IOS press, Amsterdam (NL).
EUZENAT Jérôme (ed) (2002). Research challenges and perspectives of the Semantic Web, Report
of the EU-NSF strategic workshop, Sophia-Antipolis.
F ENSEL Dieter, H ENDLER James, L IEBERMAN Henry & WAHLSTER Wolfgang (eds) (2002).
Spinning the Semantic Web : Bringing the World Wide Web to Its Full Potential, The MIT
Press.
HORROCKS Ian & H ENDLER James (eds) (2002). The Semantic web – ISWC 2002, Proceedings
of the “First International Semantic Web Conference“, Sardinia, June 2002, LNCS 2342,
Springer.
HYVÖNEN Eero (ed) et al. (2002). Semantic Web Kick-Off in Finland, Vision, Technologies,
Research and Applications, HIT Publications.
7
2 – Les langages du Web sémantique
Jean-François Baget#, Étienne Canaud*, Jérôme Euzenat# et Mohand Saïd-Hacid*
#
INRIA Rhône-Alpes
http://www.inrialpes.fr/exmo
Jerome.Euzenat@inrialpes.fr
*
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
mshacid@liris.univ-lyon1.fr
Résumé
La manipulation des ressources du Web par des machines requiert l’expression ou
la description de ces ressources. Plusieurs langages sont donc définis à cet effet, ils
doivent permettre d’exprimer données et métadonnées (RDF, Cartes Topiques), de
décrire les services et leur fonctionnement (UDDI, WSDL, DAML-S, etc.) et de
disposer d’un modèle abstrait de ce qui est décrit grâce à l’expression d’ontologies
(RDFS, OWL). On présente ci-dessous l’état des travaux visant à doter le Web
sémantique de tels langages. On évoque aussi les questions importantes qui ne sont
pas réglées à l’heure actuelle et qui méritent de plus amples travaux.
M o t s - c l é s : RDF, Cartes Topiques, RDFS, OWL, DAML, UDDI, WSDL,
DAML-S, XL, XDD, Règles, Ontologies, Annotation, Sémantique, Inférence,
Transformation, Robustesse.
1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES
Le Web sémantique doit pouvoir être manipulé par les machines. Dans l’état actuel
de la technologie, il est alors nécessaire de disposer de langages pour :
- exprimer les données et les méta-données (cf. chapitre 3) ;
- exprimer les ontologies (cf. chapitre 4) ;
9
Rapport AS « Web sémantique »
10
2 – Les langages du Web sémantique
Il semble clair que le Web sémantique ne pourra voir le jour sans un minimum de
standardisation. Différents consortiums et organismes mettent donc les acteurs autour
d’une table pour définir les langages à utiliser dans le Web sémantique. L’intérêt de
cette approche standardisante est bien sûr d’assurer des traitements uniformes sur
l’ensemble des documents écrits dans ces langages. Un inconvénient peut être le gel
d’autres travaux de recherche plus originaux (Ginsberg, 1991). Une approche moins
contraignante aurait pu être la définition de métalangages : en permettant de décrire
des langages (que ce soit par leur sémantique, en décrivant leurs règles
d’interprétation, ou de façon opérationnelle, en fournissant des règles encodant les
mécanismes de raisonnement), cette standardisation n’aurait pas gêné l’ouverture vers
d’autres travaux (Euzenat, 2000).
Les travaux de standardisation sont aujourd’hui bien avancés : RDF et SOAP sont
des recommandations du W3C, TopicMaps une norme ISO, et OWL est sur les pas de
RDF.
Nous décrirons ici trois sortes de langages :
- des langages d’assertions (RDF et cartes topiques) ;
- un langage de définition d’ontologies pour le Web (OWL) ;
- différents langages de description et de composition de services (UDDI et
autres).
Dans les deux premiers cas nous nous appuierons principalement sur les langages
proposés par le W3C qui a réussi à faire interagir un grand nombre d’acteurs tant
11
Rapport AS « Web sémantique »
3.1.1 RDF
RDF (Lassila & Swick, 1999) (Klyne & Carroll, 2003) est un langage formel qui
permet d’affirmer des relations entre des « ressources ». Il sera utilisé pour annoter
des documents écrits dans des langages non structurés, ou comme une interface pour
des documents écrits dans des langages ayant une sémantique équivalente (des bases
de données, par exemple).
12
2 – Les langages du Web sémantique
http://www.sncf.org/rdf/trains/ter85158
http://www.travel-ont.org/departure
http://www.villes.fr/rdf/Grenoble
http://www.travel-ont.org/localisation
http://www.travel-ont.org/time
13h27
La figure x.1 présente une partie d’un document RDF (il s’agit d’un exemple
fictif, montrant comment la SNCF pourrait donner une interface RDF à sa base de
données de voyages). Les termes de la forme http://... sont des URIs qui identifient des
ressources définies de façon unique. Notons dans les URIs que certaines ressources
sont spécifiques à la SNCF (le train), et que d’autres (departure…) sont issus d’une
ontologie dédiée aux voyages. Les objets d’un triplet qui sont des littéraux sont
représentés dans un rectangle (ici, 13h27). Le sommet non étiqueté représente une
variable. Intuitivement, ce graphe peut se comprendre comme « le train TER 85158
part de Grenoble à 13h27 ». Cette sémantique « intuitive » ne suffisant pas à un
traitement automatique, il faut munir les documents RDF d’une sémantique formelle.
La sémantique d’un document RDF est exprimée en théorie des modèles
(Hayes, 2003). L’objectif est de donner des contraintes sur les mondes qui peuvent
être décrits par un document RDF. L’utilisation de la théorie des ensembles pour
décrire ces modèles a deux intérêts : la généricité de la notion d’ensemble (fondement
des mathématiques ) et son universalité (culture commune pour ceux qui vont
s’intéresser à cette sémantique).
Un document RDF peut aussi être traduit en une formule de la logique positive
(sans négation), conjonctive, existentielle du premier ordre (sans symboles
fonctionnels), dont les modèles sont identiques à ceux définis par la sémantique
directe en théorie des modèles. À chaque triplet <s, p, o> on associe la formule
atomique p(o, s), où p est un nom de prédicat, et o et s sont des constantes si ces
éléments sont des URIs ou des littéraux dans le triplet, et des variables sinon. Le
document RDF se traduit par une formule qui est la fermeture existentielle de la
conjonction des formules atomiques associées à ses triplets. Ainsi, le document RDF
utilisé précédemment en exemple se traduit par la formule :
x (departure(ter85158, x) time(x, 13h27) localisation(x, Grenoble))
L’information contenue dans un document RDF R1 est déjà présente dans le
document RDF R2 si et seulement si la formule logique associée à R1 est conséquence
de celle associée à R2. Cette « traduction logique » de RDF permet de l’identifier à de
nombreux autres paradigmes de raisonnement : la logique, bien sûr, mais aussi les
bases de données (Datalog positif) ou les graphes conceptuels.
Bien qu’un mécanisme d’inférence adéquat et complet par rapport à la sémantique
(on ne trouve que des conséquences, et toutes les conséquences) soit évoqué dans les
propositions du W3C, ceci n’entre pas dans la standardisation. L’objectif est de laisser
la plus grande liberté à ceux qui vont implémenter des outils fondés sur RDF, en
13
Rapport AS « Web sémantique »
14
2 – Les langages du Web sémantique
Par exemple, le topic de vol est instancié par myFlight, il a pour nom « vol pour
Boston » dont la portée est celle de mes discussions au déjeuner avec les collègues et
« flight AF322 » lors de discussions avec l’immigration américaine.
Flight
class
instanceOf
instance
myFlight event location BOS
landAt
topic
15
Rapport AS « Web sémantique »
16
2 – Les langages du Web sémantique
OWL DL
- Reprend tous les constructeurs d’OWL LITE,
- Permet tout entier positif dans les contraintes de cardinalité,
- owl:oneOf permet de décrire une classe en extension par la liste de ses
instances,
- owl:hasValue affirme qu’une propriété doit avoir comme objet un certain
individu,
- owl:disjointWith permet d’affirmer que deux classes n’ont aucune instance
commune,
- owl:unionOf et owl:complementOf permettent de définir une classe comme
l’union de deux classes, ou le complémentaire d’une autre classe.
OWL FULL
- reprend tous les constructeurs d’OWL DL,
- reprend tout RDF Schema,
- permet d’utiliser une classe en position d’individu dans les constructeurs.
Nous n’avons pas cité ici certains constructeurs, qui peuvent être trivialement
implémentés grâce à ceux que nous avons évoqués (par exemple owl:sameClassAs,
servant à affirmer que deux classes sont identiques, peut être écrit grâce à deux
rdfs:subClassOf). Il serait intéressant d’identifier quels sont les constructeurs primitifs
nécessaires pour ces langages, et ceux qui ne sont que des macros.
Des moteurs d’inférence ont déjà été implémentés pour des sous-ensembles
significatifs de OWL DL (dans le cadre des logiques de descriptions) et peuvent être
utilisés dans divers outils (OilEd, Protégé…).
3.3.1 UDDI
Le protocole UDDI (Universal Description, Discovery and Integration (Curbera et
al., 2002)) est une plate-forme destinée à stocker les descriptions des services Web
disponibles, à la manière d’un annuaire de style « Pages Jaunes ». Des recherches sur
les services peuvent être effectuées à l’aide d’un système de mots-clés fournis par les
organismes proposant les services. UDDI propose également un système de « Pages
Blanches » (adresses, numéros de téléphone, identifiants…) permettant d’obtenir les
coordonnées de ces organismes. Un troisième service, les « Pages Vertes », permet
d’obtenir des informations techniques détaillées à propos des services et permettent de
décrire comment interagir avec les services en pointant par la suite vers un PIP
RosettaNet ou une “service interface” WSDL. Le vocabulaire utilisé pour les
descriptions obéit à une taxonomie bien précise afin de permettre une meilleure
catégorisation des services et des organismes.
De par sa simplicité, UDDI permet de stocker l’ensemble des services Web sur un
seul serveur, dont le contenu est dupliqué et synchronisé sur plusieurs sites miroirs.
Des implémentations d’UDDI ont été réalisées, et on peut d’ores et déjà enregistrer
17
Rapport AS « Web sémantique »
son entreprise et les services proposés sur UDDI. Cependant, on peut s’interroger sur
la réelle efficacité en matière de recherche d’une architecture aussi simple où la
sémantique des données est inexistante et où la description des services se limite à des
mots-clés sur lesquels aucune approximation n’est possible. De plus, il n’est pas
certain que des serveurs uniques puissent supporter la charge du nombre de services à
venir.
3.3.2 WSDL
WSDL (Curbera et al., 2002) est un langage basé sur XML servant à décrire les
interfaces des services Web, c’est-à-dire en représentant de manière abstraite les
opérations que les services peuvent réaliser, et cela indépendamment de
l’implémentation qui en a été faite. Il ne comporte pas de moyen de décrire de
manière plus abstraite les services (tâche plutôt dévolue à DAML-S ou à UDDI), ni de
moyen de conversation et de transaction de messages (tel que SOAP ou d’autres
implémentations spécifiques), mais est en général utilisé comme passerelle entre ces
représentations de haut niveau et de bas niveau.
Dans WSDL, les services sont définis à l’aide de “endpoints”. Les “endpoints”
sont des ensembles de ports, c’est-à-dire d’adresses sur le réseau associées à certains
protocoles et formats de données. Cela va permettre de fournir un cadre abstrait et
indépendant des implémentations pour les communications avec les services.
Il y a quatre types d’opérations de base définies dans WSDL : « sens-unique »,
« double-sens » requête-réponse, « double-sens » sollicitation-réponse, et « sens-
unique » de message de notification. Les messages et les opérations étant définis de
manière abstraite, ce qui permet de faire correspondre ces représentations avec des
langages plus abstraits (tel que DAML-S) ; de plus, la réutilisation en est simplifiée.
Les messages sont typés, mais on ne peut pas définir de contraintes logiques entre les
paramètres d’entrées/sorties au sein de WSDL.
3.3.3 DAML-S
DAML-S (Ankolenkar et al., 2002) est un langage de description de services basé
sur XML utilisant le modèle des logiques de descriptions (et plus précisément
DAML+OIL, voir plus haut). Son intérêt est qu’il est un langage de haut niveau pour
la description et l’invocation des services Web dans lequel la sémantique est incluse,
contrairement par exemple à UDDI. DAML-S est composé de trois parties
principales :
- Service Profile, qui permet la description, la promotion et la découverte des
services, en décrivant non seulement les services fournis, mais également des
préconditions à la fourniture de ce service, comme « avoir une carte bleue
valide » ou « être membre d’un des pays de l’Union Européenne ». Les
recherches sur les services peuvent se faire en prenant n’importe quel élément
de Service Profile comme critère.
- Service Model, qui présente le fonctionnement du service en décrivant dans le
détail et de manière relativement abstraite les opérations à effectuer pour y
accéder. Certains éléments du Service Model peuvent être utilisés à la manière
du Service Profile afin de fournir des informations supplémentaires à un
utilisateur pour qui les opérations à effectuer seraient également un critère de
choix. C’est le Service Model qui va permettre une composition des services
si besoin est. Il permet également d’effectuer un contrôle poussé du
déroulement du service.
- Service Grounding va présenter clairement et dans le détail la manière
d’accéder à un service. Tout type abstrait déclaré dans le Service Model s’y
verra attribuer une manière non ambiguë d’échanger l’information. C’est
18
2 – Les langages du Web sémantique
dans cette partie que le protocole et les formats des messages entre autres sont
spécifiés.
Pour l’instant, DAML-S est un langage qui est encore en cours de spécification,
mais dont les grandes lignes sont déjà tracées. Un moyen de l’interfacer avec WSDL a
été proposé afin de pallier son absence de gestion d’échange de messages, ce qui
permettra par exemple d’utiliser SOAP pour échanger des messages XML. DAML-S
pourra alors être réservé à une description abstraite et sémantique des services,
permettant également d’exprimer des contraintes sur les paramètres et d’utiliser des
constructeurs (comme « si…alors…sinon… »).
DAML-S est une des seules solutions proposant une réelle sémantique des données,
et pas seulement des champs prédestinés par la structure des standards ou par des
« feuilles de styles » utilisées pour décrire les services ; de plus, son utilisation des
logiques de descriptions pour modéliser les services permet une grande puissance
d’expression, que ne possèdent pas les autres systèmes.
3.3.4 XL
XL (Florescu et al., 2003) est une plate-forme destinée aux services Web, axée sur
XML, utilisant un langage propre de haut niveau (XL), et prenant en compte les
technologies du W3C (WSDL, SOAP) afin de permettre une interopérabilité des
applications XL avec d’autres applications écrites dans un langage autre que XL. Tout
service Web est considéré comme une entité recevant des messages XML et
transmettant en retour des messages XML, avec (achat d’un livre) ou sans
(consultation de la météo) modification du monde. Les types de données utilisés sont
ceux de XQuery, développé lui aussi par le W3C et dont est inspirée la syntaxe de XL.
La principale motivation de XL est de créer une plate-forme qui permette aux
programmeurs d’implémenter rapidement des services Web en permettant une
réutilisabilité maximale. Le langage de requête est un langage déclaratif (à la manière
de SQL) et peut donc être optimisé de manière automatique. De plus, comme ce
langage est de haut niveau, il permet une composition facilitée des services. XL
intègre également une politique de sécurité basée sur J2EE (Java 2 Enterprise
Edition), et met l’accent sur le traitement des instructions en mode pipeline, afin
d’être plus réactif face à des sources XML importantes ou continues.
Cependant, même si XL permet de manipuler relativement facilement des services
Web, il ne permet pas de les décrire autrement que par des entrées/sorties XML, et la
sémantique est absente, contrairement à DAML-S par exemple. Bien que ce système
soit encore en phase de spécification, un prototype de démonstration a été
implémenté.
3.3.5 XDD
XDD (XML Declarative Description) (Wuvongse et al., 2001) est un langage
capable de décrire toute la sémantique d’une ressource Web en ajoutant un langage
déclaratif à la syntaxe d’XML.
Une description utilisant XDD est un ensemble d’éléments XML classiques,
d’éléments XML étendus à l’aide de variables, et de relations entre les éléments XML
sous forme de clauses. Un élément XML classique représente une unité sémantique et
peut se substituer à un objet (au sens large) du domaine d’application. Un élément
étendu, lui, permettra de représenter une information implicite ou un ensemble
d’unités sémantiques. Les clauses peuvent exprimer des règles, des relations
conditionnelles, des contraintes d’intégrité, et des axiomes ontologiques. Parmi les
axiomes importants manquants dans XML et RDF (Lassila & Swick, 1999) (Klyne &
Carroll, 2003) mais implémentés dans XDD, on peut relever la symétrie, la
composition, et la relation inverse.
19
Rapport AS « Web sémantique »
XDD peut également représenter tous les langages balisés basés sur XML, tels que
SDL ou ebXML. Il peut de plus représenter de manière simple toutes les applications
XML ayant des conventions standardisées portant sur la sémantique, la syntaxe et la
structure, pour un certain nombre de domaines spécifiques, tels que :
- WML (Wireless Markup Language);
- MathML (Mathematical Markup Language);
- RDF;
- XMI (XML Metadata Interchange Format, technologie recommandée par le
‘Object Management Group’ pour décrire des diagrammes UML en XML).
Une fois encodés en XDD, ces langages peuvent avoir leur propre sémantique
définie formellement. XDD permet dès lors la convergence entre la sémantique et la
syntaxe de ces langages, accentuant l’interopérabilité et le développement
indépendant des produits.
Le travail sur les langages du Web sémantique n’en est qu’à son début. Ces
langages devront passer le crible des applications pour déterminer s’ils doivent être
amendés ou totalement abandonnés. En attendant, ils laissent derrière eux un certain
nombre de questions qui méritent de plus amples recherches afin de faciliter la
compréhension de ce que pourra être le Web sémantique.
20
2 – Les langages du Web sémantique
21
Rapport AS « Web sémantique »
Enfin, puisque ces opérations sont destinées à être effectuées par des machines
(sans discernement), il est essentiel pour la crédibilité du Web sémantique que l’on
puisse prouver la correction des transformations par rapport à leurs spécifications.
train Trajet-train
SI depart arrivee depart arrivee
compatible
depart
arrivee
ALORS Trajet-train
Ce type de règle a été étudié comme une extension des graphes conceptuels
simples, et les résultats obtenus sont immédiatement transférables à une extension de
RDF. Ces règles sont dotées d’une sémantique, qui correspond à des formules
logiques de la forme :
22
2 – Les langages du Web sémantique
x (P(x) ( y Q(x,y)))
où P(x) est une conjonction de formules atomiques dont les variables sont celles
apparaissant dans x, et Q(x,y) est une conjonction de formules atomiques dont les
variables sont celles apparaissant dans x et y. Notons que ces formules correspondent
aux TDGs (Tuple Generating Dependencies) en bases de données. L’utilisation de
telles règles génère un langage très expressif (puisqu’il s’agit d’un modèle de calcul),
et malheureusement indécidable. Des sous-ensembles décidables (et même NP-
complets) intéressants ont été exhibés. Il est à noter que l’expressivité d’un tel
langage de règles en ferait un bon candidat pour un métalangage permettant, par
exemple, de doter un langage de définition d’ontologies de nouveaux constructeurs,
en définissant de manière opérationnelle leur sémantique.
Ces travaux, comme d’ailleurs tous les travaux sur les langages, ne peuvent se faire
de manière isolée. Il est donc normal qu’ils soient poursuivis en liaison avec les
groupes de travail internationaux contribuant à faire avancer l’état de l’art. Par contre
un effort conséquent pourrait être produit par une communauté restreinte en ce qui
concerne les moteurs d’inférence et de transformation. Mais cela demande un
investissement important à moyen terme.
RÉFÉRENCES
ANKOLENKAR Anupriya, BURSTEIN Mark, HOBBS Jerry, LASSILA Ora, MARTIN David,
MCILRAITH Sheila, NARAYANAN Srini, PAOLUCCI Massimo, P AYNE Terry, SYCARA Katia
& Z ENG Honglei, Eds. (2002). DAML-S: semantic markup for web services. In CRUZ Isabel,
DECKER Stefan, E UZENAT Jérôme & M CGUINNESS Deborah, Eds. (2002), The emerging
semantic web, p 131-152. Amsterdam (NL): IOS press.
BAADER Franz, C ALVANESE Diego, MCGUINNESS Deborah, NARDI Daniele & P ATEL-
S CHNEIDER Peter, Eds. (2003). The description logic handbook. Cambridge (UK): Cambridge
university press.
BECKETT Dave, Ed. (2003). RDF/XML Syntax Specification (Revised). W3C Working Draft.
http://www.w3.org/TR/rdf-syntax-grammar
BERNERS-LEE Tim, F IELDING Roy & M ASINTER Larry (1998). Uniform Resource Identifiers
(URI): Generic Syntax. Request for Comments 2396, IETF. http://www.ietf.org/rfc/rfc2396.txt
BIEZUNSKI Michel, B RYAN Martin & N EWCOMB Steven, Eds. (1999). ISO/IEC 13250:2000
Topic Maps: Information Technology — Document Description and Markup Languages.
http://www.y12.doe.gov/sgml/sc34/document/0129.pdf
BRICKLEY Dan & GUHA Ramanathan, Eds. (1999). Resource description framework schema
specification. Proposed recommandation, W3C. http://www.w3.org/TR/PR-rdf-schema
BRICKLEY Dan & G UHA Ramanathan, Eds. (2003). RDF Vocabulary description language 1.0:
RDF Schema. Working draft, W3C. http://www.w3.org/rdf-schema
C HAMPIN Pierre-Antoine (2000). RDF tutorial. http://www710.univ-lyon1.fr/~champin/rdf-tutorial/
C URBERA Francisco, D UFTLER Matthew, K HALAF Rania, N AGY William, M UKHI Nirmal &
WEERAWARANA Sanjiva (2002). Unraveling the web Services web: An Introduction to
SOAP, WSDL, and UDDI. IEEE Internet computing 6(2) p. 86-93.
DEAN Mike & S CHREIBER Guus Eds. (2003). OWL web Ontology Language: Reference. W3C
Working Draft. http://www.w3.org/TR/owl-ref/
EUZENAT Jérôme (2000). XML est-il le langage de représentation de connaissance de l’an 2000?
Actes 6e journées langages et modèles à objets, Mont-Saint-Hilaire (CA), p 59-74.
F LORESCU Daniela, GRUNHAGEN Andreas & K OSSMANN Donald (2003). XL: A Platform for
web Services, Conference on Innovative Data Systems Research (CIDR), Asilomar (CA US).
GARSHOL Lars Marius (2003). Living with Topic maps and RDF. Ontopia, Trondheim ( NO ).
http://www.ontopia.net/topicmaps/materials/tmrdf.html
23
Rapport AS « Web sémantique »
GENESERETH Michael & FIKES Richard, Eds. (1992). Knowledge Interchange Format, Version 3.0
Reference Manual. Computer Science Department, Stanford University, Technical Report
Logic-92-1. http://www-ksl.stanford.edu/knowledge-sharing/papers/kif.ps
GINSBERG Matthew (1991). Knowledge interchange format: the KIF of death. AI magazine 12(3),
p. 57-63. http://www.aaai.org/Magazine/Issues/Vol12/12-03/Ginsberg.pdf
HAYES Patrick, Ed. (2003). RDF Semantics. W3C Working Draft. http://www.w3.org/TR/rdf-mt/
KLYNE Graham & C ARROLL Jeremy, Eds. (2003). Resource Description Framework (RDF):
Concepts and Abstract Syntax. W3C Working Draft, 2003 http://www.w3.org/TR/rdf-concepts/
LASSILA Ora & S WICK Ralph, Eds. (1999). Resource Description Framework (RDF) Model and
syntax specification. Recommendation, W3C. http://www.w3.org/TR/REC-rdf-syntax
OMELAYENKO Borys & K LEIN Michel, Eds. (2003). Knowledge transformations for the semantic
web. Amsterdam (NL): IOS press.
P ATEL-SCHNEIDER Peter, HAYES Patrick & H ORROCKS Ian, Eds. (2003). OWL web Ontology
Language: Abstract Syntax and Semantics. W3C Working Draft. http://www.w3.org/TR/owl-
semantics/
P EPPER Steve & M OORE Graham, Eds. (2001). XML Topic Maps (XTM) 1.0. TopicMaps.Org
Specification. http://www.topicmaps.org/xtm/1.0/
VAN HARMELEN Frank, P ATEL-SCHNEIDER Peter & H ORROCKS Ian, Eds. (2001). Reference
description of the DAML+OIL ontology markup language. W3C.
http://www.daml.org/2001/03/reference.html
WORKFLOW MANAGEMENT COALITION (1999). Workflow Process Definition Language, version
11. WFMC-TC-1016. http://www.wfmc.org/standards/docs/TC-1016-
P_v11_IF1_Process_definition_Interchange.pdf
WORKFLOW MANAGEMENT COALITION (2002). Workflow Process Definition Interface -- XML
Process Definition Language, version 1.0. WFMC-TC-1025.
http://www.wfmc.org/standards/docs/TC-1025_10_xpdl_102502.pdf
WUWONGSE Vilas, A NUTARIYA Chutiporn, AKAMA Kiyoshi & Nantajeewarawat E. (2001).
XML Declarative Description (XDD): A Language for the Semantic web. IEEE Intelligent
systems 16(3) p. 54-65.
24
3 – Méta-données et annotations
dans le Web sémantique
Yannick Prié1, Serge Garlatti2
1
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
yprie@liris.univ-lyon1.fr
2
Département IASC GET - ENST Bretagne
Serge.Garlatti@enst-bretagne.fr
Résumé
Le Web sémantique repose sur des langages et une infrastructure dont l’objectif est
de se donner la possibilité d’enrichir le Web actuel à l’aide d’informations dites
« sémantiques », utilisables par des machines, qui faciliteront la recherche et l’usage
de ressources Web (pages Web, images, services, etc.). Il s’agit donc d’associer à ces
dernières des informations structurées descriptives sous la forme de métadonnées (ou
annotations).. Plusieurs dimensions sont alors à considérer : les types de ressources,
plus ou moins fragmentées, concernées par les annotations / métadonnées;
l’automatisation plus ou moins marquée de la mise en place de ces dernières, la
structuration plus ou moins forte de leur « schéma », les tâches qu’elles soutiennent
(ou sous-tendent), ou encore l’utilisation plus ou moins « intelligente » qui en est
faite par les agents logiciels,. Après une rapide discussion de la notion
d’annotation / métadonnées, nous en proposons un scénario d’utilisation
conséquent, dans le domaine de l’enseignement à distance. Nous montrons ensuite
que si la problématique en soi n’est pas nouvelle, et est déjà traitée dans de nombreux
domaines, l’échelle du Web et le niveau d’intégration technologique nécessaire sont
quant à eux novateurs. Nous passons ensuite en revue un certain nombre de systèmes
liés aux annotations / métadonnées pour le Web sémantique, et concluons sur les
directions probables que va prendre la recherche, en insistant sur la nécessité
d’intégrer des chercheurs de SHS dans la réflexion.
25
Rapport AS « Web sémantique »
1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES
4
Bien entendu, si la ressource est indépendante de ses méta-données, les méta-données ne sont pas indépendantes de la
ressource : si celle-ci évolue, les méta-données peuvent devenir obsolètes voire fausses et inutiles. Mais c’est au
créateur des méta-données de gérer la cohérence, et non au gestionnaire de la ressource.
26
3. Méta-données et annotations dans le Web sémantique
27
Rapport AS « Web sémantique »
indifféremment pour décrire ces informations que le Web sémantique doit ajouter au
Web pour le rendre plus utilisable par des machines.
Pour autant, si ces deux termes existent, c’est qu’ils n’ont pas le même sens.
La communauté anglophone du Web sémantique, circonspecte sur la
différenciation, considère par exemple dans le schéma que nous reprenons plus haut
que les annotations de pages Web deviennent des méta-données dès qu’elles sont
stockées dans une base sur un serveur. On différencie alors l’information en tant
qu’elle est attachée à (et présentée avec) une ressource et l’information manipulable
et exploitable de façon plus indépendante de celle-ci.
D’un point de vue plus lié à la pratique de l’annotation / méta-données (du point
de vue du processus de mise en place), et s’il est nécessaire de distinguer, nous
proposons ce distinguo :
- une méta-donnée sera plutôt attachée à une ressource identifiée en tant que
telle sur le Web – aura plutôt une pertinence a priori et sera plutôt saisie
suivant un schéma. Par exemple, la description normalisée d’un service Web,
l’auteur d’un document, qui permettront de mettre en place des inférences.
- une annotation sera plus située au sein de cette ressource et écrite au cours
d’un processus d’annotation / lecture. Par exemple, un commentaire libre
associé à un fragment d’une page Web – quelques mots, un paragraphe –
déterminé au besoin.
Evidemment, cette distinction n’a rien de définitive, il s’agit simplement de mettre
l’accent sur le caractère plus situé au sein de la ressource (du fait de son exploitation
par un utilisateur) de l’annotation, par rapport à une méta-données plus indépendante,
voire ressource en tant que telle.
Plusieurs critères, non indépendants – que nous illustrerons dans la suite – peuvent
être envisagés pour considérer les différents types de méta-données (annotations) :
- les types de ressources qu’elles concernent, plus ou moins fragmentées,
- l’automatisation plus ou moins marquée de leur mise en place,
- la structuration plus ou moins forte de leur « schéma »,
- les tâches qu’elles soutiennent (ou sous-tendent),
- l’utilisation qui en est faite par les agents logiciels, plus ou moins
« intelligente ».
Remarquons que pour le Web sémantique, on parlera le plus souvent de méta-
données ou d’annotations sémantiques. Deux possibilités d’interprétation sont ici
disponibles : « sémantique » au sens de « sémantique formelle », et puis au sens plus
vague de « faisant sens dans le cadre d’une tâche pour un utilisateur ». Si certains
tenants du Web sémantique souhaitent limiter la portée de celui-ci au premier sens –
formel – ces deux interprétations nous semblent pourtant tout à la fois pertinentes et
de toutes façons inextricablement reliées dans le cadre d’un Web sémantique riche et
ouvert, à l’image de la richesse et de la diversité du Web actuel, qu’on pourrait
qualifier d’ « un peu sémantique ».
1.2.1 Introduction
Nous présentons dans la suite un scénario d’utilisation du web sémantique articulé
autour de l’enseignement à distance. Ce scénario s’intéresse autant à l’utilisation des
méta-données qu’à celle de l’adaptation qui est présentée dans une autre partie.
« Le professeur Bern de l’université de Stuttgart est impliqué dans la création de
cours diplômant sur les réseaux à l’intention d’étudiants de toute la Communauté
28
3. Méta-données et annotations dans le Web sémantique
29
Rapport AS « Web sémantique »
schéma. De par le référentiel commun constitué par le thésaurus, le Pr. Bern et ses
collègues sont à peu près sûrs d’utiliser les mêmes termes pour décrire les documents,
et peuvent utiliser la structure de navigation constituée par le thésaurus pour atteindre
ceux-ci. Pour toutes les saisies de méta-données du DC, le Pr. Bern n’est pas obligé de
remplir tous les champs puisque certains sont obtenus à partir de son identifiant
personnel et des références de son université tels que « créateur, éditeur, source, date,
format». Il est par contre bien évident qu’il doit remplir lui-même les champs « titre,
sujet, couverture, relation, droits, langage et description »
Un des documents ajoutés à la base possède dans sa description Dublin Core un
élément qui va être utilisé automatiquement par un logiciel d’alerte, permettant de
prévenir trois abonnés de l’université qu’ils peuvent consulter un article les intéressant
potentiellement. L’un deux va le consulter, y laisse quelques annotations de lecture (il
n’est pas du tout d’accord avec une affirmation de la troisième partie). Une
discussion s’engage alors lorsque les deux autres utilisateurs ainsi que le Pr Bern
(prévenu que le document a été annoté) s’opposent à cet avis avec véhémence.
Chacun faisant référence dans son argumentation à d’autres parties du document.
Afin de mettre en place le cours lui-même, le Pr. Bern va réutiliser les documents.
Certains sont réutilisables en l’état (par exemple une figure illustrant particulièrement
bien une notion), et d’autres ne le sont pas. En effet, sortis de leur contexte de
création, ils ne sont pas intégrables directement dans un parcours cohérent, et
demandent une fragmentation / modification / adaptation, ainsi qu’une organisation
ad hoc.
Si la précision d’utilisation avec le moteur de recherche utilisant les méta-données
est meilleure qu’avec le moteur classique, et s’appuie sur des méta-données mises en
place de façon simple et peu coûteuse en temps, elle n’est suffisante que pour une
utilisation par un utilisateur humain, et non par un logiciel de génération automatique
de cours. En effet, il est uniquement possible de l’utiliser pour de la recherche
d’information qui sera interprétée (et exploitée) par un humain : même si un schéma
tel que le Dublin Core définit une structure de méta-données, l’exploitation de celle-ci
par des logiciels est limitée puisque aucune sémantique – interprétable par une
machine – n’est associée aux domaines de valeur des différents champs et donc
certaines ressources retrouvées pourraient ne pas convenir. Même si les termes sont les
bons dans le bon rôle, ils peuvent ne pas avoir été utilisés avec une même sémantique,
ou encore la qualité de la saisie des méta-données n’a pas été validée ou vérifiée.
30
3. Méta-données et annotations dans le Web sémantique
31
Rapport AS « Web sémantique »
chaque cours ou élément de cours disponible en ligne. Ces dernières doivent être
saisie de manière bien plus rigoureuse lorsqu’une partie des champs est destinée à un
logiciel de composition de cours. En effet, si l’intention de l’auteur lors du choix
d’une valeur de champ n’est pas conforme à l’utilisation que va en faire le logiciel de
composition, le résultat ne sera guère prévisible.
32
3. Méta-données et annotations dans le Web sémantique
33
Rapport AS « Web sémantique »
ceux-ci peuvent également être stockés dans des bases de données pour une
gestion plus efficace.
De la même façon que le Web n’a pas attendu le Web sémantique pour offrir des
informations qualifiables de « sémantiques » sur le Web, les problématiques des méta-
données et des annotations sont prises en compte depuis que le Web est Web. Les
méta-données sur des ressources Web sont utilisées dans tous les systèmes
d’indexation de documents Web, que ce soient des moteurs de recherche, des
annuaires, des signets personnels, et de façon plus générale dans tous les systèmes de
gestion d’information, ces derniers bénéficiant d’une vieille tradition dans le monde
de la documentation et des bibliothèques (schéma d’indexation, utilisation de
thésaurus, etc.). De la même manière, les échanges électroniques de documents au sein
de communautés plus ou moins fermées à travers le réseau ont souvent conduit celles-
ci à définir et à utiliser de façon courante aussi bien des modèles de documents que
des schémas de méta-données adaptés à leurs pratiques 5, conduisant à de véritables
normes. L’utilisation de thésaurus et autre modèles de connaissances afin d’indexer
des documents au sein d’intranets, dans le cadre de la « gestion des connaissances »
est également une réalité sur laquelle le Web sémantique ne peut faire l’impasse.
Depuis le fameux navigateur Mosaic, déjà équipé en 1994 de la possibilité de gérer
des annotations, de nombreux systèmes ont vu le jour, qui permettaient à des
utilisateurs d’annoter des documents du Web, et de lire des annotations. En ce qui
concerne le stockage des annotations, beaucoup de possibilités ont été essayées : dans
les documents eux-mêmes (balises ad-hoc, RDF), dans les URL, dans des bases
présentes sur des serveurs centralisés. Ces annotations, le plus souvent sous forme
simplement textuelle, éventuellement typées (commentaire positif, négatif, voire lien –
on peut alors parler d’« annotation-lien » –, etc.) ont pu être plus ou moins partagées.
De nombreux systèmes – Yawas (Denoue et al., 1999), Critlink (Yee, 1999), etc. –, y
compris commerciaux (comme le défunt Thirdvoice) ont été lancés, souvent avec des
résultats décevants : pas de diffusion généralisée des principes. L’expérience
accumulée au cours de ces multiples essais mérite sans aucun doute d’être analysée
dans le cadre du Web sémantique.
On peut donc dire que ce sont tout à la fois :
- des méthodes de conception de schémas de méta-données (thésaurus,
ontologies),
- des outils et des principes d’utilisation de méta-données, d’annotation, de
présentation de celles-ci, aussi bien dans le monde numérique qu’à l’extérieur
(par exemple (Marshall, 98) pour une revue des types d’annotation),
- des architectures de stockage / requêtes / diffusion d’annotations,
- des modèles et des langages de descriptions et d’échange de méta-données /
annotations,
qui constituent un référentiel aussi bien technique que méthodologique sur lequel
s’appuyer.
Ajoutons à cette liste
- les multiples outils, méthodes et techniques d’extraction d’information de
documents sur le Web (fouille de données textuelles, méthodes statistiques ou
plus ou moins intelligentes, fondées sur des connaissances et spécialisées)
propres à proposer à l’utilisateur telle annotation, ou à remplir
automatiquement tel ou tel champ de méta-données.
- les outils et méthodologies permettant l’extraction et la mise en place plus ou
moins automatisée de schémas de description à partir de corpus Web
(terminologies, ontologies formelles), la construction coopérative de ces
schémas, etc.
5
Les schémas de document consistant dans bien des cas en la simple intégration de méta-données devenues constitutives
des structures documentaires électroniques.
34
3. Méta-données et annotations dans le Web sémantique
Il nous apparaît que les travaux sur le Web sémantique, considérés du point de vue
des annotations et des méta-données peuvent se répartir comme suit :
- travaux sur les langages de description d’ontologies et de méta-données ;
- travaux sur la construction des ontologies pour associer des méta-données,
décrire des pages Web ;
- travaux sur l’utilisation de méta-données pour la personnalisation de pages
Web ;
- travaux sur des applications pilotes, mettant en jeu :
- des schémas / ontologies pour annoter,
- des outils pour annoter conformément à ces schémas,
- des applications :
• faisant usages de méta-données en tant que telles (recherche
d’information),
• faisant également usage des annotations pour les présenter en
même temps que les pages à l’utilisateur,
- des architectures pour soutenir ces applications,
- des « leçons apprises ».
Nous nous concentrerons dans cette partie uniquement sur ces derniers travaux (liés
aux applications permettant de mettre en œuvre de façon concrète les grands principes
du Web sémantique), les autres types de travaux étant traités dans d’autres parties du
présent rapport.
Pour cela, nous présentons dans un tableau récapitulatif un état de l’art de quelques
systèmes liés au Web sémantique6, considérés comme représentatifs du fourmillement
actuel. Ces systèmes sont étudiés suivant différents critères :
- types de ressources annotées : que peut-on annoter à l’aide du système ? (une
page Web dans son ensemble, un fragment de document XML délimité par
deux balises ?) ;
- langage pour les annotations / localisation : dans quel langage de description
sont représentées les annotations ? (du texte simple, un langage structuré
comme XML, un langage de description de triplets comme RDF ?). Quel est
plus spécifiquement le moyen de désigner les fragments ?
- schémas de méta-données : dans quel langage sont exprimées les contraintes
sur les annotations que l’on peut créer ? Un ensemble d’attributs – Creator –
6
Un point d’entrée utilisé est http://km.aifb.uni-karlsruhe.de/annotation/index.html .
35
Rapport AS « Web sémantique »
36
Types de ressources Schéma de méta- Architectur Utilisation Remarques
annotées Langage pour données e des
Système / application les métadonnées
annotations/
localisation
Annotea Fragments de pages Web RDF / Schéma RDF Serveurs Affichage Possibilité de
http://www.w3.org/2001/Annotea/ HTML et XML (SVG, XPointer simple : une classe HTTP dédiés. des répondre à
XHTML,...) annotation, des Interface annotations une
propriétés titre, d’annotation. associées lors annotation
corps, auteur, date, Navigateur de la lecture par une
etc. instrumentés suivante de autre.
pour cette page Implantation
présenter les Mozilla :
RDF Pic Images RDF Dublin Core étendu Serveurs Recherche Peu
http://jigsaw.w3.org/rdfpic/ (schéma subject : dédiés, d’images. d’actualisatio
portrait, stockage n depuis
architecture, etc. + images + MD 2000.
schéma technique (jigsaw)
(appareil, film...)
SHOE Knowledge Annotator Page Web HTML Extension de Ontologie SHOE : Interface Recherche Interface
http://www.cs.umd.edu/projects/plus/SHOE/Kno HTML classification, graphique d’information graphique de
wledgeAnnotator.html (Simple relation, inférences. d’annotation. . construction
HTML Robot pour de requêtes.
37
Ontology récupérer les Export des
Extension) assertions, et ontologies
pour décrire les stocker SHOE vers
des ontologie dans une DAML.
COHSE Annotator Fragments de pages Web RDF Ontologie DAML Outil pour Génération Lié au projet
http://www.ecs.soton.ac.uk/~tmb/cohse/annotato HTML annotation. d’ « hypermé COHSE
r/ Serveurs dias Conceptual
d’annotation ontologiques Open
dédiés. » (pages Hypermedia
Web enrichie Project
par des http://coh
annotations à
WEBKB Toute resource Web RDF Ontologie – graphes Serveur Recherche se.semant
Interface très
http://www.webkb.org/ conceptuels. partagé d’information complexe
Ontologie générale
construite à partir
de Wordnet.
Types de ressources Schéma de méta- Architectur Utilisation Remarques
annotées Langage pour données e des
Système / application les métadonnées
annotations/
localisation
Ontomat Annotizer Fragment de page Web RDF / DAML Ontologie DAML + Outil de Toute Voir aussi
http://annotation.semanticweb.org/tools/ontomat + OIL OIL création de utilisation : OntoAnnotat
pages Web et visualisation, e (Outil
annotation. recherche d’annotation
MD dans les inférentielle. de Ontoprise)
documents,
robot +
serveur
inférentiel.
SMORE: Semantic Markup, Ontology and RDF Fragments de pages Web RDF Schéma RDF. Serveur Création / Version pour
Editor HTML Fondé sur des dédié annotation de annotation
http://www.mindswap.org/~aditkal/editor2.shtml Images SVG ontologies pages Web. d’image et de
extérieures a priori Portails lié courrier
ou construction du aux électroniques
Rapport AS « Web sémantique »
38
ts.html abstracts auteur, page Web, pour parser de résumés.
email, adresse, les
institution, date de descriptions
création.
GDA Global Document Annotation Pages Web HTML XML Schéma XML ??? Toutes Pas vraiment
http://www.i-content.org/GDA/ général : propriétés applications d’exemples
linguistiques, utilisant des
conversationnelles, connaissance
etc. s
Au niveau architectural, les directions prises par les travaux sur les méta-données
sont liées à la distribution et au stockage des méta-données – voir par exemple l’étude
3. Méta-données et Annotations
de la distribution des méta-données RDF suivant les principes P2P (peer to peer) : les
travaux autour d’E DUTELLA (http://edutella.jxta.org/reports/edutella-whitepaper.pdf),
ou le récent projet SWAP (Semantic Web and Peer to peer http://km.aifb.uni-
karlsruhe.de/projects/swap). Au niveau de la mise en place semi-automatique
d’annotation, on citera l’outil d’extraction d’information AMILCARE
(http://nlp.shef.ac.uk/amilcare/) qui paraît impliqué dans un nombre respectable de
projets.
Il nous apparaît que les travaux liés aux annotations / méta-données visant à mettre
en action les théories du web sémantique sont nombreux, et que force est de constater
qu’ils commencent à fournir des résultats techniquement impressionnants en terme de
prototypes et d’architectures, concrétisant énormément d’efforts au niveau
international (par exemple KAON / Ontomat). Cependant, même si les bénéfices
potentiels apportés par ces nouvelles possibilités d’applications sont indéniables, il ne
nous semble pour l’instant pas exister d’applications réellement utilisées de façon
routinière sur le Web.
Deux explications peuvent être données à cet état de fait : (1) il est encore trop tôt
pour que les prototypes sortent des laboratoires pour aller directement sur le Web
(peut-être un passage par une case intranet est-il nécessaire pour rôder à petite échelle
un certain nombre de techniques7). (2) il ne suffit pas de bonnes idées et de leur mise
en place en termes techniques pour entraîner l’utilisation des systèmes (problème
somme toute classique en informatique).
On peut considérer plusieurs cas pour le statut des méta-données vis-à-vis des
utilisateurs et des concepteurs qui les manipulent :
- Dans le cas d’applications pour lesquelles les annotation / méta-données sont
connues et éventuellement mises en place par les utilisateurs finaux des
systèmes, il nous semble qu’il faut qu’un certain nombre de conditions soient
remplies afin que les systèmes développés rencontrent du succès, à savoir
- un bon schéma de méta-données lié à la pratique d’une communauté,
- associé à la diffusion dans cette communauté d’outils facilement
utilisables,
- lesquels apportent immédiatement un gain aussi bien individuel que
collectif incitant les personnes qui le doivent à ajouter les méta-données
aux ressources communes.
- Dans un cas intermédiaire, celui où existent des concepteurs « secondaires »,
comme par exemple les enseignants qui spécifient des méta-données dans le
cadre de la conception de cours en ligne adaptatifs, alors que les étudiants ne
font qu’utiliser les documents qu’on leur présente, on se retrouve dans le
premier cas, avec une communauté plus réduite.
- Enfin, dans le cas d’applications pour lesquelles les annotation / méta-données
ne sont connues et mises en place que par les concepteurs des systèmes, c’est-
à-dire lorsque l’utilisateur final n’est jamais conscient des mécanismes en jeu,
on se retrouve dans le cas plus classique de développement de services sur le
Web, qui peuvent fonctionner ou non.
Dans un Web sémantique concerné par l’instrumentation de ressources
principalement documentaires à l’aide d’ontologies (que ce soient de simples
schémas de méta-données, ou bien des hiérarchies de types et de concepts plus
raffinées) se pose d’entrée de jeu la problématique de l’utilisation et de la
7
Voir par exemple les outils proposés par Ontoprise (www.ontoprise.de).
39
Rapport AS « Web sémantique »
compréhension de ces ontologies par les utilisateurs, qui doivent en acquérir une
expertise suffisante.
Cette expertise passe par la compréhension de l’utilisation qui va être faite des
méta-données, et donc des inférences qu’elles vont permettre, à divers degrés. Par
exemple, si j’affirme qu’une chaîne de caractères est bien le Titre de mon document,
je suppose qu’un outil permettra de mener une recherche dans ce champ seul, ou bien
pourra construire une table des matières à partir de lui. Si j’affirme que ce paragraphe
présente une Notion du cours que je prépare, que cette notion précède telle autre dans
le déroulement du cours, et que ce document apporte des Eclaircissements (sachant
qu’un Eclaircissement est une sorte d’Explication), alors je dois savoir quelle est
l’utilisation qui sera faite de cette indication : par exemple génération d’un document
listant les notions, génération d’un document composé de paragraphes se suivant dans
un ordre adapté à l’étudiant avec des liens vers des documents annexes, etc.
Le degré de formalisation de l’ontologie, son étendue, et les possibilités
d’inférences liées déterminent tout à la fois le degré d’expertise que son utilisateur
doit acquérir pour annoter, la complexité possible de l’interface d’annotation des
documents, et les raffinement possibles d’utilisation des méta-données.
Il ne fait pas de doute que les recherches actuelles vont être poursuivies, sans doute
dans toutes les directions à la fois, étant donnée l’effervescence actuelle autour du
Web sémantique. Cependant, une certaine attention de recherche doit être portée dans
quelques directions, moins étudiées mais à notre sens fondamentales et qui, pour
beaucoup, devraient impliquer des équipes pluridisciplinaires (Informatique / SHS) :
- Usage actuel (hors du Web sémantique) des méta-données / annotations par
rapport aux différentes tâches d’utilisation d’un système d’information
documentaire, en lien avec la plus ou moins grande formalité des schéma de
description utilisés. Quels sont les systèmes (d’ajout de méta-données /
annotations à des documents) qui fonctionnent actuellement, et pourquoi ? De
nombreux travaux ont été menés sur les annotations et les méta-données dans
des domaines qui ne relèvent pas du Web sémantique : il serait coûteux de les
ignorer.
- Interfaces d’écriture (plus ou moins assistées) et de visualisation de méta-
données sur / dans des documents (beaucoup de progrès restent à accomplir).
Doit-on annoter avec une ontologie pré-existante, ou bien construire une
ontologie adaptée au cours de l’annotation ? Quelle est la sémantique de la
relation d’annotation d’une donnée par un concept issu d’une ontologie
(Bechhofer et al., 2001) : que veut-on exactement décrire (le monde ? le
document ? une utilisation ?) Que dire de la notion d’auto-indexation liée à
des outils de création de documents Web et ajout de méta-données : quelle en
est la signification, comment peut-elle être exploitée ? Peut-on faire confiance
à un utilisateur pour bien décrire ses propres documents (à comparer par
exemple avec la fonction d’un documentaliste).
- Droit, cycle de vie et annotations : diffusion des méta-données, responsabilité,
vie privée. Une méta-donnée peut être publiée dans le cadre d’une tâche, ce
qui suppose la maîtrise de l’utilisation qui peut en être faite par son auteur. Or
des usages non prévus peuvent surgir. Etude de la notion de « validité » des
méta-données, par rapport à l’évolution des documents, mais aussi au niveau
temporel : cycle de vie, qualité et validation des méta-données / annotations.
Terminons en remarquons que la question fondamentale qui nous semble posée à
long terme est celle du statut des méta-données dans le cadre de l’hypertextualité, liée
à la définition, du codage et de la structuration des documents et de l’information sur
le Web. En effet, ajouter une méta-données à un document consiste à lui ajouter une
structure ; coder un document textuel dans un arbre XML consiste à en définir les
éléments structurels essentiels, qui en annotent le contenu textuel ; générer enfin un
document adaptatif à partir de multiples sources peut consister à mettre ensemble des
40
3. Méta-données et Annotations
RÉFÉRENCES
BECHHOFER S., L. C ARR et al. (2002). The Semantics of Semantic Annotation. First
International Conference on Ontologies, Databases, and Applications of Semantics for Large
Scale Information Systems. Irvine, California. 2159: 1151-1167.
DENOUE, L. & L. V IGNOLLET (1999). Yawas : un outils d’annotation pour les navigateurs du
web, IHM’99, Montpellier, France, 22-26, Novembre 1999
HANDSCHUH S . & S TAAB S. (2002) Authoring and Annotation of Web Pages in CREAM.
http://www.aifb.uni-karlsruhe.de/WBS/sha/papers/aa_cream_www11.pdf
MARSHALL C. C. (1998). Toward an ecology of hypertext annotation. Hypertext’98. New York,
ACM Press: 40-49.
NILSSON M., P ALMÉR M., et al. (2002). Semantic Web Metadata for e-Learning - Some
Architectural Guidelines. 11th World Wide Web Conference (WWW2002). Hawaii, USA.
YEE, K.P. (1998) The CritLink Mediator, [ http://www.crit.org/critlink.html ]
8
Note en passant : ce rapport (ou au moins le tableau recensant les différentes applications) fatalement incomplet,
pourra être rendu disponible sur le web, et actualisé et complété en fonction des réactions – pour toute réaction :
yprie@liris.univ-lyon1.fr
41
4 – Ontologies pour le Web sémantique
Jean Charlet1, Bruno Bachimont2,3, Raphaël Troncy2,4
1
Mission de recherche STIM, AP-HP & INSERM ERM 202
jc@biomath.jussieu.fr
2
Institut National de l’Audiovisuel
{bbachimont,Raphael.Troncy}@ina.fr
3
Université Technologique de Compiègne
bruno.bachimont@utc.fr
4
INRIA Rhône-Alpes, Équipe EXMO
raphael.troncy@inrialpes.fr
Résumé
Les ontologies sont un des concepts de base du Web sémantique. Dans cette
partie, nous voulons revenir sur l’origine des travaux sur les ontologies au sein de la
communauté Ingénierie des connaissances pour montrer les acquis sur lesquels les
chercheurs se sont appuyés pour développer le concept au sein du Web sémantique.
Dans un souci de clarté et de précision, nous revenons sur la définition des
ontologies pour clarifier les limites de l’approche ontologique et les contraintes qui
s’imposent à elle. Cela nous permet d’aborder les méthodologies de construction
d’ontologies et la question de la généricité.
Ceci posé, nous pouvons passer en revue les apports du Web sémantique en
termes de méthodologies, d’outils, d’éditeurs en essayant de préciser les
problématiques particulières dans chaque domaine. Enfin, dans une dernière section,
nous tentons de faire le point sur les problèmes que rencontre le Web sémantique par
rapport aux ontologies et les axes de réflexion ou de recherche qui semblent
prometteurs en ce domaine.
M o t s - c l é s : Ontologies, Ingénierie des connaissances, thésaurus, corpus,
43
Rapport AS « Web sémantique »
1 PRÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES
9
Nous n’entrons pas dans le débat sur ce qu’est l’intelligence. Nous nous bornons à noter que
l’Intelligence artificielle intervient dans des domaines et pour des problèmes où l’on ne peut construire
des programmes avec des solutions algorithmiques simples et pour lesquels les connaissances à utiliser
sont difficilement formalisables.
10
ARISTOTE a défini l’Ontologie comme la science de l’Être. Définition que l’on retrouve dans le Petit
Robert avec « O n t o l o g i e » : la partie de la métaphysique qui s’intéresse à l’Etre en tant qu’Etre ».
Mais l’Ontologie est habituellement davantage comprise comme une science des étants que comme une
science de l’Etre en tant qu’Etre, c’est-à-dire qu’elle s’intéresse davantage à ce qui existe (les étants ou
existants) qu’aux principes de ce qui existe (l’Etre). Cette science, l’Ontologie, produit des ensembles,
les ontologies. Pour être complet, notons que le mot lui-même date du 17e siècle, avec des dates précises
discordantes selon les sources. Enfin, le mot ontologie, utilisé dans le contexte de l’Ingénierie des
connaissances ou du Web sémantique, semble d’un usage abusif à certains. Nous n’entrerons pas dans ce
débat de dénomination en nous bornant ici à éclairer la filiation de réflexion.
44
4 – Ontologies pour le Web sémantique
2.1 DÉFINITIONS
2.1.1 Les ontologies en Ingénierie des connaissances
Les ontologies sont apparues au début des années 90 dans la communauté
Ingénierie des connaissances, dans le cadre des démarches d’acquisition des
connaissances pour les systèmes à base de connaissances (SBC). Faisant suite aux
systèmes experts qui séparaient une base de connaissances « déclarative » et un moteur
d’inférence « procédural », les SBC proposaient alors de spécifier, d’un côté, des
connaissances du domaine modélisé et, de l’autre, des connaissances de raisonnement
décrivant les règles heuristiques d’utilisation de ces connaissances du domaine. L’idée
de cette séparation modulaire était de construire mieux et plus rapidement des SBC en
réutilisant le plus possible des composants génériques, que ce soit au niveau du
raisonnement ou des connaissances du domaine. Les connaissances du domaine
précisent tout ce qui a trait au domaine. Dans ce contexte, les chercheurs ont proposé
de fonder ces connaissances sur la spécification d’une ontologie, ensemble structuré
par différentes relations, principalement l’hyperonymie11 des objets du domaine dont
on note déjà que son élaboration relève de choix du modélisateur.
Ontologie (déf. 1) : Ensemble des objets reconnus comme existant dans le
domaine. Construire une ontologie c’est aussi décider de la manière d’être et
d’exister des objets.
Dans cette définition, les objets ne sont pas pris dans un sens informatique mais
comme objets du monde réel que le système modélise. Pour poursuivre vers une
définition de l’ontologie, il nous semble indispensable de rappeler que les travaux sur
les ontologies sont développés dans un contexte informatique – que ce soit celui de
l’Ingénierie des connaissances, de l’Intelligence artificielle ou de la gestion et des
systèmes d’information ou plus spécifiquement ici le contexte du Web sémantique – où
le but final est de spécifier un artefact informatique. Dans ce contexte, l’ontologie
devient alors un modèle des objets existants qui y fait référence à travers des concepts,
les concepts du domaine. Cette ontologie et les connaissances du domaine qui
s’appuient dessus correspondent, à la suite des travaux de Newell (1982), à une
modélisation au « niveau des connaissances » (le Knowledge Level de Newell). Ce
niveau de modélisation de l’ontologie nous situe au niveau du sens, au niveau de
l’intension. Cette ontologie devra ensuite être opérationalisée, c’est-à-dire codée dans
un langage opérationnel, exécutable.
Pour avancer vers une définition complète, on peut revenir à un travail de N.
Guarino et P. Giaretta (1995) qui ont essayé de trouver des définitions de l’ontologie
durant son processus d’élaboration12, à savoir l’ontologie comme un système
conceptuel informel, puis l’ontologie comme la représentation d’un système
conceptuel via une théorie logique et son vocabulaire. On peut alors proposer la
11
Pour ne pas dévier de notre propos, nous ne développons pas l’historique de la classification en
Intelligence artificielle mais un certain nombre de travaux s’étaient déjà posés des question au sujet de
la classification des objets du monde. Parmi ceux-ci, on peut citer les travaux autour des réseaux
sémantiques, comme Brachman (Brachman, 1983; Brachman et al., 1991) s’interrogeant sur la nature du
lien is-a ou Woods (1991) s’attachant à des questions de représentation et de niveau de description des
connaissances.
12
Les développements faits ici sont une libre interprétation des attendus des travaux de N. Guarino et P.
Giaretta (1995). Ils ont pour but de progresser vers une définition rendant compte d’un processus de
construction évolutif. Nous renvoyons le lecteur qui veut approfondir la question aux articles de ces
auteurs.
45
Rapport AS « Web sémantique »
13
« Vocabulaire » est utilisé ici tel qu’il apparaît dans le texte. Il doit être compris dans un sens logique
et être vu comme le vocabulaire des expressions manipulées par une théorie logique. Ceci dit, ce
vocable prête à confusion dans le domaine des ontologies où la question de la langue et l’opposition
termes versus concepts est fondamentale (cf. § 2.2.2).
14
Cet écart est principalement dû des problèmes de calculabilité des théories qui pourraient rendre compte
de la spécification et sont donc inadéquates. Cet écart entre la conceptualisation et la spécification
formelle est décrit par N. Guarino comme l’engagement ontologique que le concepteur doit assumer au
passage de l’une à l’autre (Guarino & Giaretta, 1995).
15
Nous ne développerons pas ici l’historique de la classification, de Aristote aux Sciences naturelles.
Nous renvoyons le lecteur intéressé à (Charlet, 2002) et rappelons qu’un des apports de cet historique
est de montrer toute la variabilité de définition des objets du monde en fonction des buts du
modélisateur.
16
La numérotation des références de paragraphes correspond aux différentes parties de ce chapitre.
46
4 – Ontologies pour le Web sémantique
17
Des attributs dans le contexte des langages à objets.
47
Rapport AS « Web sémantique »
de décrire des organes ou des systèmes et ce qui les compose. Cette relation n’est pas
sans poser des problèmes de modélisation dans la mesure où elle est, selon les
situations, transitive ou intransitive.
Les réflexions sur les ontologies dans le contexte du Web sémantique s’appuient
sur ces différents acquis en notant que dans le cas où l’ontologie est utilisée comme
repérage et structuration de méta-données, le fait qu’elle permette de faire des
inférences est moins mis en avant et donc moins recherché que dans le cas où
l’ontologie est utilisée au sein d’un module logiciel type SBC, nécessitant justement
d’effectuer des inférences.
18
http://www.biomath.jussieu.fr/projets/Menelas/ontologie
19
http://www.biomath.jussieu.fr/TIA/
20
Dans le sens où ces textes existent bien et en quantité. Nous n’abordons pas la question, parfois
complexe, de la disponibilité réelle de ces textes sous forme numérique. La question des corpus est
développée plus spécifiquement dans le cadre de l’Action spécifique du CNRS «Construction de
ressources terminologiques a partir de corpus» – ASSTICCOT <http://www.irit.fr/ASSTICCOT/>.
48
4 – Ontologies pour le Web sémantique
49
Rapport AS « Web sémantique »
50
4 – Ontologies pour le Web sémantique
21
M. Slodzian (1999; 2000) développe très longuement des arguments épistémologiques et
linguistiques à ce sujet. Nous renvoyons le lecteur intéressé à ces articles.
22
Le MeSH est accessible à http://www.nlm.nih.gov/mesh/meshome.html
23
Voir (Charlet, 2002) pour un panorama plus large en notant que nous nous sommes intéressés
sciemment à des ressources au statut problématique. Il y a évidemment d’autres ressources dont le statut
ontologique est incontestable comme la GeneOntology <http://www.geneontology.org>.
24
Utilisation, au sens fort, c’est-à-dire pour faire des inférences.
51
Rapport AS « Web sémantique »
25
http://suo.ieee.org
52
4 – Ontologies pour le Web sémantique
53
Rapport AS « Web sémantique »
54
4 – Ontologies pour le Web sémantique
3.3.2 PROTÉGÉ-2000
PROTÉGÉ-2000 27 (Noy et al., 2000) est un environnement graphique de
développement d’ontologies développé par le SMI de Stanford. Dans le modèle des
connaissances de PROTÉGÉ, les ontologies consistent en une hiérarchie de classes qui
ont des attributs (slots), qui peuvent eux-mêmes avoir certaines propriétés (facets).
L’édition des listes de ces trois types d’objets se fait par l’intermédiaire de l’interface
graphique, sans avoir besoin d’exprimer ce que l’on a à spécifier dans un langage
formel : il suffit juste de remplir les différents formulaires correspondant à ce que
l’on veut spécifier. Ce modèle autorise d’ailleurs une liberté de conception assez
importante puisque le contenu des formulaires à remplir peut être modifié suivant les
besoins via un système de métaclasses, qui constituent des sortes de « patrons » de
connaissance. L’interface, très bien conçue, et l’architecture logicielle permettant
l’insertion de plugins pouvant apporter de nouvelles fonctionnalités (par exemple, la
possibilité d’importer et d’exporter les ontologies construites dans divers langages
opérationnels de représentation ou encore la spécification d’axiomes) ont participé au
succès de PROTÉGÉ-2000 qui regroupe une communauté d’utilisateurs assez
importante et constitue une référence pour beaucoup d’autres outils.
3.3.3 OILEd
OILEd 28 (Bechhofer et al., 2001), développé sous la responsabilité de l’université
de Manchester, a été conçu pour éditer des ontologies dans le langage de
représentation OIL, un des précurseurs du langage OWL29 (Ontology Web Language) qui est
aujourd’hui en voie d’être une recommandation W3C (cf. chap. 2). Officiellement, il
n’a pas d’autre ambition que de construire des exemples montrant les vertus du
langage pour lequel il a été créé. A ce titre, OILEd est souvent considéré comme une
simple interface de la logique de description SHIQ. Néanmoins, il offre la plus grande
partie de ce que l’on peut attendre d’un éditeur d’ontologies. On peut créer des
hiérarchies de classes et spécialiser les rôles, et utiliser avec l’interface les types
d’axiomes les plus courants. Cet éditeur offre également les services d’un raisonneur,
F aCT, qui apermet de tester la satisfaisabilité des définitions de classes et de découvrir
des subsomptions restées implicites dans l’ontologie.
26
http://www-ksl-svc.stanford.edu:5915/
27
http://protege.stanford.edu/index.shtml
28
http://oiled.man.ac.uk/
29
http://www.w3.org/2001/sw/WebOnt/
55
Rapport AS « Web sémantique »
3.3.4 OntoEdit
Contrairement aux deux outils précédents, ONTOEDIT (Sure et al., 2002) n’est pas
disponible gratuitement dans sa version complète30. Il présente les fonctionnalités
essentielles communes aux autres éditeurs (hiérarchie de concepts, expression
d’axiomes, export de l’ontologie dans des langages divers) et a le mérite de
s’appuyer sur une réflexion méthodologique significative. La modélisation des
axiomes a fait l’attention de soins particuliers pour pouvoir être effectuée – en tout
cas pour les types les plus répandus – indépendamment d’un formalisme privilégié et
cela pour faciliter la traduction d’un langage de représentation à un autre. Il propose
également une gestion originale des questionnaires de compétences. Des questions
pour les réponses desquelles l’ontologie doit fournir le matériel conceptuel, on peut
extraire les termes appelés à intégrer l’ontologie. Un petit outil fait une comparaison
lexicale des termes extraits des différentes questions pour en déduire
automatiquement d’éventuelles subsomptions. Le procédé semble cependant loin
d’être fiable puisqu’il repose sur l’hypothèse que le nom d’un concept se retrouve
parfois dans le nom de ses spécialisations.
3.3.5 WebODE
WebODE31 (Arpirez et al., 2001), développé par le LAI de Madrid, est une plate-
forme de conception d’ontologies fonctionnant en ligne. D’un point de vue
méthodologique, l’outil fait suite à ODE, un éditeur qui assurait fidèlement le support
de la méthodologie maison METHONTOLOGY (cf. § 3.2.1). Il illustre bien l’évolution
des outils de construction d’ontologies, puisque les nombreuses tables de son
prédécesseur ont été remplacées par une interface très travaillée, réalisant un pas
supplémentaire vers une conception au niveau des connaissances. On peut cependant
regretter que cette évolution se soit faite au détriment de l’application des contraintes
méthodologiques : les représentations intermédiaires utilisées dans le processus de
conception sont désormais moins mises en avant, à tel point que le guide de
l’utilisateur ne les signale que pour « assurer la compatibilité conceptuelle avec
ODE ». L’accent a plus été mis sur la possibilité d’un travail collaboratif ou sur la
mise à disposition d’outils complémentaires, comme un moteur d’inférences.
3.3.6 DOE
Le dernier outil présenté ici est DOE pour Differential Ontology Editor32 (B achimont
et al., 2002; Troncy & Isaac, 2002). Cet outil n’a pas pour ambition de concurrencer
les grands environnements existants, mais plutôt de fournir un début
d’implémentation à la méthodologie de structuration différentielle proposée par B.
Bachimont (cf. § 2.2.2). A l’instar des autres éditeurs, il offre une représentation
graphique des arbres de concepts et des relations de l’ontologie et permet d’interagir
avec les hiérarchies. L’outil assiste également la saisie des principes différentiels issus
de la méthodologie en automatisant partiellement cette tâche. Le modèle de
représentation de l’ontologie est finalement proche de celui du langage RDFS, à ceci
près qu’il autorise la modélisation de relations n-aires. Au niveau formel, l’éditeur est
capable de faire quelques inférences en vérifiant la consistance de l’ontologie
(propagation de l’arité le long de la hiérarchie des relations et héritage des domaines
par exemple).
30
Une version de démonstration est disponible sur le site d’Ontoprise, la société qui le développe en
collaboration avec l’AIFB de Karlsruhe
31
http://delicias.dia.fi.upm.es/webODE/
32
L’outil est disponible gratuitement à http://opales.ina.fr/public/
56
4 – Ontologies pour le Web sémantique
33
http://www.daml.org/language/
34
http://www.w3.org/TR/rdf-schema/
35
http://www.ontoweb.org
57
Rapport AS « Web sémantique »
36
La question a été abordée dans (Bachimont, 2001) qui constate que la formalisation est une
spécification formelle donc extensionnelle de l’ontologie ainsi définie et que le sens des concepts est
alors dans les objets définis en extension. Ainsi, N. Guarino a abordé des problèmes analogues à la
normalisation sémantique, en proposant, au niveau formel (Guarino, 1999), une méthode à base de
métapropriétés (identité, rigidité, anti-rigidité, dépendance) qui contraint l’organisation d’une ontologie
formelle, en particulier la relation de subsomption, en fonction des propriétés des nœuds qui la
58
4 – Ontologies pour le Web sémantique
composent. Cette convergence de vues peut être intéressante à exploiter dans la recherche d’une
méthodologie intégrée.
59
Rapport AS « Web sémantique »
RÉFÉRENCES
J. A NGELE & Y. S URE , Eds. (2002). First International Workshop Evaluation of Ontology-based
Tools (EON’02) , volume (62) of CEUR-WS, Sigüenza, Espagne. http://CEUR-
WS.org/Vol-62/.
ARPIREZ J., C ORCHO O., F ERNÁNDEZ-LÓPEZ M. & G ÓMEZ-PÉREZ A. (2001). WebODE : a
Workbench for Ontological Engineering. In First international Conference on Knowledge
Capture (K-CAP’01), p. 6–13, Victoria, Canada: ACM.
AUSSENAC-GILLES N., B IEBOW B. & SZULMAN S. (2003). D’une méthode à un guide pratique de
modélisation des connaissances à partir de textes. In Actes des 5 es journées Terminologie et
Intelligence Artificielle, p. 41–53, Strasbourg.
BACHIMONT B. (2000). Engagement sémantique et engagement ontologique : conception et
réalisation d’ontologies en ingénierie des connaissances. In J. CHARLET, M. Z ACKLAD, G.
KASSEL & D. BOURIGAULT, Eds.,Ingénierie des connaissances : évolutions récentes et
nouveaux défi , chapter 19. Paris: Eyrolles.
BACHIMONT B. (2001). Modélisation linguistique et modélisation logique des ontologies :
l’apport de l’ontologie formelle. In J. CHARLET, Ed., Actes des 5 es Journées Ingénierie des
Connaissances, p. 349–68, Grenoble, France.
BACHIMONT B., ISAAC A. & TRONCY R. (2002). Semantic Commitment for Designing
Ontologies: A Proposal. In A. G OMEZ-PÉREZ & V. B ENJAMINS, Eds., 13th International
Conference on Knowledge Engineering and Knowledge Management (EKAW’02), volume
(2473) of Lecture Notes in Artificial Intelligence, p. 114–121, Sigüenza, Espagne: Springer
Verlag.
BECHHOFER S., H ORROCKS I., G OBLE C. & S TEVENS R. (2001). OilEd: a Reason-able Ontology
Editor for the Semantic Web. In Joint German/Austrian conference on Artificial Intelligence
(KI’01), volume (2174) of Lecture Notes in Artificial Intelligence, p. 396–408, Vienne,
Autriche: Springer Verlag.
BENJAMINS V. R ., F ENSEL D. P. A. (1998). Knowledge management through ontologies. In
Proceedings of the 2nd Conf. On Practical Aspects of Knowledge Management, Basel,
Switzerland.
BOURIGAULT D. (2002). Analyse distributionnelle étendue. In Actes de la 9 e conférence sur le
traitement automatique des langues, Nancy.
BOURIGAULT D., AUSSENAC-GILLES N. & C HARLET J. (2003). Construction de ressources
terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de
cas. Revue d’Intelligence Artificielle . À paraître.
BOURIGAULT D. & F ABRE C. (2000). Approche linguistique pour l’analyse syntaxique de corpus.
Cahiers de Grammaires, (25), 131–51. numéro spécial « sémantique et corpus ».
60
4 – Ontologies pour le Web sémantique
61
Rapport AS « Web sémantique »
62
4 – Ontologies pour le Web sémantique
WEIS J.-C. & C HARLET J. (2003). Construction d’ontologie à partir de textes : application à un
réseau de périnatalité. In R. DIENG-K UNTZ, Ed., Actes des 7es Journées Ingénierie des
Connaissances, Laval, France: Presses universitaires de Grenoble.
WOODS W. A. (1991). Understanding subsumption and taxonomy: A framework for progress. In
J. F. S OWA,Ed.,Principles of Semantic Networks, chapter 1, p. 45–94. San Mateo, Ca:
Morgan Kaufmann Publishers.
ZWEIGENBAUM P., BACHIMONT B., BOUAUD J., C HARLET J. & B OISVIEUX J.-F. (1995). Issues
in the structuring and acquisition of an ontology for medical language understanding. Methods
of Information in Medicine, 34(1/2).
63
5 – L’intégration de sources de données
Mohand-Saïd Hacid1, Chantal Reynaud2
1
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
mshacid@liris.univ-lyon1.fr
2
Université Paris X
LRI (Université Paris-Sud & CNRS), UR INRIA Futurs *
(*) Gemo, Pôle Commun de Recherche en Informatique du plateau de Saclay,
CNRS, École Polytechnique, INRIA, Université Paris-Sud.
Chantal.Reynaud@lri.fr
Résumé
La diversité des sources d’information distribuées et leur hétérogénéité est une des
principales difficultés rencontrées par les utilisateurs du Web aujourd’hui.
L’infrastructure du Web sémantique doit permettre leur intégration donnant ainsi
l’impression à l’utilisateur qu’il utilise un système homogène. Les solutions à
l’intégration d’information proposées dans le cadre du Web sémantique tireront parti
des recherches concernant les approches médiateurs et les entrepôts de données. Les
premières réalisations sont en cours. Un des premiers verrous scientifiques à lever
concerne le passage à l’échelle du Web. Parmi les travaux futurs, dont le
développement doit être favorisé, figurent la mise en œuvre de systèmes de médiation
décentralisés, l’étude des problèmes liés à l’intégration de données multimédias,
l’intégration temps réel et également la prise en compte de la complexité croissante
des données à intégrer, signe d’une évolution vers une intégration de connaissances.
Mots-clés : intégration d’information, médiateurs, entrepôts de données.
65
Rapport AS « Web sémantique »
1 P RÉ SENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES
La diversité des sources d’information distribuées et leur hétérogénéité est une des
principales difficultés rencontrées par les utilisateurs du Web aujourd’hui. Cette
hétérogénéité peut provenir du format ou de la structure des sources (sources
structurées : bases de données relationnelles, sources semi-structurées : documents
XML, ou non structurées : textes), du mode d’accès et de requête ou de
l’hétérogénéité sémantique : entre les schémas conceptuels ou ontologies implicites
ou explicites sous-jacentes. Il est en effet illusoire de penser qu’une même ontologie
“ universelle ” sera largement utilisée. Par ailleurs, les termes sont parfois exprimés
dans des langues différentes.
La prise en compte de ces problèmes est une des clés de la mise en place
d’applications Web sémantique. Elle s’avèrera encore plus fondamentale si l’on
adhère à la vision, à plus long terme, d’agents logiciels capables de raisonner en
accédant à des ressources variées. Dans ce contexte, le Web sémantique doit d’abord
être une infrastructure dans laquelle l’intégration des informations d’une variété de
sources peut être réalisée et facilitée. Le Web sémantique devrait donc tirer largement
bénéfice des recherches déjà effectuées en intégration d’information, concernant en
particulier la réalisation de systèmes de médiation et la réalisation d’entrepôts de
données et des résultats déjà obtenus.
L’aide apportée par les systèmes de médiation peut recouvrir différentes formes :
découvrir les sources pertinentes étant donnée une requête posée, puis aider à accéder
à ces sources pertinentes, évitant à l’utilisateur d’interroger lui-même chacune d’elles
selon leurs propres modalités et leur propre vocabulaire, enfin combiner
automatiquement les réponses partielles obtenues de plusieurs sources de façon à
délivrer une réponse globale. De tels systèmes de médiation offrent à l’utilisateur une
vue uniforme et centralisée des données distribuées, cette vue pouvant aussi
correspondre à une vision plus abstraite, condensée, qualitative des données et donc,
plus signifiante pour l’utilisateur. Ces systèmes de médiation sont, par ailleurs, très
utiles, en présence de données hétérogènes, car ils donnent l’impression d’utiliser un
système homogène. Parmi les différentes grandes catégories d’applications de ces
systèmes de médiation, on peut citer les applications de recherche d’information,
celles d’aide à la décision en ligne (avec entre autres l’utilisation d’entrepôts de
données) et celles, de manière plus générale, de gestion de connaissances au sens
large.
A titre d’illustration très simple du premier type d’applications, supposons qu’un
utilisateur pose la requête suivante : quels sont les films de Woody Allen à l’affiche à
Paris ce soir ? où ? leurs critiques ? Supposons l’existence de deux sources
d’information. La première, Internet Movie Data Base, utilise un système de gestion
de bases de données relationnel et contient une liste de films, précisant pour chacun
le titre, les acteurs et le cinéaste. La seconde, Pariscope, qui peut utiliser des fichiers
XML, contient, par film, les salles où le film peut être vu et, pour chaque salle, le nom
de la salle et l’adresse. La réponse à la requête devra être construite en interrogeant
chacune d’elles et en combinant les résultats de l’interrogation de façon à offrir à
l’utilisateur une réponse globale.
Plus récemment, de nouvelles applications ont vu le jour dans les entreprises :
eCRM, Business Intelligence, eERP , eKM, etc. Ces applications, que l’on désigne
parfois sous le vocable de WebHouse (Kimball & Merz, 2000) si elles sont menées
dans le contexte du Web, s’appuyent sur la construction d’entrepôts de données sur le
Web. Elles se trouvent également confrontées au problème de la médiation
puisqu’elles mettent en œuvre un processus d’acquisition de données, souvent en
temps réel, provenant de sources multiples, distribuées et hétérogènes. La conception
66
5 – L’Intégration de sources de données
67
Rapport AS « Web sémantique »
Requêtes
et réponses
Domaine d’application 1 Domaine d’application
n
Schéma Schéma
global 1 global n
Moteur
de
requête
s
Réécritures
et réponses
Base de données Fichiers HTML Fichiers XML Base de données Fichiers HTML Fichiers XML
68
5 – L’Intégration de sources de données
69
Rapport AS « Web sémantique »
70
5 – L’Intégration de sources de données
Wrapper
Source
Extraction/Transformation
D
W
Source
Intégration/
Transformation/
Chargement
Extraction/Transformation
F I G . 3 - Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données
71
Rapport AS « Web sémantique »
72
5 – L’Intégration de sources de données
73
Rapport AS « Web sémantique »
comment cette automatisation est possible, sachant qu’elle devra pouvoir être établie
entre des ontologies qui sont locales à des sources et qui sont hétérogènes. Les
recherches pourront s’appuyer sur les travaux effectués sur la mise en
correspondance de schémas proposant une automatisation partielle pour des domaines
d’application particuliers. Dans le contexte du Web sémantique, néanmoins, il serait
souhaitable que les solutions proposées au problème de mise en correspondance
soient indépendantes de tout domaine d’application et prennent en compte toute la
complexité des ontologies. En particulier, des travaux de recherche doivent
s’intéresser à l’automatisation des mises en correspondance de type 1-n ou n-m, pas
seulement de type 1-1. Ils doivent également chercher à exploiter les contraintes sur
les attributs ou les relations définies au sein des ontologies.
Il faut ensuite pouvoir raisonner sur les correspondances entre ontologies. Il faut
s’attendre à une explosion du nombre d’ontologies utilisées. Beaucoup décriront des
domaines similaires mais n’utiliseront pas forcément les mêmes termes, d’autres
décriront des domaines qui pourront se recouvrir. Il est nécessaire pour cela de
développer des recherches portant sur la représentation explicite des mises en
correspondance entre ontologies ainsi que sur la conception d’algorithmes de
raisonnement efficaces et adaptés au traitement des mises en correspondance de
différentes sortes : égalité, inclusion, recouvrement.
Enfin, ces systèmes distribués reposent sur l’exploitation d’ontologies elles-aussi
distribuées. Un champ de recherches à favoriser concerne alors la gestion à grande
échelle de ce nombre très important d’ontologies pouvant couvrir des domaines
identiques ou se recouvrant.
74
5 – L’Intégration de sources de données
Ainsi, dans le cas du WebHouse par exemple, le problème majeur reste celui de
concevoir et de développer des agrégateurs incrémentaux efficaces. Des solutions à ce
problème d’intégration de données pourraient conduire à terme à unifier proprement
les différents services d’une entreprise géographiquement distribuée (cf. FIG. 5).
Autre
BD
Data Mining
Webhouse
R APPORTS
F I G . 4 - Phases de transformation de données pour une analyse en temps réel de données collectées sur
le Web
75
Rapport AS « Web sémantique »
FIG. 5 – Exemple de data Warehouse intégrant les différents services d’une entreprise
géographiquement distribuée
76
5 – L’Intégration de sources de données
RÉFÉRENCES
BENEVENTANO D. & BERGAMASCHI S. & CASTANO S. & CORNI A. & GUIDETTI R. &
MALZVEZZI G. & MELCHIORI M. & VINCINI M. (2000). Information integration: The
MOMIS project demonstration. In VLDB 2000 proceedings of 26 th International Conference on
Very large Data Bases. September 10-14. Cairo – Egypt. p. 611-614.
BIDAULT A. & FROIDEVAUX C H. & SAFAR B. (2000). Repairing queries in a mediator
approach. In 14th European Conference on Artificial Intellignece. p. 406-410. Berlin.
C HAWATHE S. & G ARCIA-MOLINA H. & H AMMER J. & I RELAND K. & P APAKONSTANTINOU
Y. & ULLMAN J. & W IDOM J. (1994). The TSIMMIS project: Integration of heterogeneous
information sources. In proceedings of IPSI conference, Tokyo Japan.
DOAN A. & DOMINGOS P. & L EVY A. (2001). Reconciling Schemas of Disparate Data Sources:
A Machine-Learning Approach. Proceedings of the 2001 ACM SIGMOD International
Conference on management of Data. p. 509-520. Santa Barbara. CA: ACM Press.
DOAN A. & M ADHAVAN J. & D OMINGOS P. & H ALEVY A. (2002). Learning to map between
Ontologies on the Semantic Web. Proceedings of the 11th international Conference on WWW.
p. 662-673. Honolulu, Hawaï, USA.
ETZIONI O. & WELD D. (1994). A Softbot-Based Interface to the Internet. Communications of
the ACM. Vol. 37(7). p. 72-76.
F IRESTONE J. M. (1999). DKMS Brief No. Nine: Entreprise integration, Data federation, and
DKMS: A Commentary. Executive Information Systems, Inc.
FRIEDMAN M. & WELD D. S. (1997). Efficiently executing information-gathering plans. In
15th International Joint Conference on Artificial Intelligence. p. 785-791, Nagoya. Japan.
GENESERETH M. R. & KELLER A. M. & DUSCHKA O. M. (1997). Infomaster: an
information integration system. In proceedings of SIGMOD 97. p. 539-542. New-York.
GIRALDO G. & REYNAUD Ch. (2002). Construction semi-automatique d’ontologies à partir de
DTDs relatifs à un même domaine. 13èmes journées francophones d’Ingénierie des
Connaissances. Rouen.
GOASDOUE F. & LATTES V. & ROUSSET M.-CH. (2000). The use of the Carin language and
algorithms for Integration Information: the PICSEL system. International Journal of
Cooperative Information Systems. Vol. 9(3). p. 383-401.
GRIBBLE S. & H ALEVY A. & IVES Z. & R ODRIG M. & S UCIU D. (2001). What can databases do
for Peer-to-Peer ? WebDB01 - Workshop on databases on the Web. p. 31-36. Santa Barbara,
California, USA.
HALEVY A. Y. & IVES Z. G. & S UCIU D. & T ATARINOV I. (2003). Schema Mediation in Peer
Data management Systems. ICDE. Bangalore, India.
HAMMER J. & GARCIA-MOLINA H. & W IDOM J. & L ABIO W. & Z UGHE Y. (1995). The Stanford Data Warehousing
Project. In Data Engineering, Special Issue on Materialised Views on Data Warehousing. Vol. 18(2), p. 41-48.
HULL R. & ZHOU G. (1996). A framework for supporting data integration using the materialized and virtual approaches.
In proceedings of the ACM SIGMOD International Conference of the Management of Data. p. 481-492. Montreal,
Canada.
KERSCHBERG L . & W EISHAR D. (2000). Conceptual Models and Architectures for Advanced
Information Systems. Applied Intelligence. Vol. 13(2). p. 149-164.
KERSCHBERG L. (1997). Knowledge Rovers: Cooperative Intelligent Agent Support for Enterprise Information
Architectures. In Cooperative Information Agents. Vol. 1202, LNAI. P. Kandzia & M. Klusch Eds. p. 79-100.
KERSCHBERG L. (1997). The Role of Intelligent Agents in Advanced Information Systems. In Advances in Databases.
Vol. 1271, LNCS. C. Small & P. Douglas & R. Johnson & P. King & N. Martin Eds. p. 1-22.
KIMBALL R. & MERZ R. (2000). The data Webhouse Toolkit : Building the Web-Enabled Data
Warehouse. John Wiley & Sons Inc.
KIMBALL R.. (1996). The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses.
John Wiley & Sons, Inc.
77
Rapport AS « Web sémantique »
KIRK T. & LEVY A. Y. & SAGIV Y. & SRIVASTAVA D. (1995). The Information Manifold. In proceedings of the AAAI
1995 Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments, Stanford
University, California. p. 85-91.
LEVY A. & S RIVASTAVA D. & K IRK T. (1995). Data Model and Query Evaluation in Global
Information Systems. Journal of Intelligent Information Systems. Vol.5. p.121-143.
LEVY A. Y. & R AJARAMAN A. & ORDILLE J. (1996). Query answering algorithms for
information agents. In proceedings of the 13th National Conference on Artificial Intelligence
(AAAI-96). Portland, Oregon. p. 40-47.
MCLLRAITH S. A. & S ON T. C. & Z ENG H. (2001). Semantic Web Services. In IEEE Intelligent
Systems. Special Issue on the Semantic Web. Vol. 16(2). p. 46-53.
MENA E. & KASHYAP V. & SHETH A. & ILLARRAMENDI A. (1996). OBSERVER: An
approach for query processing in global information systems based on interoperation across
pre-existing ontologies. In 4 th Int. Conf. on Cooperative Information Systems. p. 14-25.
Bruessels. Belgium.
R AHM E. & B ERNSTEIN P. A. (2001). A survey of approaches to automatic schema matching,
VLDB Journal. Vol. 10. p.334-350.
ROUSSET M.-Ch. & BIDAULT A. & FROIDEVAUX Ch. & GAGLIARDI H. & GOASDOUE
F. & REYNAUD Ch. & SAFAR B. (2002). Construction de médiateurs pour intégrer des
sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. Vol.2. n°1. p.5-
59.
SUBRAHMANIAN V.S. & ADALI S. & BRINK A. & EMERY R. & LU J. J. & RAJPUT A. &
ROGERS T. J. & ROSS R. & WARD C. (1995). HERMES: A heterogeneous reasoning and
mediator system. Technical Report. Univ. of Maryland.
TERMIER A. & ROUSSET M.-Ch. & SEBAG M. (2002). Treefinder: a first step towards xml
data mining. In International Conference on data Mining ICDM02. Maebashi Terrsa, Maebashi
City, Japan.
ULLMAN V. (1997). Information integration using logical views. In proceedings of the 6th
International Conference on Database Theory (ICDT’97). p. 19-40. Delphi, Greece.
WIEDERHOLD G. (1992). Mediators in the architecture of future information systems, Computer,
Vol. 25(3). p.38-49.
WIENER J. L. & GUPTA H. & LABIO W. J. & ZHUGE Y. & G ARCIA-MOLINA H. & W IDOM J.
(1996). A System Prototype for Warehouse View Maintenance. Proceedings of the ACM
Workshop on Materialized Views: Techniques and Applications. p. 26-33. Montreal, Canada.
XYLEME L. (2001). A dynamic warehaouse for xml data of the web. IEEE Data Engineering
Bulletin. Vol. 24(2). p. 40-47.
ZHOU V & HULL R. & K ING R. & F RANCHITTI J.-C. (1995). Data integration and warehousing
using HO2. IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 18(2) p.
29-40.
ZHOU V & H ULL R . & K ING R . & F RANCHITTI J.-C. (1995). Using Object matching and
materialization to integrate heterogeneous databases. In proceedings of the 3rd International
Conference on Cooperative Information Systems (CoopIS’95). p. 4-18.
ZHOU V & HULL R. & KING R. (1996). Generating Data Integration Mediators That Use
Materialization. In Journal of Intelligent Information Systems. Vol. 6(2). p. 199-221.
http://www.intelligententerprise.com/info_centers/data_int/
http://www.pdit.com/
http://www.datajunction.com/
http://www.hummingbird.com/products/dirs/
http://www.paladyne.com/
78
6 – Adaptation et personnalisation
dans le Web sémantique
S. Garlatti 1, Y. Prié2
1
Département IASC GET - ENST Bretagne
Serge.Garlatti@enst-bretagne.fr
2
LIRIS FRE 2672 CNRS
Université Claude Bernard Lyon 1
yprie@liris.univ-lyon1.fr
Résumé
Au travers d’Internet, un nombre potentiellement infini de services et de
documents est accessible à tous les usagers. La plupart des services et documents
fournis actuellement sur Internet proposent une organisation, un contenu, un mode
d’interaction et une présentation uniques pour tous. Ceci peut être suffisant dans
certains cas. Mais tous les utilisateurs ne sont pas intéressés par les mêmes
informations et n’ont pas les mêmes attentes, connaissances, compétences, centres
d’intérêts, etc. Ils ne sont capables de comprendre ou d’accepter que des services et des
documents dont l’organisation, le contenu, les modes d’interaction et la présentation
sont adaptés à leurs besoins. Parmi les problèmes qui se posent on peut citer :
l’accès à l’information pertinente, la navigation dans un grand espace de ressources et
la compréhension d’une ressource complexe. L’adaptation / personnalisation dans le
«Web sémantique » peut s’appuyer sur les domaines suivants : les hypermédia
adaptatifs, la modélisation utilisateur et les documents virtuels personnalisables. Les
travaux actuels sur l’adaptation dans le Web sémantique peuvent être décomposés en
deux parties : l’une sur les hypermédias adaptatifs et l’autre sur les documents
virtuels adaptatifs. Les futures recherches sur le Web Sémantique pour l’adaptation /
personnalisation peuvent s’articuler autour des cinq points suivants : la modélisation
utilisateur et des utilisations, la protection de la vie privée, la recherche
d’information, les services et documents adaptatifs, et l’ergonomie des services et des
documents.
79
Rapport AS « Web sémantique »
1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES
80
6 – Adaptation et personnalisation dans le Web sémantique
81
Rapport AS « Web sémantique »
82
6 – Adaptation et personnalisation dans le Web sémantique
37
Il n’est pas ici question de générer dynamiquement l’hypermédia et son contenu mais uniquement d’effectuer de
l’adaptation par rapport à un hypermédia préexistant.
83
Rapport AS « Web sémantique »
Fragments
Présentation conditionnels
multimédia
adaptative Pages et fragments
variants
Présentation Présentation
Strechtext
Adaptative adaptative de
texte
Tri de fragments
Adaptation de
modalité
Techniques à base
de frames
Méthodes pour
Hypermédias
Adaptatifs Guidage Direct
Masquage des
Désactivation
Navigation liens
Adaptative
Annotation de
Suppression
liens
Adaptation de
carte
Les travaux de recherche sur les hypermédia adaptatifs qui nous intéressent se sont
principalement portés sur deux axes : l’adaptation de documents hypermédia (des
sites Web – ELMART, AHA, INTERBOOK, etc. ou des applications locales) dont la
structure globale était le plus souvent fixée à priori et sur la recherche d’information
adaptative. Dans tous les cas, l’adaptation de la navigation, du contenu et des
informations retrouvées nécessite des méthodes d’évaluation des liens, des contenus
ou des informations retrouvées qui sont à la base des méthodes d’adaptation qui ont
été proposées.
84
6 – Adaptation et personnalisation dans le Web sémantique
85
Rapport AS « Web sémantique »
documents virtuels comme des documents hypermédia qui sont générés à la demande
en fonction de plusieurs sources d’information et en réponse à une demande de
l’utilisateur (le lecteur) (Gruber, Vemuri et al., 1996). En 1999, lors de la première
conférence sur les documents virtuels, Carolyn Watters et Michael Shepherd (Watters
& Shepherd, 1999) définissent brièvement le document virtuel comme étant un
document qui ne possède pas d’état persistant et pour lequel toutes les instances sont
générées lors de la consultation. Maria Milosavljevic (Milosavljevic, Vitali et al., 1999)
lors de l’introduction de la conférence, précise que le document virtuel est composé
de l’information et des mécanismes nécessaires à la génération du document réel qui
sera consulté par le lecteur. Un document virtuel possède donc les caractéristiques
suivantes :
- réutilisation de différentes sources d’information,
- génération dynamique du document à la demande en fonction de l’utilisateur.
Il correspond à un espace d’information et des mécanismes de génération.
Si un utilisateur peut adapter/personnaliser le document réel produit en fonction de
ses besoins, on parlera de document virtuel personnalisable (DVP), sinon uniquement
de document virtuel. Un document virtuel peut être personnalisé à partir d’au moins
un des trois critères suivants :
- Les contraintes utilisateur sont des données non persistantes définies à partir
d’une requête, d’un formulaire ou d’un simple hyperlien et qui lui sont
propres.
- Le modèle utilisateur : il s’agit d’un ensemble de données persistantes qui
caractérisent un utilisateur ou un groupe d’utilisateurs particuliers. Un tel
modèle peut contenir des caractéristiques sur les connaissances, les
préférences, les objectifs, les centres d’intérêts, etc. d’un utilisateur (Rich,
1989; Brusilovsky, Schwarz et al., 1996).
Le contexte (Brézillon, 2002) : support de lecture, taille d’écran, vitesse de
transfert, conditions géographiques, météorologiques (Garlatti & Iksal, 2000),
etc.
En 1999, Sylvie Ranwez et Michel Crampes définissent les documents virtuels
personnalisables comme les éléments et les mécanismes permettant de réaliser une
construction dynamique de documents adaptatifs. Un DVP peut être considéré
comme un ensemble d’éléments (ou fragments) associé à des mécanismes de filtrage,
d’organisation et d’assemblage sous contraintes, c’est-à-dire en respectant un modèle
de l’utilisateur et des principes narratifs (Ranwez & Crampes, 1999). Bien souvent,
l’organisation et la sélection de fragments pertinents nécessitent des mécanismes de
recherche d’information et de filtrage qui utilisent entre autres les index des
fragments. L’indexation des fragments peut aller de l’utilisation d’un simple concept
issu d’un modèle de domaine à celle plus complexe d’un schéma de méta-données.
La caractérisation de ces fragments et de leur indexation ne peut pas être séparée de
celle des mécanismes d’un DVP. En effet, un DVP est fondé sur deux étapes
principales qui sont indissociables : la spécification et la composition du document
réel. La spécification d’un DVP, c’est l’ensemble des informations nécessaires au
système pour composer le document. Cette étape dépend bien évidemment des
principes mis en oeuvre dans la composition. Elle permet au minimum aux auteurs
d’un DVP de définir les fragments (nature, granularité et indexation), mais aussi les
règles d’organisation et d’assemblage. Les deux dernières ne sont pas toujours
accessibles aux auteurs. La composition a pour objet la construction d’un document
réel à partir d’une spécification et des critères de personnalisation. Spécification et
composition sont en quelque sorte deux faces d’une même pièce ; elles ne peuvent
être conçues l’une sans l’autre et forment un tout indissociable.
Dans le cadre des documents virtuels personnalisables sur Internet qui génèrent des
hypermédias, il est intéressant de prendre en compte les méthodes et techniques
86
6 – Adaptation et personnalisation dans le Web sémantique
Les travaux actuels sur l’adaptation dans le Web sémantique peuvent être
décomposés en deux parties : l’une sur les hypermédias adaptatifs et l’autre sur les
documents virtuels adaptatifs. Dans le domaine des hypermédias adaptatifs de
nombreux travaux sont en cours sur l’adaptation au support physique et aux
préférences de l’utilisateur. Le système Cuypers a pour objet la génération
automatique de présentations hypermédia temporelles adaptées aux préférences et
capacités des utilisateurs et du support physique (Ossenbruggen, Hardman et al.,
2001). La méthodologie Hera a été utilisée pour la conception de systèmes
d’information intelligents et adaptatifs sur Internet. L’adaptation se fait par rapport
au support physique et à l’historique de navigation des utilisateurs (Frassincar &
Houben, 2002). Des travaux sont également en cours sur des systèmes adaptatifs à
l’initiative de l’utilisateur (Aragão, Fernandes et al., 2001). Dans le domaine des
documents virtuels personnalisables, on peut citer des travaux sur la création de
mémoires d’entreprise (Fortier & Kassel, 2002), ainsi que le projet RNRT KMP
(Knowledge Management Portal), les dossiers thématiques personnalisables (Iksal &
Garlatti 2001; Iksal, Garlatti et al., 2001) (projet ICCARS) (Iksal, 2002) et le E-
learning (Projet Candle, http://www.candle.eu.org/). Dans la cadre des prochains
workshops intitulé Adaptive Hypermedia and Adaptive Web-Based Systems
(http://wwwis.win.tue.nl/ah2003/) d’autres travaux seront présentés.
Il existe actuellement de nombreux travaux sur la description des politiques de gestion
des données utilisateur – publiques/privées : travaux du W3C autour de P3P
(http://www.w3c.org/P3P/) (possibilité de comprendre et de gérer l’utilisation de ses
données personnelles).
87
Rapport AS « Web sémantique »
En effet, si nous pouvons espérer dans l’avenir disposer de nombreux services et/ou
documents adaptatifs, il sera nécessaire d’avoir accès à différentes catégories de
modèles utilisateur/utilisation qui ne seront sans doute pas sans intersection commune.
Il en de même aujourd’hui pour les méta-données puisque différents schémas de
méta-données ont des champs qui sont communs et d’autres qui différent. Il sera
donc nécessaire de standardiser certains modèles.
Actuellement, la plupart des méthodes d’analyse du comportement des utilisateurs
sur le Web pose le problème du passage à l’échelle et du choix des critères pertinents
à analyser. En fait, on peut disposer d’énormes quantités de données, mais il est
difficile de savoir comment les analyser et lesquelles sont pertinentes pour un objectif
donné des utilisateurs et/ou des concepteurs. Il y a donc un réel problème pour
l’acquisition et la maintenance des modèles utilisateur – dynamiques et/ou statiques,
ainsi que pour l’acquisition de connaissances sur les utilisateurs/utilisations par
observation de comportements. Il s’agit notamment ici de développer des
observatoires des usages, et de mettre en place des outils permettant de saisir des
utilisations significatives, et non de simples « logs ininterprétables ». A partir de ces
observatoires, il faudrait pouvoir déterminer les paramètres pertinents à observer chez
les utilisateurs par classe de services et en déduire des standards de modèles utilisateur
qui seraient réutilisables et partageables.
88
6 – Adaptation et personnalisation dans le Web sémantique
des méthodes d’évaluation des ressources qui devront prendre en compte des schémas
de méta-donnés, des modèles utilisateur et des méthodes d’adaptation qui devront
tous être « standardisés » - ontologies pour les schémas de méta-données, les modèles
utilisateurs et les modèles d’adaptation.
RÉFÉRENCES
89
Rapport AS « Web sémantique »
90
6 – Adaptation et personnalisation dans le Web sémantique
MILOSAVLJEVIC M., V ITALI F. et al. (1999). Introduction of the virtual document workshop.
Workshop on Virtual Document, Hypertext Functionality & the Web, Toronto.
OBERLANDER J. & M ILASAVLJEVIC M. (1997). Flexible Hypertext - introduction. Hypertext’97,
Proceedings of Flexible Hypertext Workshop , Southampton, UK.
OSSENBRUGGEN J. R. V., H ARDMAN H. L. et al. (2001). Hypermedia and the semantic web: a
research agenda, Centrum voor Wiskunde in Informatica.
R ANWEZ S . & C RAMPES M. (1999). Conceptual document and hypertext documents are two
different forms of virtual document. Workshop on Virtual Document, Hypertext
Functionality and the Web, Toronto.
R ICH E. (1989). Stereotypes and user modeling. user models in dialog systems. A. Kobsa & W.
Wahlster. Berlin, Springer verlag: 35-51.
THÜRING M., HANNEMANN J. et al. (1995). “Hypermedia & Cognition: Designing for
Comprehension.” Communication of the ACM 38(8): 57-66.
TRICOT A. & NANARD J. (1997). Un point sur la modélisation des tâches de recherche
d’informations dans le domaine des hypermédias. Hypertextes and Hypermédia. J. P.
Balpe, A. Lelu, M. Nanrd & I. Saleh, Hermes: 35-56.
VASSILEVA J. (1996). “A Task-Centered Approach for user Modeling in a hypermedia Office
Documentation system.” User Models & User Adapted Interaction (6): 185-223.
WATTERS C. & S HEPHERD M. (1999). Research issues for virtual documents. Workshop on
Virtual Document, Hypertext Functionality & the Web, Toronto.
91
7 – Les web services sémantiques
Patrick Kellert et Farouk Toumani
Résumé
Les web services sémantiques se situent à la convergence de deux domaines de
recherche importants qui concernent les technologies de l’Internet, à savoir le web
sémantique et les web services. Ce chapitre s’efforce de définir le concept de web
service sémantique et son apport potentiel aux technologies existantes (web services
et workflow). Un recensement des problématiques de recherche actuelles est proposé
et des directions pour les recherches futures dans ce domaine sont suggérées.
M o t s - c l é s : Web services, Web sémantique, Ontologies, QoS, E-Workflow.
1 P RÉSENTATION ET IMPORTANCE DE LA
PROBLÉMATIQUE DU POINT DE VUE DES USAGES
Les web services sémantiques (DAML Services Coalition, 2002 ; Fensel et al.,
2002 ; McIlraith et al., 2001) se situent à la convergence de deux domaines de
recherche importants qui concernent les technologies de l’Internet : le Web
sémantique et les web services. Le Web sémantique s’intéresse principalement aux
informations statiques disponibles sur le Web et les moyens de les décrire de manière
intelligible pour les machines (cf. l’introduction et le chapitre 2 sur les langages). Les
web services, quant à eux, ont pour préoccupation première l’interopérabilité entre
applications via le Web en vue de rendre le Web plus dynamique.
La notion de «web service» désigne essentiellement une application (un
programme) mise à disposition sur Internet par un fournisseur de service, et accessible
par les clients à travers des protocoles Internet standards (Fensel et al., 2002 ; Casati &
93
Rapport AS « Web sémantique »
94
7 – Les web services sémantiques
Les web services tendent à devenir un domaine de recherche à part entière qui
suscite beaucoup d’intérêt de la part de chercheurs de communautés très variées. On
peut citer à titre d’exemple, le génie logiciel, les workflows, les bases de données, la
modélisation d’entreprises, la représentation des connaissances ou les multi-agents.
Cependant, on constate aujourd’hui que la littérature scientifique traitant des web
services est trop dispersée. Il en résulte une absence d’unification et d’intégration de
ses concepts rendant, tout au moins actuellement, difficile une appréhension globale et
synthétique de ce domaine. Ce phénomène est accentué par la diversité (et parfois
l’inconsistance) des visions proposées par les différentes communautés de recherche.
En effet, à l’exception du consensus constaté autour de l’infrastructure de base qui ne
concerne que les couches basses de la pile des web services (descriptions techniques
pour assurer l’interopérabilité), des divergences de vues sur le rôle et le contenu des
couches hautes de la pile (e.g., les relations entre les web services, les business
processes et les workflows) apparaissent clairement dans la littérature. Ce point est
important car il interpelle directement les problèmes d’intégration de processus
d’entreprises, i.e., une intégration effectuée à un haut niveau d’abstraction en
s’appuyant sur la sémantique des services. Ce type d’intégration constitue un des
apports les plus prometteurs de l’approche web services. C’est la raison pour laquelle,
dans la suite de cette section, nous présentons d’abord l’infrastructure de base des
web services. Nous abordons ensuite, à travers la notion de pile conceptuelle des web
services, les différents problèmes liés à la définition et la modélisation des contenus
des couches hautes de cette pile.
Techniquement, un web service peut donc être perçu comme étant une interface
décrivant une collection d’opérations accessibles via le réseau à travers des messages
XML standardisés. D’un point de vue technique, la description d’un web service
inclut tous les détails nécessaires à l’interaction avec le service comme, par exemples,
le format des messages, les signatures des opérations, le protocole de transport et la
localisation du service. Les web services s’appuient sur des mécanismes et des
protocoles standards et sont donc indépendants des langages de programmation (Java,
95
Rapport AS « Web sémantique »
J#, C++, Perl, C#, etc.), du modèle objet (COM, EJB, etc.) ainsi que des plates-formes
d’implémentation (J2EE, .NET, etc.).
Client
§ Recherche/localisation Annuaire de services
§ Lier(bind)/connecter 2- Rechercher WSDL (e.g., UDDI)
§ Invocation
service/méthodes
4- invoquer (SOAP)
Fournisseur de services
§ Implémentation
§ Déploiement
§ Description et publication 1- Publier (WSDL)
3- Lier/connecter
Les interactions de base entre ces trois rôles incluent les opérations de publication,
de recherche et de liens (bind) d’opérations. Nous décrivons ci-dessous un scénario
type d’utilisation de cette architecture. Le fournisseur de services définit la description
de son service et la publie dans un annuaire de service. Le client utilise les facilités de
recherche disponibles au niveau de l’annuaire pour retrouver et sélectionner un
service donné. Il examine ensuite la description du service sélectionné pour récupérer
les informations nécessaires lui permettant de se connecter au fournisseur du service et
d’interagir avec l’implémentation du service considéré.
96
7 – Les web services sémantiques
38
Un processus opérationnel inter-organisationnel est un processus organisationnel dont au moins une activité est sous-
traitée par une organisation différente de celle qui est propriétaire de ce processus opérationnel.
97
Rapport AS « Web sémantique »
39
La notion de travail de groupe supporté par un outil de type système workflow est différente de celle de travail en
groupe supporté par un outil de type collecticiel. La différence entre système workflow et collecticiel, est que les
systèmes workflow prennent efficacement en charge la communication asynchrone entre les activités — c’est la prise
en charge du processus en cours —, contrairement aux collecticiels qui eux, privilégient l’aspect communication
synchrone — c’est la prise en charge de l’activité en cours.
98
7 – Les web services sémantiques
40
Un workflow inter-organisationnel est l’implantation d’un processus opérationnel inter-organisationnel.
99
Rapport AS « Web sémantique »
Business Process A
BPEL4WS, BPML, WSFL, … S 1 D
E M
T I
C R
Discovery U N Q
A I o
UDDI R N
I S S
S T
T A
E R
Description C A
WSDL T T
I I
O O
N N
Exchange S
SOAP
Transport
HTTP/HTTPR, SMTP/MIME, MOM/JMS …
100
7 – Les web services sémantiques
L’utilisation intensive des standards, d’une part, et celle du langage XML, d’autre
part, constituent les deux caractéristiques fondamentales de la technologie des web
services. Par conséquent, les différentes spécifications d’un web service peuvent être
facilement traitées par une machine. Par exemple, une description WSDL peut être
automatiquement analysée par un parseur XML pour générer un proxy client (i.e., le
code du stub client) facilitant ainsi la tâche du programmeur lors de l’implantation de
son application. Cependant, le consensus sur la mécanique des interactions (e.g.,
format des messages, types des données et protocoles d’échanges) n’est pas suffisant
pour permettre aux web services d’interagir de manière claire et non ambiguë. Par
exemple, deux descriptions XML identiques peuvent avoir des significations
différentes selon le contexte (Paolucci et al., 2002 ; http://www.w3.org/TR/webont-req).
L’absence d’une sémantique explicite limite les possibilités d’automatisation des web
services (DAML Services Coalition, 2002 ; Fensel et al. 2002 ; Benatallah et al.,
2003). Pour pallier cette limitation, il y a clairement un besoin de langages de
descriptions des services qui permettent de conférer une signification explicite et non
ambiguë aux descriptions des web services. Par exemple, la nouvelle version du
langage WSDL préconisé par le W3C permet de définir la sémantique des termes
utilisés dans une description WSDL en référençant des ontologies RDF. La figure X3
ci-dessous reprend la pile des web services augmentée d’une couche représentant la
sémantique. Cette couche peut être exploitée par les trois couches horizontales
supérieures (description, découverte et business processus) ainsi que par certaines
couches verticales telles que les couches transactions ou QoS.
Business Process A
2 BPEL4WS, BPML, WSFL, … S D
12
E M
3 T
C I
R N Q
4 Discovery U A I o
UDDI R
5 N S S
I S
6 T T
A R
Description E C
7 A
WSDL T T
8 I I
9 O O
N N
10 Exchange S
SOAP
11
Transport
HTTP/HTTPR, SMTP/MIME, MOM/JMS …
Figure X3- Pile des web services sémantiques
101
Rapport AS « Web sémantique »
Notons qu’une condition sine qua non pour permettre une automatisation effective
des web services est que la sémantique de ces derniers soit décrite dans un langage qui
la rend intelligible pour une machine.
De manière générale, la problématique de l’automatisation sous-tend deux classes
de problèmes :
- Problèmes de modélisation : il s’agit d’abord d’identifier et de classifier les
connaissances pertinentes en fonction d’un ensemble de fonctionnalités visées
(e.g., découverte, composition, évaluation des performances, etc.) puis
d’étudier ensuite comment les décrire de manière formelle et standard. Dans
ce contexte, la notion d’ontologie en tant que conceptualisation formelle et
consensuelle d’un domaine donné, peut jouer un rôle important pour associer
une sémantique formelle à la description d’un web service.
- Problèmes d’automatisation : il s’agit de développer des algorithmes et des
mécanismes de raisonnement exploitant la sémantique des services pour
automatiser les différentes fonctionnalités (e.g., découverte de service,
composition, évaluation de performances).
Nous décrivons ci-dessous quelques travaux de recherche relatifs à ces deux classes
de problèmes.
3.1.2 WSFM
WSFM est un cadre complet de description de services proposé dans le cadre du
projet européen SWWS41 . Il s’appuie sur les deux principes suivants :
- Découplage fort des divers composants qui réalisent une application de
commerce électronique. Ceci implique une distinction claire entre les
descriptions internes d’un service et ses descriptions publiques.
- Des mécanismes de médiation permettant un dialogue automatique entre les
différents composants. De tels mécanismes incluent la médiation entre
différentes terminologies ainsi que la médiation entre différents modèles
d’interaction.
41
http://swws.semanticweb.org
102
7 – Les web services sémantiques
103
Rapport AS « Web sémantique »
42
par exemple, le temps de réponse du système, c’est-à-dire le temps qui s’écoule entre la date de soumission d’un
travail au système et celle de la fin d’exécution de cette tâche
43
par exemple, le débit du système qui mesure le taux de productivité du système relativement à sa charge, ou encore
les taux d’occupation de ses ressources qui aident à identifier les goulets d’étranglement du système
44
Sécurité, intégrité des informations, traçabilité des opérations, audits de sécurité, contrôle, filtrage et supervision des
accès
45
délai, gigue ou variation du délai de bout en bout, débit maximum atteint, disponibilité ou taux moyen d’erreurs d’une
liaison
46
absence de verrous mortels dans un web-service, validation d’un web-service ou test que le web-service
se comporte comme attendu, vérification de l’existence de certaines propriétés d’un web-service
104
7 – Les web services sémantiques
47
durée moyenne de réalisation d’un web-service, taux moyen d’échecs d’un web-service, coût moyen
d’un web-service
105
Rapport AS « Web sémantique »
technique pour alimenter le modèle QoS qu’ils proposent. Brièvement, leur modèle
fournit une approche multidimensionnelle pour la découverte de web services et leur
intégration à l’aide de métriques syntaxiques, sémantiques et comporte des métriques
opérationnelles principales (ou dimensions) qui sont le temps, le coût, la fiabilité et la
fidélité, ces métriques étant calculées automatiquement. Selon les auteurs, ce modèle
QoS offre la possibilité de construire des e-workflows interopérables grâce, en
particulier, à l’utilisation d’ontologies pour décrire les interfaces entre les tâches d’un
e-workflow et les web services exploités par ce e-workflow. Le modèle QoS proposé
permet également de calculer la QoS d’un e-workflow à partir des attributs (ou
métriques) de ses composants selon deux techniques : (i) en utilisant une modélisation
mathématique (Cardoso, 2002a ; Cardoso, 2002b), qui est une méthode de réduction
de workflow stochastiques qui consiste à appliquer un ensemble de règles de
réduction à un workflow jusqu’à ce que ce workflow se réduise à une tâche atomique
(Kochut et al., 1999), (ii) en utilisant la simulation aléatoire à événements discrets
(Nair et al., 1996 ; Miller et al., 1997 ; Miller et al., 2000). Le choix d’une de ces
techniques dépend essentiellement du compromis entre le temps de calcul des QoS
d’un e-workflow et la qualité des résultats obtenus.
Dans (Klingemann et al., 1999 ; Klingemann et al., 1998), les auteurs proposent
d’évaluer les performances quantitatives d’un web service avec des chaînes de Markov
à temps continu et espace d’état discret. Le problème (fondamental) pour modéliser
un service inter-organisationnel et en accord avec (Cardoso et al., 2002), est que l’on
ne le maîtrise pas explicitement. Il est donc nécessaire de collecter des informations
concernant ce service pendant son exécution (ce service étant réalisé par un
fournisseur de services). Une hypothèse forte est alors que le comportement observé
d’un service représente son comportement futur (l’objectif étant de faire des
prédictions). Dans ces travaux, un service est constitué d’un ensemble de tâche qui
pourront être activées lors d’une exécution de ce service. Les auteurs définissent l’état
d’un service (observé) comme l’ensemble des tâches actives d’un service à un instant
donné. L’exécution d’un service est alors modélisée par une chaîne de Markov dont
les états sont obtenus à partir du journal de ce service et dont les caractéristiques sont
calculées par un processus d’agrégation des données (Klingemann et al., 1998).
Dans le contexte des web services sémantiques, la motivation de recherche réside
dans la possibilité d’intégrer, dans un modèle d’évaluation des performances d’un
web service, des aspects sémantiques permettant d’identifier de nouveaux critères de
qualité d’un web service et de retenir ces critères dans la mise en œuvre effective d’un
web service pour la découverte et la composition dynamique de web services.
L’aspect sémantique pour les web services n’est actuellement considéré par les
chercheurs qu’au niveau des tâches d’un e-workflow. Il serait peut-être opportun
d’étendre ce concept de sémantique à d’autres fonctions de l’entreprise, c’est-à-dire
de réfléchir à quels peuvent être les impacts, par exemple financiers, des web services
sémantiques. Cela reviendrait alors à raisonner, non plus sur des critères de
performances d’un e-workflow, mais sur des indicateurs de performances perçus
comme pertinents par les décideurs d’une entreprise, indicateurs bien sûr qu’il reste
aujourd’hui à identifier et à construire. Pour y parvenir, nous pensons qu’il devra être
nécessaire d’intégrer, entre autres, la notion d’échelle de temps dans les ontologies
des métriques QoS des web services sémantiques et d’étudier leurs conséquences sur
les problèmes d’évaluation qui ne manqueront pas de surgir lorsque l’échelle de
temps des indicateurs et celles des critères se rapprocheront.
4 C ONCLUSION
106
7 – Les web services sémantiques
les différentes tâches liées au cycle de vie d’un service. Ils apparaissent donc
indispensables pour permettre une utilisation effective des web services dans des
applications industrielles (e.g., problème du passage à l’échelle, versatilité du Web,
etc.). Ils posent aujourd’hui un certain nombre de problèmes, qui interpellent
différentes communautés de recherche, aussi bien théoriques qu’appliqués. Le
nombre de nouvelles revues, le volume important de publications et de projets dédiés
à ce thème dénotent une vitalité réelle de ce domaine de recherche émergent.
Cependant, on remarque que la tendance actuelle des communautés de recherche
s’intéressant aux web services sémantiques est de ne pas tenir compte explicitement
des caractéristiques fondamentales des web services et de l’environnement dans lequel
ils doivent s’intégrer (e.g., les e-workflows). A notre avis, le succès de cette voie de
recherche dépendra étroitement de sa capacité, entre autres, à tenir compte des
facteurs suivants :
- Les travaux de recherche devront intégrer le plus possible les caractéristiques
des futurs standards actuellement en cours d’élaboration, les éditeurs de
logiciels (e.g., IBM, Microsoft…) étant fortement impliqués dans cette tâche.
Ils doivent donc s’efforcer d’exploiter/compléter ces futurs standards et non
pas ignorer leur existence ou les concurrencer. De la même manière, il est
important de bien identifier les contraintes imposées par les fonctions
d’entreprise afin de resituer les problématiques de recherche.
- La volonté d’automatiser à outrance n’est certainement pas une voie réaliste.
Certains travaux de recherche semblent faire abstraction de la complexité du
contexte de l’intégration de par les hypothèses simplificatrices fortes qu’ils
imposent dans leurs solutions. En effet, le contexte de l’intégration
fonctionnelle est tel que de nombreuses tâches doivent rester à la charge
d’humains. Il est, par exemple, illusoire de vouloir automatiser complètement
la gestion d’une chaîne logistique. Par ailleurs, comme le souligne (Reijers,
2003) pour les workflows, la dimension temps est une composante
fondamentale à prendre en compte pour l’automatisation des web services
sémantiques. Dans ce sens, l’intégration d’un web service sémantique dans un
e-workflow n’a de sens que s’il est pertinent et réaliste d’automatiser les
tâches de ce web service de sorte à apporter de la valeur ajoutée au e-
workflow.
- Le concept de sémantique tel que défini dans le contexte du Web sémantique,
i.e., décrire la sémantique de manière à la rendre intelligible pour les
machines, semble trop restrictif. En effet, il est également très important
d’expliciter la sémantique des web services en vue de faciliter leur utilisation
par les humains, même pour les situations où l’automatisation ne semble pas
réaliste. Il est notoire que dans le domaine des bases de données par exemple,
les modèles sémantiques (e.g., le modèle Entité/Association de Chen) ont été
proposés à l’origine pour faciliter la compréhension de la sémantique des
données d’un système d’information par les humains. Ces modèles se sont
avérés très utiles par la suite pour automatiser partiellement le processus de
conception d’une base de données.
RÉFÉRENCES
F. B AADER , D. C ALVANESE, D. M CGUINNESS, D. NARDI & P.F. P ATEL-SCHNEIDER, (editors)
(2003). The Description Logic Handbook. Theory, Implementation and Applications,
Cambridge University Press, 574 pages.
B. BENATALLAH , M-S. H ACID, C. R EY & F. T OUMANI (2003). Semantic Reasoning for Web
Services Discovery, WWW Workshop on E-Services and the Semantic Web, Budapest,
Hungary.
107
Rapport AS « Web sémantique »
A. B ERNSTEIN & M. KLEIN (2002). Discovering Services: Towards High Precision Service
Retrieval. In CaiSE workshop on Web Services, e-Business, and the Semantic Web:
Foundations, Models, Architecture, Engineering and Applications. Toronto, Canada.
T. B ULTAN, X. F U, R. H ULL & J . S U (2003). Conversation specification: a new approach to
design and analysis of e-service composition. WWW 2003: 403-410.
C. BUSSLER (1996). Workflow-Management-Systems as enterprise engineering tools, in
Modelling and methodologies for enterprise integration, Edited by Bernus, P. and Nemes, L.,
234-247, Chapman & Hall.
J. C ARDOSO (2002a). Stochastic Workflow Reduction Algorithm. LSDIS Lab, Department of
Computer Science, University of Georgia.
J. C ARDOSO (2002b). Workflow Quality of Service and Semantic Workflow Composition. Ph.D.
Dissertation. Department of Computer Science, University of Georgia, Athens, GA.
J. C ARDOSO, J. M ILLER, A. S HETH & J. A RNOLF (2002). Modeling Quality of Service for
workflows and Web Service Processes. Technical Report# 02-2002, LSDIS Lab. Computer
Science, University of Georgia, 44 pages.
F. C ASATI & M-C. S HAN (2001). Models and Languages for Describing and Discovering E-
Services. In ACM SIGMOD, Santa Barbara, USA.
D. CHAKRABORTY, F. P ERICH, S. A VANCHA, & A. J OSHI (2001). DReggie: Semantic Service
Discovery for M-Commerce Applications. In Workshop on Reliable and Secure Applications
in Mobile Environment, 20th Symposium on Reliable Distributed Systems, pages 28–31.
D. C LARK, S. S HENKER & L. ZHANG (1992). Supporting Real-Time Applications in an
Integrated Services Packet Network: Architecture and Mechanism. Proceedings of ACM
SIGCOMM, pp. 14-26.
R.L. C RUZ (1995). Quality of service guarantees in virtual circuit switched networks. IEEE J.
Select. Areas Commun. 13(6): p.1048-1056.
DAML Services Coalition (2002). DAML-S: Web Service Description for the Semantic Web. In
The First International Semantic Web Conference (ISWC), pages 348–363.
M. D IAZ (2001). Les réseaux de Petri. Hermès.
D. F ENSEL, C. B USSLER, & A . M AEDCHE (2002). Semantic Web Enabled Web Services. In
International Semantic Web Conference, Sardinia, Italy, pages 1–2.
S. F ORLUND & J. K OISTINEN (1998). Quality-of-Service Specification in Distributed Object
Systems. Distributed Systems Engineering Journal 5(4).
D.A. GARVIN (1998). The Processes of Organization and Management. Sloan Management
Review, Summer, 33-50.
L. G EORGIADIS, R. G UERIN, V. P ERIS & K. S IVARAJAN (1996). Efficient QoS Provisioning
Based on Per Node Traffic Shaping. IEEE ACM Transactions on Networking 4(4):482-501.
J. GONZÀLEZ-CASTILLO, D. TRASTOUR, & C. BARTOLINI (2001). Description Logics for
Matchmaking of Services. In KI-2001 Workshop on Applications of Description Logics
Vienna, Austria, Sep. http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-
44/.
K. D. GOTTSCHALK, S. G RAHAM, H. KREGER & J. S NELL (2002). Introduction to Web services
architecture. IBM Systems Journal 41(2): 170-177.
P. G REFEN, K. A BERER, Y. H OFFNER & H. L UDWIG (2000). CrossFlow: cross-organisational
workflow management in dynamic virtual enterprises. International Journal of Computer
Systems Science & Engineering, vol. 15, N°5, 277-290.
M.S. H ACID, A. L EGER, C. R EY & F. T OUMANI (2002). Dynamic discovery of e-services: A
description logics based approach, BDA’2002, Paris, 21—25.
J. HENDLER & D. L. MCGUINNESS (2000). The DARPA Agent Markup Language. IEEE
Intelligent Systems, 15(6):67–73.
J. H ENDLER, D. N AU, B. P ARSIA, E . S IRIN & D. W U (2003). Automating DAML-S Web
Services Composition Using SHOP2. à paraître dans ISWC’03.
108
7 – Les web services sémantiques
M.A. HILTUNEN, R. S CHLICHTING, C.A. U GARTE & G.T. W ONG (2000). Survivability through
Customization and Adaptability: The Cactus Approach. DARPA Information Survivability
Conference and Exposition (DISCEX 2000), pp. 294-307.
I. H ORROCKS, P.F.P ATEL-SCHNEIDER, & F . VAN HARMELEN (2002a). Reviewing the Design
of DAML+OIL: An Ontology Language for the Semantic Web. In Proc. of the 18th Nat.
Conf. on Artificial Intelligence (AAAI), 792-797.
I. H ORROCKS (2002b). DAML+OIL: A Reasonable Web Ontology Language. In Proc. of the
EDBT’2002 Prague, Czech Republic, pages 2–13.
R. H ULL, M. B ENEDIKT, V . C HRISTOPHIDES & J . S U (2003). E-services: a look behind the
curtain. PODS 2003, 1-14.
J. K LINGEMANN, J. WÄSCH & K. ABERER (1998). Adaptative outsourcing in cross-organizational
workflows. GMD Report 30, GMD – German National Research Center for Information
Technology.
J. KLINGEMANN, J. WÄSCH & K. ABERER (1999). Deriving Service Models in Cross-
Organizational Workflows. Procs. 9th Int. Worksh. Research Issues in Data Eng., Sydney,
Australia.
K.J. KOCHUT, A.P. S HETH & J.A. MILLER (1999). ORBwork: A CORBA-Based Fully
Distributed, Scalable and Dynamic Workflow Enactment Service for METEOR. Large Scale
Distributed Information Systems Lab, Department of Computer Science, University of
Georgia, Athens, GA.
E. M. M AXIMILIEN & M.P. S INGH, (2001). Conceptual Model of Web Service Reputation,
SIGMOD Record 31(4): 36-41
MCC READY (1992). There is more than one kind of workflow software. Computerworld,
November 2: 86-90.
S. MCILRAITH, T.C. S ON, & H. ZENG (2001). Semantic Web Services. IEEE Intelligent
Systems. Special Issue on the Semantic Web, 16(2):46–53.
D.A. M ENASCÉ & V.A.F. A LMEIDA (1998). Capacity Planning for WEB PERFORMANCE.
Prentice Hall.
J.A. M ILLER, R . N AIR, Z. Z HANG & H. Z HAO (1997). JSIM: A Java-Based Simulation and
Animation Environment. Proceedings of the 30th Annual Simulation Symposium, Atlanta,
GA., 786-793.
J.A. MILLER, A.F. S EILA & X. X IANG (2000). The JSIM Web-based Simulation Environment.
Future Generation Computer Systems: Special Issue on Web-Based Modeling and Simulation,
17(2): 119-133.
A.V. M OORSEL (2001). Metrics for the Internet Age: Quality of Experience and Quality of
Business. Technical Report HPL-2001-179, HP Labs, August 2001. Also published in 5th
Performability Workshop, Erlangen, Germany.
J.D. M USA (1993). Operational Profiles in Software-Reliability Engineering. IEEE Software,
10(2): 14-32.
J.D. Musa (1999). Software reliability engineering: more reliable software, faster development and
testing. New York, McGraw-Hill.
R. NAIR, J.A. MILLER & Z. ZHANG (1996). A Java-Based Query Driven Simulation
Environment. Proceedings of the 1996 Winter Simulation Conference, Colorado, CA., 786-
793.
S. N ARAYANAN & S. M CILRAITH (2002). Simulation, Verification and Automated Composition
of Web Services, Eleventh International World Wide Web Conference (WWW2002), Honolulu.
J. 0’SULLIVAN, D. E DMOND & A. TER HOFSTEDE (2002). What’s in a Service? Distributed and
Parallel Databases, 1 2(2-3), p. 117-133.
M. P AOLUCCI, T. K AWAMURA, T.R. P AYNE, & K.P. S YCARA (2002). Semantic Matching of
Web Services Capabilities. In Int. Semantic Web Conference, Sardinia, Italy, pages 333–347.
109
Rapport AS « Web sémantique »
T.R. P AYNE, M. P AOLUCCI, & K. S YCARA (2001). Advertising and Matching DAML-S Service
Descriptions (position paper). In International Semantic Web Working Symposium, Stanford
University, California, USA.
H.A R EIJERS, (2003). Design and control of workflow processes, LNCS 2617, Springer-verlag,
Berlin Heidelberg, 1-29.
A.-W. S CHEER (1992). Architecture of Integrated Information Systems. Springer-Verlag, Berlin.
A.-W. S CHEER (1999). ARIS – Busines Process Frameworks. Third Edition, Springer-Verlag,
Berlin.
A.-W. S CHEER (2000). ARIS – Busines Process Modeling. Third Edition, Springer-Verlag, Berlin.
M. S TAL (2002). Web Services: Beyond Component-Based Computing, Com. of The ACM,
45(10), 71-76.
E.A S TOHR & J.L. ZHAO (2001). Workflow Automation: Overview and Research Issues.
Information Systems Frontiers, Kluwer Academic Publishers, 3:3, 281-296.
F.B. V ERNADAT (1993). CIMOSA: Enterprise Modelling and Integration Using a Process-based
Approach, In: DIISM.
F.B. VERNADAT (1996). Enterprise modelling and integration: principles and applications,
Editions Chapman & Hall.
T.J. W ILLIAMS (1994). The Purdue Enterprise Reference Architecture. Computers in Industry,
24(2-3), 141, 158.
T.J. WILLIAMS (1995). Development of GERAM, a Generic Enterprise Reference Architecture and
Enterprise Integration Methodology. In Integrated Manufacturing Systems Engineering (P.
Ladet and F.B. Vernadat, eds), Chapman & Hall, London, UK, 279-288.
L. Z ENG, B. B ENATALLAH, M. D UMAS, J. K ALAGNANAM & Q. S HENG (2003). Quality-driven
Web Service Composition. In Proc. of 14th International Conference on World Wide Web
(WWW’03), Budapest, Hungary, p. 411-421, ACM Press.
110
8 – Applications du Web sémantique
Alain Léger1 et Jean Charlet2
1
France Telecom R&D, 4, rue du Clos Courtel, 35512 Cesson - France
2
Mission de recherche STIM, DPA/AP-HP & Université Paris 6 - France
alain.leger@rd.francetelecom.com
charlet@biomath.jussieu.fr
Résumé
Les technologies du web sémantique sont de plus en plus appliquées à un large
spectre d’applications au sein desquelles une connaissance de domaine est modélisée
et formalisée (ontologie) afin de servir de support à des traitements très diversifiés
(raisonnements) effectués par des machines. En outre, ces représentations peuvent-
être rendues compréhensibles par l’homme pour assurer un couplage optimal entre
raisonnements humains (cognitifs) et mécaniques (sémantique formelle) confiant à
l’homme et à la machine des tâches complémentaires.
Pour citer quelques-unes de ces applications : Portails d’entreprises et Mémoire
d’entreprises, E-Commerce, E-Work, Traitement Automatique des Langues et
Traduction Automatique, Recherche d’Information, Intégration d’Entreprises et E-
Work, Communautés d’Intérêts, Data Mining, etc. D’un point de vue économique et
sociétal, cette technologie doit pouvoir contribuer à la croissance économique, en
permettant aux entreprises d’inter-fonctionner plus aisément et de trouver plus
rapidement de nouvelles et meilleures opportunités de marchés, mais également
contribuer à la société civile dans sa vie quotidienne au travail et pour ses loisirs.
Au carrefour d’une maturité technologie émergente et d’une pression économique
pressentant des gains potentiels et l’élargissement ou la création de nouveaux
marchés, se manifeste un intérêt croissant pour l’évaluation des technologies du Web
sémantique sous l’angle des coûts et bénéfices mesurables qu’offre cette nouvelle
technologie. Une première étape dans la mesure objective de l’intérêt de cette
nouvelle technologie est d’en présenter simplement de premiers résultats pré-
industriels pour des applications prototypes les plus prometteuses. C’est bien
l’objectif de ce document qui essaie de tracer les résultats les plus significatifs et les
plus lisibles à ce jour.
M o t s - c l é s : Web sémantique, ontologies, applications, évaluation.
111
Rapport AS « Web sémantique »
1 INTRODUCTION
2 E-C OMMERCE
112
8 – Applications du Web sémantique
Actuellement, les systèmes à base d’ontologies apparaissent comme une technologie clé pour le développement de
solutions d’E-Commerce efficaces, ouvertes et profitables. Cependant, par manque de normes de modèles de domaine et
de processus métier dans les plus larges secteurs économiques, le E-Commerce peine à décoller.
En effet, la variété d’entreprises et de solutions de commerce électronique déployées faisant usage de configurations
d’échanges très diversifiées, associée au manque de fiabilité et de sécurité sur Internet, rendent impossible le passage à
l’échelle par l’intégration et l’inter-fonctionnement de ces différentes solutions.
Pour des services de pages jaunes ou des catalogues de produits, une représentation
structurée des contenus couplée à des ontologies linguistiques améliore de manière
notable le rappel et la précision des outils de recherche marchands. Le système
ONTOSEEK (1996-1998) a couplé une représentation des connaissances du domaine
(langage à pouvoir d’expression très limité de la famille de graphe conceptuel GC) à
une large ontologie linguistique multilingue (SENSUS basé sur WORDNET) pour une
recherche de produits en langue naturelle multilingue (Guarino et al., 1998).
ONTOSEEK combine un mécanisme de recherche par le contenu sémantique
(ontologie) avec un formalisme de représentation assez pauvre (GC). A la différence
des systèmes connus, l’utilisateur n’est pas supposé connaître le vocabulaire de
113
Rapport AS « Web sémantique »
codage des produits mais grâce à l’ontologie linguistique S ENSUS peut s’exprimer
avec les termes de son vocabulaire.
Les principaux choix d’architecture fonctionnelle d’ONTOSEEK :
- usage d’une Ontologie linguistique généraliste pour représenter finement les
produits ;
- grande flexibilité terminologique dans l’expression des requêtes, grâce à un
mécanisme d’intersection sémantique entre les requêtes et la description des
produits ;
- Assistance interactive pour la formulation de la requête par généralisation et
spécialisation.
Ils font usage d’un formalisme de représentation basique des GC pour représenter
les requêtes et les descriptions des produits. Le mécanisme d’intersection sémantique
est basé sur un simple calcul de subsomption sur les arcs et les nœuds du graphe et ne
met pas en œuvre un calcul complet d’endomorphisme de graphe.
ONTOSEEK n’a pas fait l’objet de déploiement commercial mais à son époque a
très bien montré les gains potentiels que les prémisses de technologie du Web
sémantique pouvaient apporter aux moteurs marchands pour le commerce
électronique.
MKBEEM (2000–2002) projet IST du FP5 avait pour objectif de développer une
plate-forme de commerce électronique multilingue et multiculturelle principalement
centré vers des services pour le B2C. Les résultats finaux ont clairement indiqué que
pour des domaines commerciaux bien délimités – mais totalement réalistes - les
technologies de la connaissance (KRR) couplées à des technologies du traitement
automatique des langues (TAL) fournissent des services de traduction et
d’interprétation de grande qualité et opérationnels à très court terme (Mkbeem,
2002).
L’innovation clé réside dans ce couplage du TAL et du KRR offrant à ce jour les
services suivants :
- représentation de la requête langue naturelle dans une représentation
sémantique (ontologie) ;
- maintenance aisée de catalogues de produits et services multilingues ;
- création aisée d’offres composites de produits et de services ;
- recherche en langue naturelle de produits ou de services par le contenu
sémantique ;
- catégorisation et indexation automatiques des produits ou des services décrits
en langue naturelle ;
- intégration aisée et rapide de nouvelles offres de produits ou de services dans
un contexte multilingue et pluriculturel.
La qualité des résultats a été jugée sur un prototype pan-européen pour le Finnois, le
Français, l’Espagnol et l’Anglais dans les domaines du tourisme (SNCF) et de la vente
par correspondance (Redoute-Ellos). Cette technologie fait l’objet de transfert vers la
Redoute et la RMN.
3 A PPLICATIONS MÉDICALES
114
8 – Applications du Web sémantique
48
Ces descriptions doivent beaucoup au workshop organisé par le Laboratoire d’informatique médicale (LIM) de
Rennes en collaboration avec l’AS Web sémantique (Web sémantique Médical, 2003)
115
Rapport AS « Web sémantique »
annotations (Cf. chap. 3), difficile d’autant plus qu’elle est effectuée a posteriori. La
NLM a ainsi un gros projet d’indexation automatique des ressources fondée sur
l’analyse du titre, du résumé de l’article et des index déjà posés sur les articles cités en
référence (Aronson et al., 2000).
Le site C ISMeF du CHU de Rouen, reconnu en France comme étant le site de
référence en informatique médicale, « catalogue » et indexe l’ensemble des sites
médicaux francophones de qualité (environ 12 000 en 2003 – <http://www.chu-
rouen.fr/cismef/>). En dehors du fait que cela ne se fait pas sans méthode et sans une
certaine force de travail, il est intéressant d’explorer d’un peu plus près les modes
d’indexation des sites (Darmoni et al,. 2000) : ainsi, quand une page Web est
cataloguée, elle est indexée pour pouvoir être retrouvée et reproposée aux intéressés.
RDF et les balises du Dublin Core sont alors utilisés pour décrire des informations de
type bibliographique au sujet de la page (langue utilisée dans le document, année,
auteurs, sujet (mots-clés), etc.). Des balises nécessaires aux ressources médicales
comme la gratuité de la ressource ou son niveau de preuve s’y ajoutent. Comme pour
Medline, c’est le thésaurus MeSH qui est utilisé pour indexer le contenu médical des
ressources.
Ces applications, en particulier CISMeF , nous interrogent sur l’utilisation des
thésaurus pour l’indexation par rapport à la possibilité qu’offriraient les ontologies.
Si les thésaurus montrent ici parfois leur limite avec une organisation des concepts
médicaux parfois ambiguë ou incohérente, la mise en place d’ontologies a un coût
(en temps en particulier) non négligeable et dont la rentabilité n’est pas évidente. De
plus, une ontologie manipule des concepts à une telle granularité qu’ils ne sont pas
facilement accessibles dans le contexte du travail courant du praticien. Des solutions
semblent se mettre en place en reliant les concepts de l’ontologie aux termes des
thésaurus dans un serveur de terminologie comme en propose le projet GALEN (Rector
et al., 1995) qui rejoint les propositions de thésaurus sémantiques dans d’autres
domaines (Roussey & Calabretto, 2002).
116
8 – Applications du Web sémantique
117
Rapport AS « Web sémantique »
d’entreprise repose sur la volonté de “préserver, afin de les réutiliser plus tard ou le
plus rapidement possible, les raisonnements, les comportements, les connaissances,
même en leurs contradictions et dans toute leur variété” (Pomian, 1996). Le
processus de capitalisation des connaissances permet de réutiliser, de façon pertinente,
les connaissances d’un domaine donné, précédemment stockées et modélisées, afin
d’accomplir de nouvelles tâches (Simon, 1996). Le but est de “localiser et rendre
visible les connaissances de l’entreprise, être capable de les conserver, y accéder et les
actualiser, savoir comment les diffuser et mieux les utiliser, les mettre en synergie et
les valoriser (Grundstein, 1995).
Dans un passé récent, les solutions de KM se sont principalement tournées vers les
silos de documents textuels produits par l’entreprise comme lieu privilégié de la
connaissance. Dans un futur proche, les technologies du web sémantique, et tout
particulièrement les ontologies et les raisonnements sémantiques associés offrent de
nouvelles perspectives aux solutions de KM.
Bien que les premières tentatives aient déjà clairement montré tout le potentiel que
l’on pouvait en tirer, de nombreux champs d’investigation restent ouverts avant que le
Web Sémantique tienne ses promesses, par exemple :
- Une intégration « sans couture » des savoirs de l’entreprise est absolument
nécessaire, pour éviter toutes les redondances et surcharges superflues ;
- Une méthodologie, un outillage et une stratégie de mise en place sont
indispensables pour soutenir l’effort de création et de capitalisation des
connaissances. Par exemple des outils de maintenance (semi-) automatisée des
ontologies pour suivre l’évolution dynamique des savoirs ;
- L’accès et la présentation de la connaissance doivent tenir compte du contexte
des tâches courantes ;
- La personnalisation doit tenir compte des attentes des utilisateurs pour éviter
la surcharge cognitive et pour délivrer l’information au bon niveau de
granularité.
Le développement de portails des savoirs servant les besoins de l’entreprise ou de
communautés est plus ou moins à ce jour une tâche essentiellement manuelle. Dans
un contexte économique très versatile et opportuniste, Ontologies et Outils
d’inférence, TAL, devraient faciliter la maintenance évolutive des portails qui doivent
être à jour et de plus en plus pertinents.
Les services classiques associés aux solutions de KM pour lesquelles les
technologies du web sémantique seront fortement contributives sont :
- accès des employés en situation de mobilité à la mémoire de l’entreprise
(Mobile KM) ;
- partage entre employés d’une même communauté (P2P – Peer-to-Peer
computing) où la construction de la connaissance (Ontologie et annotations)
s’opère de manière naturelle et consensuelle ;
- intégration des mémoires d’entreprises décentralisées et multinationales ;
- formation professionnelle continue (e.Learning) sur le portail de l’entreprise
sur lequel l’employé se voit offrir des parcours de formation diversifiés et
surtout personnalisés.
Le KM est évidemment un champ applicatif des technologies du web sémantique
très prometteur. Les technologies documentaires classiques ont clairement montré
leurs limites – très faible capitalisation des savoirs – l’introduction de ces nouvelles
technologies laissent entrevoir de réelles avancées de l’offre et des usages.
118
8 – Applications du Web sémantique
119
Rapport AS « Web sémantique »
49
Le terme d’« ontologie linguistique » peut faire penser à un oxymoron dans la mesure où une ontologie à trait aux
concepts, pas aux mots de la langue. En pratique, les utilisateurs principaux de ce terme (Zyl et al., 2000) décrivent plutôt
l’association d’une ontologie et de lexiques de différentes langues dans le but de créer une représentation pivot.
120
8 – Applications du Web sémantique
6 C ONCLUSION
RÉFÉRENCES
ARONSON AR, BODENREIDER O, C HANG HF, HUMPHREY SM, MORK JG, NELSON SJ,
R INDFLESCH TC & W ILBUR WJ (2000), The NLM Indexing Initiative, Proc AMIA Symp
p.17-21.
BLOOMFIELD L., (1933) Language, Holt, Rinehart and Winston, New York, 1933.
C HARLET J., C ORDONNIER E.& GIBAUD B. (2002) Interopérabilité en médecine : quand le
contenu interroge le contenant et l’organisation. Revue Information, interaction, intelligence
2(2).
Co MMA (2002) http://www.si.fr.atosorigin.com/sophia/comma/Htm/HomePage.htm
121
Rapport AS « Web sémantique »
C ORDONNIER E., C ROCI S., L AURENT J.-F., G IBAUD B. (2003) Interoperability and Medical
Communication Using “Patient Envelope”-Based Secure Messaging Proceedings of the
Medical Informatics Europe Congress,
DARMONI S.-J., LEROY J.-P., BAUDIC F., D OUYÈRE M., P IOT J. & THIRION B. (2000). CISMeF
: a structured health resource guide. Methods of Information in Medicine, 39(1).
ERCIM News (2002) http://www.ercim.org/publication/Ercim_News/enw51/ Special: Semantic
Web, October.
F RAC AS (1998) Survey of the state of the art in human language technology, Chapter 3 on
Language Analysis and Understanding.
[IJCAI-97, 1997] Ontologies and Multilingual NLP, Kavi Mahesh, August 23-29, 1997, Nagoya,
Japan.
GUARINO N., M ASOLO C.& V ETERE G., OntoSeek: (1999) Content-Based Access to the Web,
IEEE Intelligent System.
KNIGHT, K.; C HANCER, I.; HAINES, M.; H ATZIVASSILOGLOU. V.; HOVY, E. H.; IIDA M.; L UK,
S.K.; WHITNEY, R.A. & Y AMADA, K.( 1995) Filling Knowledge Gaps in a Broad-Coverage
MT System. Proceedings of the 14th IJCAI Conference. Montreal (Canada)..
MAHESH, K.& NIRENBURG, S.(1995) A Situated Ontology for Practical NLP. Proceedings of the
Workshop on Basic Ontological Issues in Knowledge Sharing, International Joint Conference
on Artificial Intelligence (IJCAI-95), Aug. 19-20, 1995, Montreal, Canada.
MKBEEM (2002) Multilingual Knowledge-Based E-Commerce <http://www.mkbeem.com >
ONTOBROKER (1998)http://ontobroker.semanticweb.org/
ONTOKNOWLEDGE (2001) http://www.ontoknowledge.org
OntoWeb (2002). Web site of the EC project IST-OntoWeb http://www.ontoweb.org et SIG4
http://sig4.ago.fr
R ECTOR et al (1999) Terminology and concept representation languages: where are we? Artificial
Intelligence in Medecine. Jan;15(1):1-4
R OUSSEY C., C ALABRETTO S. & P INON J.-M. (2002). Le thésaurus sémantique : contribution à
l’ingénierie des connaissances documentaires. In B. Bachimont, Coordinateur, Actes des 6 es
Journées Ingénierie des Connaissances, p. 209-20, Rouen, France.
S ABAH G. (2000) Sens et traitements automatiques des Langues pp 77-108 in Ingénierie des
langues, Jean-Marie Pierrel, Hermes..
Semantic Web (2001) http://www.ercim.org/EU-NSF/semweb.html Research Challenges and
Perspectives of the Semantic Web, Sophia Antipolis, France, 3-5 October.
VIEGAS (1999), An Overt Semantics with a Machine-guided Approach for Robust LKBs. The
Proceedings of SIGLEX99 Standardizing Lexical Resources, as part of ACL99. University of
Maryland, USA, Maryland.
VOSSEN, P. (ed.) (1998) ; EuroWordNet: A Multilingual Database with Lexical Semantic
Networks. Kluwer Academic Publishers, Dordrecht .
WEB SÉMANTIQUE MÉDICAL (2003) Premières journées Web sémantique médical organisées par le
Laboratoire d’Informatique Médicale de Rennes et l’AS Web sémantique du CNRS.
Présentations, résumés et compte rendu accessible en 2003 à http://wsm2003.org/
ZYL J.& C ORBETT D. (2000), A framework for Comparing the use of a Linguistic Ontology in an
Application, Workshop Applications of Ontologies and Problem-solving Methods,
ECAI’2000, Berlin Germany, August.
122
9 – Conclusion
1 Q UELQUES RÉFLEXIONS
50
« Sur le Web, l’expressivité est le baiser de la mort, les langages et les solutions plus simples vont plus loin que les plus
complexes » in (Staab et al, 2002).
123
Rapport AS « Web sémantique »
2 P ROPOSITIONS DE RECHERCHE
124
9 – Conclusion
125
Rapport AS « Web sémantique »
Questions générales
- qualité de service ;
- contributions du Web sémantique au travail coopératif ;
- modèles de confiance (en fonction du contexte, propagation) ;
- modèles de preuve ;
- facilitation de la prise en main du Web sémantique par les producteurs de
ressources et les différents types d’utilisateurs.
RÉFÉRENCES
EUZENAT Jérôme (ed) (2002). Research challenges and perspectives of the Semantic Web, Report
of the EU-NSF strategic workshop, Sophia-Antipolis.
S TAAB Stefen (ed) et al. (2002). Ontologies’KISSES in Standardization, IEEE Intelligent
Systems, March-April 2002, p.70-79.
126
10 – Activités de l’action spécifique
« Web sémantique »
51
Remplacé à certaines réunions par Emmanuel Nauer – LORIA, Nancy
127
Rapport AS « Web sémantique »
52
Dans cette colonne sont indiquées, juste pour mémoire, les dates des réunions du groupe de travail de l’AS.
128
10 – Activités
2 P ROGRAMMES
Cette section détaille le programme des 4 journées organisées par l’AS.
129
Rapport AS « Web sémantique »
130
10 – Activités
131
Rapport AS « Web sémantique »
132
10 – Activités
133
Rapport AS « Web sémantique »
Synthèse et table-ronde
-------------------------------------------------------------------------
16h20 : Synthèse de la journée et ouverture à la discussion par P. Le Beux
16h30 : Table ronde animée par M. Cuggia et F. Le Duff
17h30 : Synthèse de la table ronde et clôture de la journée par A. Burgun et J. Charlet
134
10 – Activités
Programme de la journée
“Web sémantique et industrie”
4 juillet 2003 - Laval
-------------------------------------------------------------------------
9h00 - 10h00 : Introduction
-------------------------------------------------------------------------
- Pourquoi le web sémantique? Eunika Mercier-Laurent (EML conseil) présenté par
Jean Rhomer
- Etat de l’art : Jérôme Euzenat (INRIA Rhône-Alpes)
-------------------------------------------------------------------------
10h30 - 15h30 : Présentation de travaux et applications
-------------------------------------------------------------------------
- Web sémantique Web services et Multilinguisme (sémantique) : services pour La
Redoute et la SNCF (IST-Mkbeem): Johannes Heinecke et Alain Léger (France
Télécom R&D)
- Le projet européen Hi-Touch : Jean Delahousse (Mondeca)
- Les ontologies dans l’entreprise pour le non structuré : enjeux et cas concrets :
Nicolas Dessaigne (Arisem)
- Comment faire coopérer le Web Sémantique avec les systèmes traditionnels de
l’entreprise (bases de données relationnelles et gestion documentaire) Jean
Rohmer (Thalès)
-------------------------------------------------------------------------
16h00 - 17h30 : Discussion / Table ronde
-------------------------------------------------------------------------
- OntoWeb SIG 5 : Didier Riou (AGO)
135