Vous êtes sur la page 1sur 37

Introduction

Hicham BEHJA
La vision du Web sémantique
Tim Berners-Lee (W3C)
Le Web de demain
Un immense espace d'échanges de ressources entre
humains et machines permettant à des utilisateurs d'accéder
à de grands volumes d'informations et à des services variés
(répondre à des requêtes)
Le Web sera un espace partagé déclaratif et
navigable : un espace de discussion pour les
machines qui en exploitent toutes les ressources
pour résoudre des problèmes.
La manipulation de documents
pour le Web sémantique
 Donner un sens aux documents avec des langages de
représentation des connaissances (logiques de descriptions)
pour attacher une sémantique aux éléments des documents.

 Manipuler des documents en fonction de leur contenu et de


leur sémantique : recherche d’information avec prise en
compte de connaissances du domaine.

 Combiner l’extraction d’information et la fouille de textes :


extraire des termes pour extraire des termes clés, et s’en
servir pour fouiller et classifier les textes en fonction des
contenus.

3
Les langages du W3C

1. Codage des données


brutes
2. Structuration des données
3. Ajout de métadonnées
(annotations)
4. Formalisation du sens
5. Inférence logique
6. Authentification et
validité des connaissances

4
Les langages du W3C
• C’est une pyramide de langages
• Seulement les couches basses sont aujourd’hui relativement stabilisées.
• Deux types de bénéfices:
• Une approche graduelle dans les processus de standardisation et
d’acceptation par les utilisateurs.
• Permettre de disposer du langage au bon niveau de complexité, celle-ci
étant fonction de l’application à réaliser.
• Repose sur la notion d’URI (Uniform Resource Identifier):
• Elle permet d’attribuer un identifiant unique à un ensemble de ressources
(sur le Web, dans d’autres domaines (documents, téléphones portables,
personnes, etc.))
• En cours de standardisation
• Une autre caractéristique de tous ces langages est d’être systématiquement
exprimables et échangeables dans une syntaxe XML.
5
Le cadre du Web sémantique
Différents langages pour décrire, exploiter et raisonner sur
les contenus des ressources
Des connaissances qui s'appuient sur des ontologies
Utilisation de métadonnées
Intégration automatique d'informations provenant de
sources hétérogènes
Utilisation et combinaison automatique de services Web

Une technologie pour le Web sémantique : XML + RDF(S) +


ontologies/connaissances + services + recherche/fouille (moteurs
intelligents).
La notion d’ontologie
 La sémantique des documents sur le Web doit être
accessible aux machines.

 Un élément majeur de cette sémantique est constitué par un


modèle explicite du domaine des données.

 Un tel modèle décrit le vocabulaire et la structure des


informations relatives au domaine d’intérêt, qui doit être
communément admis et partageable : c’est là l’essence
même de la notion d’ontologie, telle qu’elle est considérée
en général en intelligence artificielle.

7
Histoire des Ontologies

Les ontologies sont apparues au début des années 90 dans la


communauté de l’ingénierie des connaissances, dans le cadre
des démarches d’acquisition des connaissances pour les
systèmes à base de connaissances (SBC)

8
Histoire des Ontologies

Les ontologies sont apparues au début des années 90 dans la


communauté de l’ingénierie des connaissances, dans le cadre
des démarches d’acquisition des connaissances pour les
systèmes à base de connaissances (SBC)

L’ingénierie des connaissances intervient pour:


• Définir une aide à l’utilisateur (méthodes, outils logiciels ou non, organisation
du travail),
• Modéliser des connaissances, individuelles ou collectives, explicites ou
implicites, stabilisées ou évolutives, expertes ou techniques ...
• Rendre ces connaissances accessibles sous une forme définie en fonction du
contexte, opérationnelle ou non,

9
Histoire des Ontologies

Les ontologies sont apparues au début des années 90 dans la


communauté de l’ingénierie des connaissances, dans le cadre
des démarches d’acquisition des connaissances pour les
systèmes à base de connaissances (SBC)

Une connaissance est une notion abstraite dont la


détermination peut impliquer des aspects complexes tels
que : les actions, le contexte, les informations, les acquis et
expériences, etc.

10
Histoire des Ontologies

Les ontologies sont apparues au début des années 90 dans la


communauté de l’ingénierie des connaissances, dans le cadre
des démarches d’acquisition des connaissances pour les
systèmes à base de connaissances (SBC)

• Un SBC permet d’inscrire des connaissances issues de


l’expertise ou/et de la pratique,
• Il inclut un moteur d’inférence permettant d’enchainer des
raisonnements sur les connaissances pour en déduire d’autres
(nouvelles),
11
Histoire des Ontologies

Dans le domaine de l’ingénierie des connaissances, la notion


d'ontologies existait sans être nommée et de façon transversale
dans les différents systèmes de représentation de connaissances
dès les années 70

Logiques de description
12
Histoire des Ontologies

Dans le domaine du Web sémantique (WS), les ontologies constituent


une composante essentielle, et ceci depuis la publication des premiers
travaux dans ce sens à la fin des années 90.

Un des objectifs du WS est de faciliter


la recherche d'informations afin
d'accéder à des ressources particulières
sur le Web

13
Histoire des Ontologies

Afin de de permettre à une communauté d’utilisateurs de partager


les mêmes métadonnées pour des ressources partagées, la
communauté du WS a proposé un formalisme facilement utilisable
sur le Web

RDF
Resource Description Framework
14
Histoire des Ontologies

Communauté IC Communauté WS

Au début du 3ème millénaire, les deux communautés commencent


à collaborer pour créer un formalisme unique pour la
représentation des connaissances

Naissance en 2002 du Web Ontology Language (OWL)


15
Historique : web de base

HTTP

HTML URL - URI

16
Historique : web de base
• Une couche applicative au dessus d'Internet (TCP/IP):
• HTML 1.0 (1992) HyperText Markup Language
http://www.w3.org/History/19921103-hypertext/hypertext/WWW/MarkUp/MarkUp.html
• Uniform Resource Locator (URL): RFC Dec. 1994
• HTML 2.0: RFC Novembre 1995
• HTTP 1.0: RFC in Mai 1996
• HTML 3.2: Recommandation 1997
• HTML 4.01: Recommendation 2000
• XHTML 2.0: arrêt de travail 2009
• HTML 5: Recommandation du W3C 28 octobre 2014
• HTML 5.1: W3C Recommendation 2016
• HTML 5.2: W3C Recommendation, 14 December 2017
• Normaliser les extensions les plus courantes
Tableaux, texte autour images, applets, indices/exposants
• Evolutions suivantes (Scripts, Stylesheets)

17
Historique : web structuré

HTTP/D XML

HTML URL - URI

DTD - XML
Schema

18
Historique : web structuré
• Extensible Markup Language 1.0 Rec. 1998
XML 1.0 (Fifth Edition) W3C Recommendation 26 Novembre 2008
XML 1.1 (Second Edition), W3C Recommendation, 16 August 2006
• Un format textuel d'échange de données structurées
• Standard pour définir des langages balisés
• XML 2.0, XML Binary

• Structurer  présenter : données et structures vs.


affichage ou traitement
• XML  HTML (fond / forme, contenu / présentation
données & structures / affichage & disposition)
• Méta-langage / format / famille de langages balisés:
MathML, CML, SVG, XMI, P3P, XACML, SAML, SMIL, BPML,
XSLT, …

19
Historique : web structuré
• Définir ses tag / balises / étiquettes / éléments
<?xml version="1.0" encoding="ISO-8859-1"?>
<post_it>
<urgent />
<sujet>Réunion</sujet>
<date>11-11-2011</date>
<message>Salle de réunion à 10h pour budget</message>
</post_it>

• Version et encodage
• Eléments en XML bien formé :
• une seule racine, balises emboîtées, balises fermées, balises
vides, majuscule/minuscules, pas commencer par un chiffre
ou par "xml", pas d’espaces dans les noms de balises…

20
Historique : web structuré
• Paramétrer / préciser une balise
<?xml version="1.0" encoding="ISO-8859-1"?>
<post_it importance="urgent">
<sujet>Réunion</sujet>
<date>11-11-2011</date>
<message xml:lang="fr"> Salle de réunion à 10h pour
budget</message>
</post_it>

• Attributs en XML bien formé:


• attributs dans une balise ouvrante ou vide
• valeurs des attributs entre guillemets ou apostrophes
• Balises vs. attributs:
• Les attributs donnent une structure plus simple
• Les attributs ne sont pas extensibles

21
Historique : web structuré
• Un document bien formé respecte le format XML
• Un document valide est un document bien formé qui respecte
une DTD ou un Schéma XML
• DTD / Schéma: standardiser et échanger des structures
• DTD: balises autorisées, attributs et enchaînements
• XML Schema est son successeur: une syntaxe XML et des
extensions (datatypes, types complexes, etc.)
• Uniform Resource Identifier
(URI RFC 2396 Août 1998, RFC 3986 Janvier 2005)
• Identificateur unique d’une ressource abstraite ou physique
exemple:
ldap://[2001:db8::7]/c=GB?objectClass?one
• URL = sous ensemble des URI (ID et localisation)

22
Historique : web structuré

HTTP/D XML

HTML URL - URI XSL/T

XPath DTD - XML


Xpointer XQuery
Schema

XLink

23
Historique : web sémantique

Query annotations ontologies règles


SPARQL

RDFS

OWL
RDF inférences

HTTP/D XML

HTML URL - URI XSL/T

XPath DTD - XML


Xpointer XQuery
Schema

XLink

24
Web sémantique : vision W3C

W3C, T Berners-Lee, Ivan Herman


25
Web Sémantique
• World Wide Web Consortium :
www.w3.org
• Extension du Web "actuel" (web de base):
• où l’information serait munie d’une
signification (meaning) bien définie.
• Pour faciliter le travail en coopération
homme-machine
• Un Web de données et de documents.

26
Web Sémantique
 Évolution du Web pour permettre le
traitement des informations par des
programmes
 Documents et données structurés (XML)
 Associer sémantique (sens) aux documents
 “A new form of Web content that is
meaningful to computers” Tim Berners-Lee

27
Sémantique

 Sens, Meaning ?

28
XML
 Définit la structure (syntaxe) comme un
arbre de syntaxe abstraite.
 Mais rien sur la signification, le sens : la
sémantique
 La sémantique permet de définir la
signification des balises, donc des
informations.
–  Contraint les traitements

29
XML

30
XML

XML définit une structure mais pas le sens !!


31
XML
 Et si on définit une DTD ou un schéma XML,
est ce que ça ajoute une sémantique ?

32
Sémantique
 <book>  book is a kind of Document
 <authors>  Documents have one or more
authors.
 <author>  an author is a Person
 <title>  a title which is a Literal
…

33
Sémantique
 Objectif
– Décrire le sens avec un certain consensus.
– En utilisant des vocabulaires standardisés :
annotations et ontologies.

34
Applications

 Préparer automatiquement un voyage, par


l’Internet, en combinant des informations
(hôtel, avion, voiture)
 Etre prévenu d’informations sur un thème
donné : actualités, conférences,
publications, etc.
 Réseaux sociaux

35
Applications
 Annotation de documents multimédia :
trouver une séquence avec une condition
 Site Web d’entreprise structuré par un
référentiel
 Ingénierie des connaissances:
– Acquisition, capitalisation, modélisation,
partage, extraction, réutilisation … de
connaissances.
 Bases de données ontologiques
 Construction d’entrepôt de données
…
36
Quelques problématiques /
Recherche
 Construction automatique d’ontologies
 Alignement d’ontologies
 Ontologies multi-expertes
…
 Syntaxe, représentation, raisonnement …

37

Vous aimerez peut-être aussi