Vous êtes sur la page 1sur 13

Introduction

I. Historique du web
II. Définition du web sémantique

III. Aspects
spects donnée du web sémantique
IV. La cartographie du web sémantique
V. Champ d’application du web sémantique
VI. Exemple du web sémantique

Conclusion
Introduction

Quand la donnée prend le dessus. C’est ainsi que pourrait être, très
vulgairement, résumé le Web sémantique. Un vaste projet qui a éclaté aux yeux
de tous suite à l‘intervention de Tim Berners-Lee, patron du W3C - et également
père du Web -, le consortium en charge de définir les standards du Web.

Dans un entretien réalisé par le Courrier Unesco en 2000, il est parvenu à


transmettre sa vision d’un autre web. Non pas le web 2.0, qui aujourd’hui
bouleverse les usages du Web en donnant la parole aux internautes, en rendant le
web plus participatif, non pas le Web 3.0 dont les contours restent encore
aujourd’hui à géométrie variable - on parle notamment d’Internet des objets.
Mais, bien un principe qui doit doter le Web d’une part d’intelligence qui lui fait
défaut aujourd’hui.

“J’ai un double rêve pour le Web. D’une part, je le vois devenir un moyen très
puissant de coopération entre les êtres humains. Et dans un second temps,
j’aimerais que ce soit les ordinateurs qui coopèrent. [...] Quand mon rêve sera
réalisé, le Web sera un univers où la fantaisie de l’être humain et la logique de
la machine pourront coexister pour former un mélange idéal et puissant.”

Une vision un peu magique d’un environnement connecté où seul le sens de


l’information, de la donnée serait pris en compte pour livrer à l’internaute une
information riche, contextualisée et fortement qualifiée. Bref logique. Une
logique décrite informatiquement par des technologies, des standards qui créent
des liaisons entre chaque donnée et chaque information pour lui donner du sens.
Autrement dit, pousser beaucoup plus loin le concept de l’information comme
on le conçoit aujourd’hui, pour débarquer dans un monde contrôlé par des
vocabulaires, des thésaurus. Un monde où la donnée n’est pas considérée
uniquement comme une donnée, mais comme une bulle sémantique.

Les activités liées au Web sémantique existent depuis 1998 au sein du W3C,
et ont débouché depuis sur l’éclosion d’une série de technologies qui forment
l’ossature de l’ensemble. Désormais presque matures, ces standards restent
malgré tout peu utilisés, tout simplement car les principes du Web sémantique
demeurent, eux aussi, un peu flous dans l’esprit des internautes et dans celui des
entreprises.

Ce dossier vise à présenter le domaine de web sémantique, en tentant de livrer


une définition aussi claire que possible, de faire un état des lieux des
caractéristiques qui spécifie ce beau concept, avant de présenter enfin le champ
d’application de ce type de web.

I. Historique du Web :
Le web est sans nul doute une technologie majeure du 21ème siècle. Et si sa
nature, sa structure et son utilisation ont évolué au cours du temps, force est de
constater que cette évolution a également profondément modifié nos pratiques
commerciales et sociales.

Le web 1.0, encore appelé web traditionnel, est avant tout un web statique,
centré sur la distribution d’informations. Il se caractérise par des sites orientés
produits, qui sollicitent peu l’intervention des utilisateurs. Les premiers sites
d’e-commerce datent de cette époque. Le coût des programmes et logiciels
propriétaires est énorme et l’explosion de la bulle dot.com, en 2000, remet en
question cette approche de la toile.

Le web 2.0, ou web social, change totalement de perspective. Il privilégie la


dimension de partage et d’échange d’informations et de contenus (textes, vidéos,
images ou autres). Il voit l’émergence des réseaux sociaux, des smartphones et
des blogs. Le web se démocratise et se dynamise. L’avis du consommateur est
sollicité en permanence et il prend goût à cette socialisation virtuelle. Toutefois,
la prolifération de contenus de qualité inégale engendre une infobésité difficile à
contrôler.

Le web 3.0, aussi nommé web sémantique, vise à organiser la masse


d’informations disponibles en fonction du contexte et des besoins de chaque
utilisateur, en tenant compte de sa localisation, de ses préférences, etc. C’est un
web qui tente de donner sens aux données. C’est aussi un web plus portable et
qui fait de plus en plus le lien entre monde réel et monde virtuel. Il répond aux
besoins d’utilisateurs mobiles, toujours connectés à travers une multitude de
supports et d’applications malines ou ludiques.

II. Définition du web sémantique :


Le terme est apparu au début des années 2000 pour désigner un ensemble de
nouvelles technologies.

Le Web Sémantique est une représentation abstractive des données sur le World
Wide Web, basée sur les standards RDF (Resource Description Framework)
ainsi que d’autres standards à définir. Il est en cours de développement par le
W3C, en collaboration avec un grand nombre de chercheurs et de partenaires
industriels.
Le web sémantique est aussi :

une extension du web qui facilite l’automatisation du traitement des


connaissances disponibles.

C’est une extension du web classique (HTML, HTTP, etc. ne sont pas
remis en cause).

III. aspects donnée du web sémantique :

1. RDF
Resource Description Framework (RDF) est un modèle de graphe destiné à
décrire de façon formelle les ressources Web et leurs métadonnées, de façon à
permettre le traitement automatique de telles descriptions. Développé par
le W3C, RDF est le langage de base du Web sémantique. L'une des syntaxes
(ou sérialisations) de ce langage est RDF/XML. D'autres sérialisations de RDF
sont apparues ensuite, cherchant à rendre la lecture plus compréhensible ; c'est le
cas par exemple de Notation3 (ou N3).

En annotant des documents non structurés et en servant d'interface pour des


applications et des documents structurés (pe. bases de données, GED, etc.) RDF
permet une certaine interopérabilité entre des applications échangeant de
l'information non formalisée et non structurée sur le Web.

Un document structuré en RDF est un ensemble de triplets.

Un triplet RDF est une association :

(sujet, prédicat, objet)

Le sujet représente la ressource à décrire ;


Le prédicat représente un type de propriété applicable à cette ressource ;
L'objet représente une donnée ou une autre ressource : c'est la valeur de la
propriété.

Le sujet, et l'objet dans le cas où c'est une ressource, peuvent être identifiés
par une URI ou être des nœuds anonymes. Le prédicat est nécessairement
identifié par une URI.

Les documents RDF peuvent être écrits en différentes syntaxes, y compris


en XML. Mais RDF en soi n'est pas un dialecte XML. Il est possible d'avoir
recours à d'autres syntaxes pour exprimer les triplets. RDF est simplement une
structure de données constituée de nœuds et organisée en graphe. Bien que
RDF/XML — sa version XML proposée par le W3C — ne soit qu'une syntaxe
(ou sérialisation) du modèle, elle est souvent appelée RDF. Un abus de langage
désigne à la fois le graphe de triplets et la présentation XML qui lui est associée.

Un document RDF ainsi formé correspond à un multigraphe orienté étiqueté.


Chaque triplet correspond alors à un arc orienté dont le label est le prédicat, le
nœud source est le sujet et le nœud cible est l'objet.

La sémantique d'un document RDF peut être exprimée en théorie des


ensembles et en théorie des modèles en se donnant des contraintes sur le monde
qui peuvent être décrites en RDF. RDF hérite alors de la généricité et de
l'universalité de la notion d'ensemble. Cette sémantique peut être aussi traduite
en formule de logique du premier ordre, positive, conjonctive et existentielle :

{Sujet, objet, prédicat} Prédicat (objet, sujet)

Ce qui est équivalent à :

objet, sujet tq prédicat(objet, sujet)

Le W3C a prévu un mécanisme d'inférence pour la sémantique de RDF


déduisant exclusivement et intégralement les conséquences des prédicats, sans
que ce mécanisme ne fasse l'objet d'une recommandation.

Alors que la structure de RDF est extrêmement générique et sert de base à un


certain nombre de schémas ou vocabulaires dédiés à des applications
spécifiques. Une partie de ces vocabulaires est spécifiée par le W3C, comme les
langages d'ontologie RDFS et OWL, ou le vocabulaire SKOS pour la
représentation des thésaurus et autres vocabulaires structurés. D'autres
vocabulaires RDF, sans être spécifiés par le W3C, sont néanmoins utilisés
largement et constituent des standards de fait dans la communauté du Web
Sémantique, comme par exemple FOAF qui est destiné à la représentation des
personnes.

Limites de RDF: RDF-Schema permet de représenter des connaissances


ontologiques . . . mais est limité :

Pas de cardinalité (une personne a exactement un numéro de sécurité


sociale, etc.)
Pas d’exclusion entre classes (deux classes ne peuvent avoir d’instances
communes)
Pas de liens plus précis entre classes et entre propriétés (classes
équivalentes, transitivité d’une relation, etc)...

⇒ D’où la nécessité d’un langage plus expressif pour exprimer ces


connaissances.

2. DAML+OIL

Le langage DAML (DARPA Agent MarkupLanguage) intervient pour


permettre aux agents de partager de la sémantique. DAML est associé à OIL
(OntologyInference Layer), qui est un autre langage de description d'ontologies.
Le couple DAML+OIL repose sur RDF.

Mais avant d'étudier plus en détail DAML+OIL, nous donnons d'abord les
caractéristiques d'OIL, puis de DAML.

OIL est un langage de description et d'inférence sur les ontologies, basé sur
RDF. Il prend appui sur les logiques de description. Il est composé de plusieurs
couches :

• le coeur : il correspond presque exactement avec le langage RDF Schema, qui


permet de décrire les vocabulaires RDF ;

• Standard OIL : il permet de définir la sémantique de façon plus précise, et


donne ainsi la possibilité d'utiliser les mécanismes d'inférence ;

• Instance OIL : il introduit les fonctionnalités des bases de données.

Tout comme OIL ou RDF Schema, DAML est un langage de description


d'ontologies. En ce sens, on peut définir des classes et des propriétés, et les
mettre en relation.

Ainsi, DAML+OIL cherche à combiner toutes les caractéristiques de DAML,


d'OIL, de RDF Schema, et de RDF.

DAML+OIL permet de modéliser les aspects suivants :

• définition de classes de propriétés ;

• définition de classes de ressources ;

• relations logiques entre classes (disjonction, union, équivalence, etc.) ;

• relations d'héritage entre classes ;


• restriction de propriétés (cardinalité, etc.) et typage ;

• prise en charge des collections (listes) ;

• instanciation de classes de propriétés et de ressources

3. OWL
Les langues plus tôt ont été utilisées pour développer des outils et des
ontologies mais elles n'ont pas été définies pour être compatibles avec
l'architecture du WWW en général et le Web Sémantique en particulier. OWL
en basant sur RDF nous donne les possibilités suivantes aux ontologies :

Capacité d'être distribué à travers beaucoup de systèmes


Compatibilité avec des normes du Web pour l'accessibilité et
l'internationalisation
Ouverture et extensibilité.

Jusqu'à maintenant, il y a pas mal d'organismes utilisant OWL avec les


nombreux outils disponibles, la plupart des systèmes qui a utilisé DAML, OIL,
ou DAML+OIL change maintenant à OWL. En outre, un certain nombre d'outils
de langue d'ontologie, par exemple, Protégé qui est très forte et connu nous
donne l'appui pour OWL. De plus, il y a beaucoup d'ontologies disponibles sur
le Web qui se crée par OWL. Par exemple dans la bibliothèque de DAML, on
peut utiliser les ontologies pour capturer la connaissance dans le domaine
d'intérêt. Voilà, une ontologie va décrire les concepts dans ce domaine et les
liens entre eux. Donc les différentes langues d'ontologie ont des avantages
différents.

À ce moment, OWL est considéré par W3C comme une langue d'ontologie
standard. Il a non seulement la capacité de décrire les concepts dans un domaine
mais aussi d'une ensemble plus riche d'opérateurs, donc ces concepts bien
définis et bien décrits. On peut construire des concepts complexes en basant les
définitions des concepts plus simples. En outre, on peut vérifier si tous les
rapports et les définitions dans l'ontologie sont conformés et identifier quels
concepts s'adaptent sous quelles définitions. Donc, on peut maintenir la
hiérarchie correctement entre les classes.
Les composants de OWL :

Individus:

Il représente les objets dans le domaine. OWL n'utilise pas la supposition du


nom unique comme Protégé. C'est-à-dire on peut référencer un même individu
avec deux nom différents ou plus. Donc, il faut clairement expliquer que cet
individu est identique avec un autre individu ou différente avec les autres.

Propriété:

C’est une relation binaire entre deux individus. Par exemple : la propriété est
Collegue est un lien entre deux individu Tien et Hung..etc.. On a aussi les
propriétés qui peuvent être inversé.Par exemple: superviserDe est à l'inverse de
estSupervisePar..etc. Elle peut avoir une single valeur, qui s'appelle fonction ou
être transitif , symétrie.

Classes

Les OWL classes sont interprétées comme les ensembles avec des individus.
Elles sont décrites en utilisant les descriptions formelles qui énoncent
précisément les conditions pour être un membre de cette classe. Classes peuvent
être organisés en hiérarchie de super classe et sousclasse, qui est également une
taxonomie. Avec OWLDL, on peut faire automatiquement les relations entre
deux classes grâce au raisonner. Parfois, le mot concept remplace une classe ou
les classes sont une représentation concrète des concepts.

IV. La cartographie du web sémantique :


Les auteurs utilisent le moteur de recherche sémantique Falcons . Ce moteur
permet de collecter les documents écrits en format rdf/xml. Le rdf (resource
description framework) est un modèle de description des ressources, sous forme
de triplets {sujet, prédicat, objet}. Par exemple, {Lionel Messi, is a, Football
Player} selon dbpedia . Ou {Lionel Messi, knows, Thierry Henry} selon friends
of a friends . Que sont au juste dbpedia ou friends of afriends (foaf) ? Ce sont en
fait des projets qui proposent des vocabulaires, c’est à dire qu’ils suggèrent des
objets et des prédicats pour décrire les sujets. Ce sont des vocabulaires RDF car
ils permettent de coder la description des sujets selon le format RDF. Foaf, par
exemple, est spécialisé dans la description des personnes et des relations qu’elles
entretiennent entre elles.

Les objets peuvent être des classes (c’est à dire, désigner un ensemble d’objets
aux propriétés communes). Ainsi, la classe Football_Player contient entre autres
Thierry Henry et Lionel Messi. Avec leurs données, les chercheurs considèrent
le graphe des associations entre classes. Considérons les triplets suivants :
{Lionel Messi, is a, Football Player}
{FC Barcelona, is a, Football Club}
{Lionel Messi, plays in, FC Barcelona}

Ces trois triplets sont résumés par les auteurs par deux classes : Football Player
et FC Barcelona, qui seront liées entre elles. Les liens sont plus ou moins forts
selon le nombre de triplets rdf qui établissent des liens entre les deux classes
considérées.

Les chercheurs parviennent donc à extraire un jeu de 11.7 millions de fichiers


RDF/XML contenant 596 millions de triplets. Le chiffre de 11.7 millions est à
comparer aux 20 milliards de pages web indexées par les meilleurs moteurs de
recherche. La quantité d’informations codées en RDF est donc non négligeable.
Ces données comportent au total 56631 classes.
Les chercheurs calculent ensuite une série de statistiques, classiques dans l’étude
des graphes de terrain. De façon plus intéressante, ils dessinent également le
graphe des associations entre classes, qui représente en fait une carte du web
sémantique.
Premier constat : toutes les classes ne sont pas connectées. C’est à dire que
certains vocabulaires ne sont utilisés que pour certaines ressources qui sont
complètement isolées des autres. Toutes les données ne sont pas liées ! Il y a
donc encore des efforts à faire pour atteindre ce web des “linked data” auquel
Berners-Lee nous a fait rêver ! Il y a néanmoins une composante principale qui
rassemble 96.16% des objets décrits. En voici le graphe :
En bleu, le vocabulaire FOAF s’étale au centre du graphe. Il a beaucoup de liens
vers d’autres graphes et joue un rôle fédérateur. En rouge et en bas à droite, le
vocabulaire développé pour YAGO est très isolé. Ce projet vise à développer
une base de connaissances généraliste sémantique, et est développé au Max
Planck Institute. Il est étonnant qu’il soit si peu lié avec d’autres
comme DBPedia , que l’on voit ici en vert pomme. DBPedia a pour but de
structurer l’information de Wikipédia ; le vocabulaire DBpedia a une position
plus centrale que YAGO, comporte plus de liens vers l’extérieur mais forme
quand même une communauté bien groupée.
Cette cartographie du web sémantique révèle donc deux choses. D’abord, un
paradoxe : les auteurs ont collecté les données RDF, c’est à dire celles générées
par les personnes qui adhèrent au dogme “W3C – RDF”. Ces personnes sont
donc supposées vouloir un web sémantique universel, écrit dans un langage
unique. Pourquoi, alors, YAGO et DBpedia, deux projets de classification
généralistes, sont-ils si peu liés l’un à l’autre ?
Ensuite, le constat suivant : dans les 10 vocabulaires les plus fréquents, à part les
3 principaux vocabulaires suscités, nous trouvons 7 autres vocabulaires qui sont
assez spécialisés. Nous trouvons par exemple un wiki sémantique sur
l’architecture ou encore une base de données biologiques . Pas étonnant, donc,
que ceux-là soient isolés.

V. Les champs d’application du web


sémantique :
1. Les réseaux sociaux, blogs et plateformes
communautaires (ex : Flickr, Facebook) :

Le web sémantique permet d'agréger plusieurs données entre elles (ex : pour
une image : le lieu, la date, le nom des personnes, l'auteur, la date de prise de
vue, etc.) pour enrichir les possibilités de recherche d’informations et/ou se
connecter avec d'autres membres.

2. La recherche/le classement bibliographique/documentaire

On peut notamment citer, entre autres, les travaux de la Bibliothèque


nationale de France qui a récemment mené une expérience destinée à montrer
les possibilités d'utilisation des techniques du web sémantique pour effectuer des
recherches simultanées à travers plusieurs collections patrimoniales numériques
(en différentes langues). L'objectif étant de créer davantage de liens entre les
données des catalogues, de les rendre plus visibles sur le web.
3. Le recherche d’information sur internet/intranet :

Les moteurs de recherche grand public assimilent peu à peu les technologies
du web sémantique, là ou d'autres moteurs en ont fait leur clef-de-voûte :
comme Tumbup, un nouveau moteur de recherche relié à Facebook et qui
s'appuie sur l'activité des membres du réseau social (recommandations sur des
lieux, produits, etc.) pour produire des résultats plus signifiants. On peut aussi
citer les moteur de recherche Wolfram Alpha, TrueKnowledge (interprétation du
langage naturel) et Zoom, un moteur intégrable à l'intranet, aux sites et blogs
d'entreprise pour structurer les données recherchées.

4. Commerce/e-Commerce : notamment via l'ontologie


"GoodRelations »

Ce vocabulaire permet de décrire de manière structurée les produits, les prix,


et les informations relatives à l'entreprise (ex : données de contact, ouverture des
magasins, géolocalisation, options de paiement etc.) :il permet notamment aux
moteurs de recherche de mieux exploiter ces données essentielles pour les
resituer dans leur contexte de recherche.

5. L'industrie et la recherche et développement

Notamment dans les domaines de pointe (ex : aéronautique, recherche médicale)


via la création d'ontologies (ensemble de concepts et de paramètres
caractéristiques d'un domaine spécialisé) destinées à agréger des données de
conception et de production situées dans différents systèmes d'informations.

VI. Exemple du web sémantique


Que se passe-t-il ? En fait, le moteur de recherche compare des mots sans
prendre en compte leur sémantique (sens). Il exécute uniquement une recherche
strictement syntaxique et donc sans réflexion car « ordinateur portable » et «
laptop » représentent le même concept (la même chose), que nous appellerons
maintenant des classes pour respecter la terminologie du Web sémantique.

Ainsi, pour raisonner, il ne faut plus se baser sur les mots mais sur les classes.
Mais que signifie raisonner ? Raisonner c'est utiliser sa raison pour démontrer
quelque chose. C'est un terme très souvent employé en intelligence artificielle.

Illustration en comparant deux moteurs de recherche (Orange et Google) :


Vous pouvez donc voir que sur le moteur d'Orange, la première occurrence est la
réponse à notre question et qu'ensuite il y a les réponses résultant de la recherche
syntaxique. Alors que sur Google il n'y a que la recherche syntaxique. Cette
différence et tout simplement due à l'utilisation d'ontologies de la part du moteur
d'Orange.

Conclusion

Le web est constitué par un ensemble de documents, principalement textuels,


formatés dans un langage particulier (HTML) permettant d’exprimer des liens
entre un objet dans le document source (l’ancre) et un objet du document cible.
Il est exploité par des dispositifs logiciels (navigateurs ou robots de recherche)
qui traversent ces liens lorsqu’ils les rencontrent (ou lorsque l’utilisateur clique
sur une ancre). Le travail d’exploitation du web est donc principalement dévolu
aux utilisateurs humains qui doivent analyser le contenu des pages pour
déterminer sur quel lien cliquer. Des dispositifs logiciels peuvent les y aider,
mais leur apport, bien que remarquable, reste limité car le contenu des
documents du web s’adresse aux utilisateurs humains.Proclamé "la prochaine
évolution du Web" par son créateur, le but du web sémantique est d'arriver à un
Web "intelligent", où les informations ne seraient plus stockées mais
"comprises" par les ordinateurs afin d'apporter à l'utilisateur ce qu'il cherche
vraiment.La route est encore longue. On doit investir une force profonde afin de
permettre au web sémantique de se développer. Alors peu importe le nom qu’on
lui donne, le web sémantique ou la portabilité des données ceci pourrait devenir
jour après jour une réalité.

Travail effectué par :


BenlemlihChaimae
Bounaamate Fatima Ezahrae
ChennaouiHajar

Vous aimerez peut-être aussi