Vous êtes sur la page 1sur 59

Web Semantique

Emilien BONDU, Bruno


GRILHERES
bruno.grilheres@cassidian.com
Plan du cours
1. INTRODUCTION AU WEB SEMANTIQUE
2. MODELISATION DE LA CONNAISSANCE
3. LE MODELE RDF
4. DEFINITIONS DE VOCABULAIRES (RDFS, OWL)
5. LE LANGAGE SPARQL
6. BASES DE CONNAISSANCE
7. INFERENCE ET REGLES
8. PLATE-FORME DE DEVELOPPEMENT POUR LE WS

Web Sémantique
Web Sémantique

Introduction
INTRODUCTION

Déferlante numérique

m e tta n t
ti q u e s p er
i n fo rm a
d ’ o u t il s c o n te n us
: d i s p o s er l o i te r l e s
u
Enjedisponibles e e t d ’ e xp formes : que.
Données
p re n d r
sous de multiples
u to m a t i
 d e c om e fa ç o n a
texte (html,
r i q e
PDF,
u d etc.),
s doc,
é
num(wav, wma, mp3, ac3, etc.),
 audio
 images (bmp, gif, jpeg, tiff, ...),
 vidéo (dv, mpeg1, mpeg2, mpeg4,
mov, wmv, avi, divx, etc.).

Title / Name
Web Sémantique Date 4
INTRODUCTION

1 minute sur Internet

232 M
46 M
26 M
1M
100 K
10 K
600

10

Web Sémantique
Nombre de sites web

11/30/23 WebLab7 Training -


Overview and Basics
Web Caché

Internet

WEB
Sites
(URL)

Web
Not indexed
Can’t be read by the web crawlers
Volatile

11/30/23 WebLab8 Training -


Overview and Basics
Web caché

Opaque Web
 Visible but not crawled because of crawler limitation
 Disconnected URLs

Private Web
 Password protected
 Use of "robot.txt" file to prevent crawling
 "noindex" tag prevents spider from reading the head section

Proprietary Web
 Registration required

Truly Hidden Web


 Technical reasons why crawlers can't find or enter web pages
 Search engines may have chosen to omit the web page
 Dynamically generated web pages
 Relational databases that require a query input

11/30/23 WebLab9 Training -


Overview and Basics
Taille du web visible / invisible
50 à 500 dois la taille du web visible

Distribution of Deep Web Sites by Content Type


10
INTRODUCTION

Big Data ?

Web Sémantique
Big Data
 « Concept marketing »
 Données

 Architecture / Technologies de
stockage / manipulation / traitement /
 Algorithmes de traitement

=> ICI : Technologies du web sémantique


pour rendre intelligibles les « big data »

Web Sémantique
INTRODUCTION

Nature des informations

formelles informelles

Web

Papier

Radio/TV
Title / Name
Web Sémantique Date 13
INTRODUCTION

L’information sur le Web


 Prévue pour être affichée à l’écran et lue
par des humains
 Non structurée et quasi inaccessible aux
traitements machines
 Eventuellement indexée par des moteurs
de recherche par mots clefs (sauf Web
invisible)

Web Sémantique
INTRODUCTION

Moteurs de recherche
Sur le Web
• Généraliste
Google, Yahoo, Bing, Baidu, Lycos, Voila Exalead, ...
• Actualité
Google News, WebPlanete, EchonimoNews, ...
• Commerce
Kelkoo, NexTag, Skyscanner, ...
• Méta-moteur
Innooo, Seeks, Ixquick, ...

... d’entreprise
Autonomy, Antidot, Exalead, Fast, Sinequa, Polyspot,
Lucene/SolR, ...

Web Sémantique
INTRODUCTION

Taille des moteurs de recherche


Size of Index (estimations in 2013)
: 120,000,000,000 pages
: 50,000,000,000 pages
: 15,000,000,000 pages
: 740,000,000 pages
: 10,000,000,000 pages

Web Sémantique
INTRODUCTION

Précision / Rappel

Bruit  Précision Silence  Rappel

Web Sémantique
17
INTRODUCTION

Définitions

Nombre de documents pertinents trouvés


Précision 
Nombre total de documents trouvés
Forte précision  Réduction du bruit

Nombre de documents pertinents trouvés


Rappel 
Nombre de documents pertinents existants
Fort rappel  Réduction du silence

Web Sémantique
INTRODUCTION

Limitation des moteurs de


recherche par mots clefs (1)

 Ambiguïtés du langage naturel

 Absence de sémantique

Pas de réponse explicite aux questions / faible précision

Web Sémantique
INTRODUCTION

Limitation des moteurs de


recherche par mots clefs (2)

 Nécessité d’une intervention humaine pour combiner


les résultats

 Exploitation difficile (voire impossible) par d’autres


logiciels

 Classement des résultats parfois inadapté

 Informations non typées (« 11 Septembre »)


Web Sémantique
INTRODUCTION

Absence de sémantique

Exemple: difficulté de distinguer le


sens du verbe voler

Voler de l’argent
oiseau
Voler dans le ciel
avion
Voler au secours d’un ami

Web Sémantique
INTRODUCTION

Polysémie
Un seul terme pour plusieurs concepts …

Jaguar Jaguar Jaguar

4 4 2
Roue Patte Aile

Web Sémantique
INTRODUCTION

Traitement Automatique du
Langage Naturel (TALN)
Modéliser et reproduire, à l’aide de machines, la capacité humaine à
créer et à comprendre des énoncés linguistiques dans des buts de
communication

Applications:
 Traduction automatique
 Correction orthographique
 Reconnaissance d’écriture (OCR)
 Classification et la catégorisation de documents
 Traitement de la parole (Reconnaissance et synthèse)
 Extraction d’Entités Nommées
 Résolution d’anaphore
 Analyse sémantique
 Etc.

Web Sémantique
organization

Traitement automatique du
people event

texte
places equipment

• Reconnaissance de langue
écrite
• Classification et Clustering de
textes
• Résumé automatique de textes
• Extraction d’information et de
relations
24 Mai 2016

Traduction
• Traduction de langues rares et
dialectes
• Traduction de la parole
• Adaptation sur
vocabulaires/type de
documents spécifiques
Traitement de la parole

 Segmentation
Parole/Musique/Silence/etc.
 Identification Langue Parlée
 Reconnaissance et Transcription
Identification Locuteur
 Détection Genre/Age
 Recherche par similarité vocale
 Identification Locuteurs
Traitements Images
 Segmentation image
 Reconnaissance objets
 Recherche par similarité
 Description images en langage
naturel
Identification, Tracking,
Reconnaissance Personnes
Reconnaissance de caractères
 Classification nature de document
 Segmentation en blocs
 Reconnaissance de langue écrite
 Dactylo + manuscrit
 OCR Scène Naturelle / Vidéo
INTRODUCTION

Présentation des résultats


 Les informations sont destinées à un lecteur
humain (organisation visuelle, ergonomie,
esthétique, ...) .
 Les informations sont exprimées en langage
naturel et noyées dans le code HTML.
 Les informations de même type ne sont pas
compatibles (pas de comparaison possible).

Web Sémantique
Quelques rappels
 Quels sont les objectifs du web
sémantique ?
• Lier des données hétérogènes
• Rendre les pages web plus intelligible pour
les machines
• Mettre l’utilisateur au centre des systèmes
sémantiques
• Décrire sémantiquement les ressources sur
Internet

Web Sémantique
Quelques rappels
 Quels types de problèmes ont les
moteurs de recherche actuels sur
internet ?
• une incapacité à comprendre les contenus
• une incapacité à indexer les document
• un faible rappel
• une faible précision

Web Sémantique
Quelques rappels
 Qu’est ce que le TALN ?
• Le Traitement Automatisé des Liens Neutres
• La Traduction Automatique des LaNgues
• Le Traitement Automatique des Langues
Naturelles
• Le Traitement des Ambiguités des Langues
Natives

Web Sémantique
INTRODUCTION

Tim Berner Lee


 Directeur du W3C
 Initiateur du Web sémantique

 Conférence WWW 94 (création du W3C)


« un web de données qui peuvent être traitées
directement et indirectement par des machines pour
aider leurs utilisateurs à créer de nouvelles
connaissances »

Web Sémantique
INTRODUCTION

Vision du Web Sémantique


Ressource Service

href href génère dépend


href dépend

Ressource Ressource Ressource Document Service Service

fournisseur
href versionMAJ adresse
href Organisation
Document URL
Ressource

href href href créateur


href sujet
Personne
Ressource Ressource Ressource Document
Sujet

href adresse
Ecrivain

Web « classique » Web sémantique


Ressource Lieu

Web Sémantique
INTRODUCTION

Les données du Web

Web Sémantique
Photo credit “nepatterson”, Flickr
INTRODUCTION

Connecter les silos

Web Sémantique
Photo credit “kxlly”, Flickr
INTRODUCTION

Web Sémantique
INTRODUCTION

Web Sémantique
INTRODUCTION

Web Sémantique
INTRODUCTION

Web Sémantique
INTRODUCTION

A vous de jouer !
 Quels sont les concepts sous-jacents à
la réservation de billets d’avions ?
 Quelles sont les relations sous-jacentes
à ce même domaine ?
 Sauriez vous dessiner le réseau
sémantique associé

Web Sémantique
INTRODUCTION

Le Web Sémantique
 Concept : vise à aider l'émergence de
nouvelles connaissances en s'appuyant sur
les connaissances déjà présentes sur
Internet
 Organisation : mouvement collaboratif
piloté par le W3C
 Standards : dénomination regroupant un
ensemble de standards
 Outils : une galaxie d’outil s’appuyant sur
ces standards
… parfois assimilé/nommé Web 3.0.

Web Sémantique
INTRODUCTION

La pile de recommandations
W3C

Web Sémantique
INTRODUCTION

Une définition du mot Ontologie


 En philosophie : « Etude de ce qui est»

 Pour nous : « Une spécification


(description formelle) d’une
conceptualisation consensuelle d’un
domaine de connaissance » Définition
de Gruber

Web Sémantique
Une définition du mot Ontologie
 Vision opérationnelle ?
 Une ontologie est un réseau sémantique
qui regroupe un ensemble de concepts
décrivant complètement un domaine.
Ces concepts sont liés les uns aux
autres par des relations taxinomiques
(hiérarchisation des concepts) d'une
part, et sémantiques d'autre part.

Web Sémantique
INTRODUCTION

Objectifs d'une ontologie de


domaine

Se mettre d'accord sur le sens des termes employés


dans une organisation, une communauté, un métier.

Faire en sorte que les personnes se comprennent

Faire en sorte que les logiciels se comprennent

Web Sémantique
5 Critéres de Grüber
 La clarté : définition d'un concept de manière objective et
complète
 La cohérence : les connaissances inférées ne doivent pas
rentrer en conflit avec les choix de conceptualisation
 L'extensibilité : les extensions doivent être anticipées sans
avoir à toucher aux fondations de l'ontologie ;
 Une déformation d'encodage minimale : la spécification ne
doit pas poser des contraintes sur la conceptualisation
 un engagement ontologique minimal : Pas de besoin
d’exhaustivité mais d’une couverture complète sur un sous
ensemble d’intérêt

Web Sémantique
INTRODUCTION

Différents Modèles de
connaissance
Vocabulaire contrôlé = liste établie de termes normalisés
Taxonomie = Ensemble de termes d'un vocabulaire
contrôlé organisés de façon hiérarchique
(spécialisation/généralisation)
Thesaurus = Ensemble de termes d'un vocabulaire
contrôlé organisés selon un réseau de relations
(spécialisation/généralisation + association)
Ontologie = ensemble de concepts organisés dans un
graphe dont les relations peuvent être sémantiques, de
composition et taxinomique.

Web Sémantique
INTRODUCTION

Quelques ontologies de domaine


Exemples:
Dublin-Core (ISO 15836):
Schéma de méta-données générique
WordNet
Ontologie de la langue anglaise
FOAF:
Friend Of A Friend
ISO 21127:
Description des données concernant le patrimoine culturel
AOS:
Service d’Ontologie Agricole
ATO:
Animal Trait Ontology

Web Sémantique
INTRODUCTION

Exemples d’ontologies

 Dublin core: schéma de métadonnées générique pour décrire des ressources


numériques ou physiques
dc ="http://purl.org/dc/elements/1.1/"
dcterms ="http://purl.org/dc/terms/"
 Foaf ("Friend of a friend"): vocabulaire RDF pour décrire des personnes et leurs
relations
foaf ="http://xmlns.com/foaf/0.1/"
 WordNet = Ontologie de la langue anglaise
wn="http://XMLns.com/wordnet/1.6/"
 geoNames = Ontologie de toponymes
gn ="http://www.geonames.org/ontology#"
 DBpedia = Base de données extraites de Wikipédia
Dbp =http://dbpedia.org/

52
Web Sémantique Date
INTRODUCTION

Ontologies généralistes

Ressources extraites de wikipédia


http://dbpedia.org décrit 3,4 millions de « choses »

Web Sémantique
INTRODUCTION

Exemple d’ontologie: MENELAS

Web Sémantique
INTRODUCTION

Exemple d’ontologie: GeoNames


6,5 millions de lieux existants
http://www.geonames.org

Web Sémantique
INTRODUCTION

Exemple d’utilisation d’ontologie

•Description de contenus
audiovisuels
•Fouille de données

Web Sémantique
INTRODUCTION

Outils du Web Semantique


Pour formaliser la connaissance
 Construire des ontologies de domaine

 Aligner des ontologies

Pour programmer des fonctions de gestion de la connaissance


 Exprimer/comprendre des annotations RDF

 Stocker des triplets RDF

 Rechercher des informations

 Visualisation des connaissances

 Etc.

Web Sémantique
INTRODUCTION

Une initiative associée « Linking


Open Data » du W3C

http://www.w3.org/wiki/Main_Page
 Faciliter la création de liens entre les données
hétérogènes du Web.
 Développer le Web des données
 Favoriser la mise à disposition de données
ouvertes directement exploitables par les
applications
 Nécessite de décrire sémantiquement les
données pour les faire inter-opérer.

Web Sémantique
INTRODUCTION

Nuage du Linked Open Data

Web Sémantique

Vous aimerez peut-être aussi