Académique Documents
Professionnel Documents
Culture Documents
Web Sémantique
Web Sémantique
Introduction
INTRODUCTION
Déferlante numérique
m e tta n t
ti q u e s p er
i n fo rm a
d ’ o u t il s c o n te n us
: d i s p o s er l o i te r l e s
u
Enjedisponibles e e t d ’ e xp formes : que.
Données
p re n d r
sous de multiples
u to m a t i
d e c om e fa ç o n a
texte (html,
r i q e
PDF,
u d etc.),
s doc,
é
num(wav, wma, mp3, ac3, etc.),
audio
images (bmp, gif, jpeg, tiff, ...),
vidéo (dv, mpeg1, mpeg2, mpeg4,
mov, wmv, avi, divx, etc.).
Title / Name
Web Sémantique Date 4
INTRODUCTION
232 M
46 M
26 M
1M
100 K
10 K
600
10
Web Sémantique
Nombre de sites web
Internet
WEB
Sites
(URL)
Web
Not indexed
Can’t be read by the web crawlers
Volatile
Opaque Web
Visible but not crawled because of crawler limitation
Disconnected URLs
Private Web
Password protected
Use of "robot.txt" file to prevent crawling
"noindex" tag prevents spider from reading the head section
Proprietary Web
Registration required
Big Data ?
Web Sémantique
Big Data
« Concept marketing »
Données
Architecture / Technologies de
stockage / manipulation / traitement /
Algorithmes de traitement
Web Sémantique
INTRODUCTION
formelles informelles
Web
Papier
Radio/TV
Title / Name
Web Sémantique Date 13
INTRODUCTION
Web Sémantique
INTRODUCTION
Moteurs de recherche
Sur le Web
• Généraliste
Google, Yahoo, Bing, Baidu, Lycos, Voila Exalead, ...
• Actualité
Google News, WebPlanete, EchonimoNews, ...
• Commerce
Kelkoo, NexTag, Skyscanner, ...
• Méta-moteur
Innooo, Seeks, Ixquick, ...
... d’entreprise
Autonomy, Antidot, Exalead, Fast, Sinequa, Polyspot,
Lucene/SolR, ...
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
Précision / Rappel
Web Sémantique
17
INTRODUCTION
Définitions
Web Sémantique
INTRODUCTION
Absence de sémantique
Web Sémantique
INTRODUCTION
Absence de sémantique
Voler de l’argent
oiseau
Voler dans le ciel
avion
Voler au secours d’un ami
Web Sémantique
INTRODUCTION
Polysémie
Un seul terme pour plusieurs concepts …
4 4 2
Roue Patte Aile
Web Sémantique
INTRODUCTION
Traitement Automatique du
Langage Naturel (TALN)
Modéliser et reproduire, à l’aide de machines, la capacité humaine à
créer et à comprendre des énoncés linguistiques dans des buts de
communication
Applications:
Traduction automatique
Correction orthographique
Reconnaissance d’écriture (OCR)
Classification et la catégorisation de documents
Traitement de la parole (Reconnaissance et synthèse)
Extraction d’Entités Nommées
Résolution d’anaphore
Analyse sémantique
Etc.
Web Sémantique
organization
Traitement automatique du
people event
texte
places equipment
• Reconnaissance de langue
écrite
• Classification et Clustering de
textes
• Résumé automatique de textes
• Extraction d’information et de
relations
24 Mai 2016
Traduction
• Traduction de langues rares et
dialectes
• Traduction de la parole
• Adaptation sur
vocabulaires/type de
documents spécifiques
Traitement de la parole
Segmentation
Parole/Musique/Silence/etc.
Identification Langue Parlée
Reconnaissance et Transcription
Identification Locuteur
Détection Genre/Age
Recherche par similarité vocale
Identification Locuteurs
Traitements Images
Segmentation image
Reconnaissance objets
Recherche par similarité
Description images en langage
naturel
Identification, Tracking,
Reconnaissance Personnes
Reconnaissance de caractères
Classification nature de document
Segmentation en blocs
Reconnaissance de langue écrite
Dactylo + manuscrit
OCR Scène Naturelle / Vidéo
INTRODUCTION
Web Sémantique
Quelques rappels
Quels sont les objectifs du web
sémantique ?
• Lier des données hétérogènes
• Rendre les pages web plus intelligible pour
les machines
• Mettre l’utilisateur au centre des systèmes
sémantiques
• Décrire sémantiquement les ressources sur
Internet
Web Sémantique
Quelques rappels
Quels types de problèmes ont les
moteurs de recherche actuels sur
internet ?
• une incapacité à comprendre les contenus
• une incapacité à indexer les document
• un faible rappel
• une faible précision
Web Sémantique
Quelques rappels
Qu’est ce que le TALN ?
• Le Traitement Automatisé des Liens Neutres
• La Traduction Automatique des LaNgues
• Le Traitement Automatique des Langues
Naturelles
• Le Traitement des Ambiguités des Langues
Natives
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
fournisseur
href versionMAJ adresse
href Organisation
Document URL
Ressource
href adresse
Ecrivain
Web Sémantique
INTRODUCTION
Web Sémantique
Photo credit “nepatterson”, Flickr
INTRODUCTION
Web Sémantique
Photo credit “kxlly”, Flickr
INTRODUCTION
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
A vous de jouer !
Quels sont les concepts sous-jacents à
la réservation de billets d’avions ?
Quelles sont les relations sous-jacentes
à ce même domaine ?
Sauriez vous dessiner le réseau
sémantique associé
Web Sémantique
INTRODUCTION
Le Web Sémantique
Concept : vise à aider l'émergence de
nouvelles connaissances en s'appuyant sur
les connaissances déjà présentes sur
Internet
Organisation : mouvement collaboratif
piloté par le W3C
Standards : dénomination regroupant un
ensemble de standards
Outils : une galaxie d’outil s’appuyant sur
ces standards
… parfois assimilé/nommé Web 3.0.
Web Sémantique
INTRODUCTION
La pile de recommandations
W3C
Web Sémantique
INTRODUCTION
Web Sémantique
Une définition du mot Ontologie
Vision opérationnelle ?
Une ontologie est un réseau sémantique
qui regroupe un ensemble de concepts
décrivant complètement un domaine.
Ces concepts sont liés les uns aux
autres par des relations taxinomiques
(hiérarchisation des concepts) d'une
part, et sémantiques d'autre part.
Web Sémantique
INTRODUCTION
Web Sémantique
5 Critéres de Grüber
La clarté : définition d'un concept de manière objective et
complète
La cohérence : les connaissances inférées ne doivent pas
rentrer en conflit avec les choix de conceptualisation
L'extensibilité : les extensions doivent être anticipées sans
avoir à toucher aux fondations de l'ontologie ;
Une déformation d'encodage minimale : la spécification ne
doit pas poser des contraintes sur la conceptualisation
un engagement ontologique minimal : Pas de besoin
d’exhaustivité mais d’une couverture complète sur un sous
ensemble d’intérêt
Web Sémantique
INTRODUCTION
Différents Modèles de
connaissance
Vocabulaire contrôlé = liste établie de termes normalisés
Taxonomie = Ensemble de termes d'un vocabulaire
contrôlé organisés de façon hiérarchique
(spécialisation/généralisation)
Thesaurus = Ensemble de termes d'un vocabulaire
contrôlé organisés selon un réseau de relations
(spécialisation/généralisation + association)
Ontologie = ensemble de concepts organisés dans un
graphe dont les relations peuvent être sémantiques, de
composition et taxinomique.
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
Exemples d’ontologies
52
Web Sémantique Date
INTRODUCTION
Ontologies généralistes
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
Web Sémantique
INTRODUCTION
•Description de contenus
audiovisuels
•Fouille de données
Web Sémantique
INTRODUCTION
Etc.
Web Sémantique
INTRODUCTION
http://www.w3.org/wiki/Main_Page
Faciliter la création de liens entre les données
hétérogènes du Web.
Développer le Web des données
Favoriser la mise à disposition de données
ouvertes directement exploitables par les
applications
Nécessite de décrire sémantiquement les
données pour les faire inter-opérer.
Web Sémantique
INTRODUCTION
Web Sémantique