CM de Web Sémantique TE55SLM

13/09/2023
Cours magistral n°1 :
Évaluation : 1 dossier de groupe remis en ligne

1 écrit final le 14 décembre (date à confirmer)
Evaluation II : 1 écrit
I. Le World Wide Web
Internet → source wikipédia pour la définition
Pré-historique :
1961 : théorisation de la transmission par paquets

1962 : Licklider (MIT) : réseau d'ordinateurs → faciliter travail chercheurs de la DARPA
1962-1965 : RAND : étude de transmission par paquets pour l’armée US
1965 :Première connexion longue distance entre ordinateurs 1966 : Lancement conception de
l’ARPANET
1969 : Installation du premier noeud à UCLA
Fin 1969 : 4 noeuds
1970 : Invention du NCP
1972 : Le courrier électronique, première application important
1972 : Première démonstration en public
Historique
Internetting : permettre connexion entre réseaux divers :

ARPANET
Satellites
Radio
1973 : TCP
1980 : Scission d’ARPANET : MILNET et NSF
1984 : 4 millions de noeuds et 1000 ordinateurs reliés
Fin des années 80 : 5 centres informatiques → Connexion depuis n’importe où (aux USA !)
Un peu de technique
La transmission par paquets : les paquets : message découpé apr parquets, transmis séparément,
comporte un en-tête (acheminement et reconstitution), encapsule une partie des données, arrivent dans
ordre aléatoire
Les adresses IP : adresses uniques dans le monde, elles permettent d’identifier un ordinateur
→ IP v.4 : 1981 : définition d’IP v.4, codage sur 32 bits, de 0.0.0.0. à 255.255.255.2555, 4294 967
296 adresses possibles en théorie (232)
classes d’adresses:
classe A : de 0.0.0.0 à 127.255.255.2555
classe B. de 128.0.0.0 à 191.255.255.2555
classe C: de 192.0.0.0 à 223.255.255.2555
classe D : de 224.0.0.0 à 239.255.255.2555
de nombreuses entreprises ont acheté des plages d’adresses (ex: FAI, microsoft, Apple, Académies)
4 294 967 296 adresses possibles en théorie (232), février 2011 : épuisement des adresses, solution
provisoire : le NAT, solution à long (?) terme : IP v.6
IP v.6 : 1998 (!) : définition d’IP v.6, Codage sur 128 bits, décimal remplacé par hexadécimal (i.e.
FF=255=1111111), 340 282 366 920 938 563 463 374 607 431 768 211 456 adresses possibles en
théorie (2128)
Les routeurs :
Le système DNS : Domain Name System, adresse conviviale ⇔ Adresses IP

(ex:www.univ-montp3.fr< = > 193.52.137.200), hiearchisés : 13 serveurs racine + Serveurs récursifs
20/09/2023
Cours n°2 :
Le World Wide Web
Historique :
● 1984 : Le CERN adopter la même architecture qu’ARPANET pour ses échanges internes
● 1989-1991 : Tim Berners-Lee, Robert Cailliau et al. créent les adresses web, le HTTP et le
HTML et le premier serveur HTTP
Les adresses web :
● URL : Uniform Ressource Locator

● Indiquer avec une notation où trouver les ressources sur internet
● modèle théorique : <scheme>:<scheme-specificname>
● Exemple : http://www.univ-montp3.fr80
● http = protocole de communication -comme https,ftp,mailto…)
● : = caractère de séparation
● // : chaîne de caractères signifiant que l'on part du haut de la hiérarchie
● www = sous-domaine -souvent nom du serveur)
● univ-montp3 = nom du domaine de 2ème niveau
● fr = nom du domaine de 1er niveau ou extension de domaine
● 80 = nom de port utilisé pour la communication
Le HTTP :
● HyperTextTransferProtocol
● Client-serveur
● Supporte le MIME
● Méthodes : GET,HEAD,POST,...
● WebDav… (quand on dépose un fichier cela enclenche un protocole de transfert)
● Port : 80
Le HTTPS :
● S pour Sécurisé
● Couche de chiffrement
● Certificat d’authentification
● Port 443
HTML :
● HyperTextMarkupLanguage
● Basé sur SGML
● Langage de description de document
● Sert à expliciter ce que l’on veut afficher
● notion de balise (Markup)
● Langage en mode texte
● Simple
● Format de définition de documents (ici : le spages web)
● Notion d’hypertexte
Pré-historique de l'Hypertexte :
● Hypertexte = Passer d’un noeud à un autre

● 1945 : Vannevar Bush : Memex
● Hypertexte : Ted Nelson (1965) – Non séquentialité
● HyperCard (1987)
Format de définition de documents :
HTML définit une page, il doit être interprété par un logiciel (le navigateur) = affichage
Evolutions :
● HTML initial (1.0) : informel

● HTML I.I
● 1995 : HTML 2.0
● 01/1997 : HTML 3.é
● 12/1997 : HTML ‘;à
● 2000 : Abandon pour XHTML
● 2007 : Reprise du développement d’HTML
● 2009 : Abandon d’XHTML
● 2014 : Spécification HTML 5
Extensions du HTML (client) :
● Base MIME
● Cookies
● Scripts : Javascript; Active
● Macromedia Shockwave / Flash
● Lecteurs PDF (Acrobat)
● CSS
● Plug-ins propres aux navigateurs
Extensions du HTML (serveur) :
● CGI
● ISAPI
● ASP
● ASPX
● PHP
Processus mise à jour d’une page :
● Récupérer la page sur le serveur via un client FTP

● Modifier la page dans un éditeur
● Renvoyer la page sur le serveur
Inconvénients :
● Balises doivent être fermées

● Balises prédéterminées
● Nécessite un éditeur de page HTML
● Fonctionnalités limitées…
● Pages figées
La connexion aux bases de données :
● Les SGBD ou DBMS

● SQL
● PHP / Mysql
● ASPX / SQL Server
SGBD ( R ) :
Avantages :
● Permet de récupérer des données
php : monde libre, fonctionnalités supplémentaires
ASPX :
Les CMS :
● Content Management System ou SGC

● Plus de “pages” web
● Dynamiques : c'est susceptible d'être changer très rapidement juste via une connexion aux
bases de données
Fonctionnement des CMS :
● Des gabarits (ou Templates)

● Le système “génère” une page HTML à la demande en extrayant les bases de données du
SGBD
Comment cela fonctionne ? : le client envoie une requête vers le serveur HTTP
27/09/2023
Cours magistral n°3 :
Le Web 2.0 :
Il va permettre la participation. IL va offrir :
La simplicité, l'interaction. On ne parle plus de sites mais de pages générées à la volée. L’internaute
devient acteur et non plus seulement observateur. C’est la naissance des wikis (participation, réseaux
sociaux), le bêta perpétuel (conséquence de la dynamique de la possibilité d’intervenir immédiatement
: on peut retoucher ce que l’on a écrit), AJAX
Quelques chiffres :
- source InternetWorldStats
- le 31 décembre 2011 on était 2 267 233 742 internautes
2. Trouver sur le web
2.1 Un internet gigantesque
- plus de 3,6 MM d’internautes qui publient des pages
Et une question sans réponse : “Julien Sorel est-il condamnable ?” => inutilisable car trop de pages
web
“Pourquoi ?”
Un web de documents
- HTML décrit les pages, le problème

- c’est Quid des données → les données sont inutilisables
- inutilisable ?
Le moteur de recherches
- 1990 : mots-clés : on met sur notre page (balise méta) des mots-clés
- 1998 : tri des pages par ordre d’importance (Google) : OTD (on this day) google naissait et a
explosé car obtention de la licence d’un algorithme classant les résultats selon une importance
calculée des pages
- Comment ? : On calcule l’importance des liens vers les pages
Comment consulte-t-on le web ?
- être humain est capable de trier les informations et reconnaît à lui seul ce qu’est une page, un
tableau, une image histoire..
- tri des informations
2.2 Les métadonnées
Définition
Ce sont des données sur les données. Description des données. Balise <meta> en HTML (!)
Organiser des données
Tableau
Dans le tableau Excel, il y a des en-têtes de colonnes qui sont des éléments sémantiques donnant du
sens à ce qu’il y a en dessous.
La BDR (bis)
Une solution
Je garde l’ID de l’employé et l'élément que je veux décrire
2.4 Le triplet
On a une ressource, une valeur et une propriété

Ressource liée à la valeur par propriété
On parle de sujet, prédicat et d’objet
Le sujet peut être l’objet d’un prédicat (rond)

Quand chaîne finale (élément atomisé) liée à un quel élément (carré)
Dans le web, notre nom n’est plus notre identifiant. L’identifiant unique est l’URL (se présente sous la
forme d’une adresse web).
2.5 Vers un web des données
Description d’un cas concret
Article de Tim
- téléphone sonne => baise le volume des autres appareils

- mère malade => besoin physiothérapeute
- Cherche où aller sur son portable (à l’époque “ordinateur” !)
- trouve physiothérpaeute
- prendre RDV
Le principe
- notion d’ “agent” qui va chercher sur le web

- pas besoin d’AI : les données sont sur le web
- structurés grâce aux langages XML et RDF (ontologies)
- permet une évolution de la connaissance
- le même web mais une extension
foaf ontology : www.ijcset.net :
04/10/2023
Cours n°4 :
RDF
● Est un “Frmawork”, un modèle

● N’est pas un langage de programmation (RDF Schéma)
● +/- “code de bonne description”
● Lié aux URI
● Modèle entité-association
RDF Schéma
● Langage
● “Vérifier qu’un permis de conduire contient à rubrique “Nom” le nom d’une personne et le
nom d'un contrôle de modèle de voiture”
Triplet
données atomisées (au bout de l a chaînes et non reliées)
La réification (ou factorisation)
Un triplet devient sujet ou objet
3.2. Les ontologies
Origines
● Philosophie : études des pro

modélisation de la connaissance sous forme de concepts reliés à un domaine
établissement de liens entre ces concepts
Vers une définition
● Vocabulaires formalisés de termes*

● Couvrent souvent un domaine spécifique
● Partagées entre utilisateurs (+/- consensus)
Progression
● taxonomie
● thésaurus
● modèle conceptuel
3 éléments de bas
● axiome : propriétés que l’on se donne

● entités : référents aux objets du monde
● expressions : combinaison d’entités pour former des descriptions complexes à partir de
formes de base
Énoncés de base
● Tout homme est mortel

● je suis
Pourquoi faire ?
● AI peut s'appuyer dessus mais pas besoin d’elle pour utiliser l'ontologie
● raisonnements automatisés (ami : vous connaissez peut-être ou fil d’actualité)
● modèle de calcul
Les éléments d’une ontologie - I
● Individus objets, instances

● Classes : collections, concepts, types d’objets
● Attributs : propriétés, caractéristiques, paramètres…
● Relations : Lient classes et attributs
Les éléments d’une ontologie - II
● Restrictions : Descriptions qui définissent les conditions pour que des assertions peuvent être
acceptées comme entrées
● Règles : Déclarations de causalité qui définissent les possibilités d’inférence
● Axiomes : Assertions logiques qui expriment une vérité supposée
Ontologies supérieures
● Ontologies de niveau supérieur (cf. idée de classe)

● Dublin Core, SUMO,
Le Dublin Core
● 1995 : Dublin Core

● 15 éléments de base
● 2002 : DC adopté par l’UE comme standard, régit l'indexation des médias de toutes les BU
dans les abcès de données
● Title
● Creator
● Subject
● Description
● Publisher
● Contributor
● Date
● Type
● Format
● Identifier
● Source
● Language
● Relation
● Coverage
● Rights
Espace de noms
● En cas d’ambiguité avec éléments nommés <<ID_etudiant” => upv:ID_etudiant et

sorb:ID_etudiant
● Problématique unicité espaces de noms
11/10/2023
Cours n°5 :
→ prof absent
18/10/2023
Cours n°6 :
Microformats / RDFa
Langage informatique
Web sémantique : lent à mettre en place (Rappel : 1998!)
trop ambitieux ?
<meta> : erreur visible + pas abus : si 200 liens => visiteur alerté
Avantage : Pas de coexistence de 2 fichiers : XML et HTML
Microformats :
réutilisation de l’existant en y ajoutant / insérant des données supplémentaires

utilisation classes et attributs XHML et HTML
XHTML visible sur le net (avec CSS)
XML devait, mais en fait pas vraiment => HTML reste dominant
=> RDF est invisible pour l’homme
But information => humain traitée automatiquement
permet d’éviter traitements automatiques come TALN ou screen-scraping
Réutiliser pas réinventer
et si on trouve pas un
uF (microformat) => exemple : hCard : carte visite ou hCalendare , date événement (ISO)
Inconvénient des microformats : plus de code HTML, du nouveau à maintenir, supports variables
selon le navigateurs, pas tous types de données générées, attirent l'attention des robots qui parcourent
le web : risque de Data mining (cf.IBM)
Pour résumer : concept similaire au web sémantique dans concepts différent sds implantation
WS tourné vers machine pas lisibilité par l'homme
microformat veut info sémantique sur web d'abris pour homme puis pour machines
mouvement <<de la abse>> : expérimentation ouverte
plus ou moins espace d'échange (mainlign liste), décentralisé pas une recommandation W3C
RDFa :
- langage spécifique pour XHTML mais devrait être tt lang basé
5 principes de etada interopérables /

indépendance éditeur : chaque site utilise ses propres standards
réutilisation de données : connais pas dupliquée (pas besoin de répéter dans sections XML des
données)
modularité du schéma : attributs réutilisables
Attributs HTML utilisés

class : séicif type d'objet
id : indirectement ⇔ d’URI
rel et rev : relation ou relation-inverse avec autre ressource
href et ressource – ressource liée (partenaire)
Avantages :
RDFa stricte respect de RDF donc je peux fair edes recueil de triplets avec SPARQL
possibilité de créer du voc personnalisé (schéma RDF pour RDFa)
25/10/2023
Cours n°7 :
Le SWLC
SWLC (le mille-feuille du web sémantique)
On part des phénomènes de base de ce qui est requis à la base au moment où la personne peut faire
confiance au résultat (ce qui est livré au web sémantique) → utilisation de caractères unicodes et URL
URI = adresse web qui met à disposition les ontologies
A l’étage au dessu, on a la nécessité d'utiliser le langage XML avec le NS ce sont les espaces de nom
Trust
X dit A,Y dit B

Qui à raison ?
preuve : certification, signature digitale, sources…
Problématique de consensus ontologie + consensus individus
Signature digitale :
garantit authentification, intégrité, non répudiation

typ PGP
pt être incluse dans prédicat : dans le prédicat e peux mettre a pour nom de famille certifié par, si
j’inclus la signature digitale le prédicat peut fonctionner si je suis automatisé (garantit donc la
fiabilité)
=> taille données
Enjeux du web sémantique
Quelle technologie ?
Microformats : c'est bien mais le problème c’est que c'est une communauté qui maintient cela donc
cela peut évoluer et compliqué à maintenir
TALN : non ca suffira pas (utilisé dans les IA)
RDF : c’est ce qui est conseillé, mais lourdeur pour le mettre en place
Ontologies
Réutiliser l’existant ? : oui surtout si une ontologie est bien faite une autre pourra se raccorder dessu
Réécrire ? : intéressant si on a une ontologie dont on découvre qu'elle est bancale (problème de
cohérence), parfois vaut mieu à l' écrit plutôt que de faire trop de corrections
Vers une guerre des schémas ? des ontologies ? : celle qui a le plus d’éléments s'imposent par rapport
aux autres quis ont mieux structurée mais moins peuplées
Internet des objets
Puces RFID :
Ubiquitous computing / Pervasive computing : le numérique s'introduit partout
Ambient intelligence (Aml) : Informatique sert d’ interface entre les objets - Déclenchement spontané
Everyware : c’est cette omniprésence du numérique dans notre vie
Autonomie informatique (!?) : Agent autonome et interconnexion : les agents informatique sont
conçus pour se promener de façon autonome dans els ontologie pour chercher la donnée demandée
Agent :
autonomie, sociabilité (interagir avec autres agents), réactivité:/environnement (il va chercher

ailleurs), proactivité : agir pour atteindre son but, continuité temporelle, apprentissage, raisonnement
(chercher de manière ciblée), rationalité : pour atteindre but de manière efficace ou successful,
véracité : ne pas “mentir”, bio-induction?: interaction avec ondes cérébrales ?, mobilité : d’une
machine à l’autre (ex:Diagnostic ordi et retour vers serveur), coopération : atteindre buts communs,
négociation
08/11/2023
Cours n°8 :
OpenData
OpenData Pourquoi ?
- données par prises en compte : ce sont produits qui en sont issus qui vont avoir une valeur
- les données peuvent êtres offertes, récupérées et brevetées
- financement privé et public
- Que peut-on breveter ?
- l’opendata c’est rendre certaines données librement accessibles
Quelles données va-t-on pouvoir publier ?
- données sensibles ?
- données économiques ?
- perte de contrôle sur la donnée !
- quid si partiel ?
Administration américaine : Transparence
- whitehouse.gov => RDFa

- Recorvery Act => recorvery.gov → remettre les donénes à disposition des citoyens
- Open government : Publication de “High Value Data” (haute valeurs) pour que les simples
citoyens puissent juger de l’emploie de données publiques, de la répartition des forces de
l’ordre dans le cas (puissent avoir un regard éclairé sur le gouvernement)
- www.data.gov → pouvoir rechercher et explorer la dépense publique jusqu’au niveau du code
postal (accès au budget de la ville)
France : data.gouv.fr
- La plateforme “data.gouv.fr” permet aux services publics de publier de données publiques et à

la société civile de les enrichir, modifier et interpréter en vue de coproduire des informations
d'intérêt général.
EU : Un exemple : La directive INSPIRE
- direction générale de l’environnement de la Commission européenne

- INfrastructure dor S
- favoriser le change des données aus ein de la communauté européenne dans le domaine de
l'environnement pris dans un sens large (SIG)
- le but : établir en europe une infrastructure de données géographiques pour assurer
l’interopérabilité entre bases de données et faciliter la diffusion, la disponibilité, l’utilisation
et la réutilisation de l’information géographique en Europe
Inspire : Obligations
- fourniture des données selon les règles de mise en oeuvre communes;

- constitutions de catalogues de données (métadonnées);
- application de règles d’interopérabilité;
- accès gratuit aux métadonnées;
- accès aux données pour les acteurs réalisant une mission rentrant dans le cadre d’INSPIRE;
- services pour permettre ces accès;
- existence d’une organisation adaptée pour s’assurer de la bonne mise en œuvre de la directive.
-
INSPIRE : Les principes
- la directive INSPIRE s’appuie sur plusieur principes fondateurs d’une infrastructure

d'information géographique :
- Les données géographiques doivent être collectées une seule fois afin d’éviter la duplication,
puis stockées, mises à disposition et actualisées par l'autorité la plus compétente.
- Il doit être possible de combiner facilement et de manière cohérente des informations
géographiques provenant de différentes sources à travers l'Europe, et de les partager entre
différents utilisateurs et applications.
- Une information collectée par une autorité publique doit pouvoir être partagée par l’ensemble
des autres organismes publics, quel que soit leur niveau hiérarchique ou administratif, par
exemple des données de détail pour les enquêtes fines et des informations générales pour des
sujets stratégiques.
- L'information géographique doit être disponible dans des conditions qui ne fassent pas
indûment obstacle à une utilisation extensive.
- Il doit être facile de connaître quelles sont les infos géographiques disponibles, à quels
besoins particuliers elles peuvent répondre, et sous quelles conditions elles peuvent êtres
acquises et utilisées
semaine 11 : intervenant sur l’IA

CM de Web Sémantique TE55SLM

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CM de Web Sémantique TE55SLM

Transféré par

Droits d'auteur :

Formats disponibles

13/09/2023

Cours magistral n°1 :

Évaluation : 1 dossier de groupe remis en ligne

I. Le World Wide Web

Internet → source wikipédia pour la définition

1961 : théorisation de la transmission par paquets

Internetting : permettre connexion entre réseaux divers :

Le système DNS : Domain Name System, adresse conviviale ⇔ Adresses IP

Le World Wide Web

Les adresses web :

● URL : Uniform Ressource Locator

● Hypertexte = Passer d’un noeud à un autre

Format de définition de documents :

● HTML initial (1.0) : informel

Extensions du HTML (client) :

Extensions du HTML (serveur) :

Processus mise à jour d’une page :

● Récupérer la page sur le serveur via un client FTP

● Balises doivent être fermées

La connexion aux bases de données :

● Les SGBD ou DBMS

● Permet de récupérer des données

php : monde libre, fonctionnalités supplémentaires

● Content Management System ou SGC

Fonctionnement des CMS :

● Des gabarits (ou Templates)

Cours magistral n°3 :

2. Trouver sur le web

2.1 Un internet gigantesque

- plus de 3,6 MM d’internautes qui publient des pages

- HTML décrit les pages, le problème

Comment consulte-t-on le web ?

2.2 Les métadonnées

Organiser des données

Je garde l’ID de l’employé et l'élément que je veux décrire

On a une ressource, une valeur et une propriété

On parle de sujet, prédicat et d’objet

Le sujet peut être l’objet d’un prédicat (rond)

2.5 Vers un web des données

Description d’un cas concret

- téléphone sonne => baise le volume des autres appareils

- notion d’ “agent” qui va chercher sur le web

foaf ontology : www.ijcset.net :

● Est un “Frmawork”, un modèle

données atomisées (au bout de l a chaînes et non reliées)

La réification (ou factorisation)

Un triplet devient sujet ou objet

3.2. Les ontologies

● Philosophie : études des pro

Vers une définition

● Vocabulaires formalisés de termes*

● axiome : propriétés que l’on se donne

● Tout homme est mortel

Les éléments d’une ontologie - I

● Individus objets, instances

Les éléments d’une ontologie - II

● Ontologies de niveau supérieur (cf. idée de classe)

● 1995 : Dublin Core

● En cas d’ambiguité avec éléments nommés <<ID_etudiant” => upv:ID_etudiant et

réutilisation de l’existant en y ajoutant / insérant des données supplémentaires

- langage spécifique pour XHTML mais devrait être tt lang basé

5 principes de etada interopérables /

Attributs HTML utilisés

SWLC (le mille-feuille du web sémantique)