Vous êtes sur la page 1sur 15

13/09/2023

Cours magistral n°1 :

Évaluation : 1 dossier de groupe remis en ligne


1 écrit final le 14 décembre (date à confirmer)

Evaluation II : 1 écrit

I. Le World Wide Web

Internet → source wikipédia pour la définition

Pré-historique :

1961 : théorisation de la transmission par paquets


1962 : Licklider (MIT) : réseau d'ordinateurs → faciliter travail chercheurs de la DARPA
1962-1965 : RAND : étude de transmission par paquets pour l’armée US
1965 :Première connexion longue distance entre ordinateurs 1966 : Lancement conception de
l’ARPANET
1969 : Installation du premier noeud à UCLA
Fin 1969 : 4 noeuds
1970 : Invention du NCP
1972 : Le courrier électronique, première application important
1972 : Première démonstration en public

Historique

Internetting : permettre connexion entre réseaux divers :


ARPANET
Satellites
Radio

1973 : TCP
1980 : Scission d’ARPANET : MILNET et NSF
1984 : 4 millions de noeuds et 1000 ordinateurs reliés
Fin des années 80 : 5 centres informatiques → Connexion depuis n’importe où (aux USA !)

Un peu de technique

La transmission par paquets : les paquets : message découpé apr parquets, transmis séparément,
comporte un en-tête (acheminement et reconstitution), encapsule une partie des données, arrivent dans
ordre aléatoire
Les adresses IP : adresses uniques dans le monde, elles permettent d’identifier un ordinateur
→ IP v.4 : 1981 : définition d’IP v.4, codage sur 32 bits, de 0.0.0.0. à 255.255.255.2555, 4294 967
296 adresses possibles en théorie (232)
classes d’adresses:
classe A : de 0.0.0.0 à 127.255.255.2555
classe B. de 128.0.0.0 à 191.255.255.2555
classe C: de 192.0.0.0 à 223.255.255.2555
classe D : de 224.0.0.0 à 239.255.255.2555
de nombreuses entreprises ont acheté des plages d’adresses (ex: FAI, microsoft, Apple, Académies)
4 294 967 296 adresses possibles en théorie (232), février 2011 : épuisement des adresses, solution
provisoire : le NAT, solution à long (?) terme : IP v.6

IP v.6 : 1998 (!) : définition d’IP v.6, Codage sur 128 bits, décimal remplacé par hexadécimal (i.e.
FF=255=1111111), 340 282 366 920 938 563 463 374 607 431 768 211 456 adresses possibles en
théorie (2128)

Les routeurs :

Le système DNS : Domain Name System, adresse conviviale ⇔ Adresses IP


(ex:www.univ-montp3.fr< = > 193.52.137.200), hiearchisés : 13 serveurs racine + Serveurs récursifs

20/09/2023

Cours n°2 :

Le World Wide Web

Historique :

● 1984 : Le CERN adopter la même architecture qu’ARPANET pour ses échanges internes
● 1989-1991 : Tim Berners-Lee, Robert Cailliau et al. créent les adresses web, le HTTP et le
HTML et le premier serveur HTTP

Les adresses web :

● URL : Uniform Ressource Locator


● Indiquer avec une notation où trouver les ressources sur internet
● modèle théorique : <scheme>:<scheme-specificname>
● Exemple : http://www.univ-montp3.fr80
● http = protocole de communication -comme https,ftp,mailto…)
● : = caractère de séparation
● // : chaîne de caractères signifiant que l'on part du haut de la hiérarchie
● www = sous-domaine -souvent nom du serveur)
● univ-montp3 = nom du domaine de 2ème niveau
● fr = nom du domaine de 1er niveau ou extension de domaine
● 80 = nom de port utilisé pour la communication

Le HTTP :

● HyperTextTransferProtocol
● Client-serveur
● Supporte le MIME
● Méthodes : GET,HEAD,POST,...
● WebDav… (quand on dépose un fichier cela enclenche un protocole de transfert)
● Port : 80

Le HTTPS :

● S pour Sécurisé
● Couche de chiffrement
● Certificat d’authentification
● Port 443

HTML :

● HyperTextMarkupLanguage
● Basé sur SGML
● Langage de description de document
● Sert à expliciter ce que l’on veut afficher
● notion de balise (Markup)
● Langage en mode texte
● Simple
● Format de définition de documents (ici : le spages web)
● Notion d’hypertexte

Pré-historique de l'Hypertexte :

● Hypertexte = Passer d’un noeud à un autre


● 1945 : Vannevar Bush : Memex
● Hypertexte : Ted Nelson (1965) – Non séquentialité
● HyperCard (1987)

Format de définition de documents :

HTML définit une page, il doit être interprété par un logiciel (le navigateur) = affichage

Evolutions :

● HTML initial (1.0) : informel


● HTML I.I
● 1995 : HTML 2.0
● 01/1997 : HTML 3.é
● 12/1997 : HTML ‘;à
● 2000 : Abandon pour XHTML
● 2007 : Reprise du développement d’HTML
● 2009 : Abandon d’XHTML
● 2014 : Spécification HTML 5

Extensions du HTML (client) :

● Base MIME
● Cookies
● Scripts : Javascript; Active
● Macromedia Shockwave / Flash
● Lecteurs PDF (Acrobat)
● CSS
● Plug-ins propres aux navigateurs

Extensions du HTML (serveur) :

● CGI
● ISAPI
● ASP
● ASPX
● PHP

Processus mise à jour d’une page :

● Récupérer la page sur le serveur via un client FTP


● Modifier la page dans un éditeur
● Renvoyer la page sur le serveur

Inconvénients :

● Balises doivent être fermées


● Balises prédéterminées
● Nécessite un éditeur de page HTML
● Fonctionnalités limitées…
● Pages figées

La connexion aux bases de données :

● Les SGBD ou DBMS


● SQL
● PHP / Mysql
● ASPX / SQL Server

SGBD ( R ) :

Avantages :

● Permet de récupérer des données

php : monde libre, fonctionnalités supplémentaires

ASPX :

Les CMS :

● Content Management System ou SGC


● Plus de “pages” web
● Dynamiques : c'est susceptible d'être changer très rapidement juste via une connexion aux
bases de données

Fonctionnement des CMS :

● Des gabarits (ou Templates)


● Le système “génère” une page HTML à la demande en extrayant les bases de données du
SGBD

Comment cela fonctionne ? : le client envoie une requête vers le serveur HTTP

27/09/2023

Cours magistral n°3 :

Le Web 2.0 :
Il va permettre la participation. IL va offrir :

La simplicité, l'interaction. On ne parle plus de sites mais de pages générées à la volée. L’internaute
devient acteur et non plus seulement observateur. C’est la naissance des wikis (participation, réseaux
sociaux), le bêta perpétuel (conséquence de la dynamique de la possibilité d’intervenir immédiatement
: on peut retoucher ce que l’on a écrit), AJAX

Quelques chiffres :

- source InternetWorldStats
- le 31 décembre 2011 on était 2 267 233 742 internautes

2. Trouver sur le web

2.1 Un internet gigantesque

- plus de 3,6 MM d’internautes qui publient des pages

Et une question sans réponse : “Julien Sorel est-il condamnable ?” => inutilisable car trop de pages
web

“Pourquoi ?”

Un web de documents

- HTML décrit les pages, le problème


- c’est Quid des données → les données sont inutilisables
- inutilisable ?

Le moteur de recherches

- 1990 : mots-clés : on met sur notre page (balise méta) des mots-clés
- 1998 : tri des pages par ordre d’importance (Google) : OTD (on this day) google naissait et a
explosé car obtention de la licence d’un algorithme classant les résultats selon une importance
calculée des pages
- Comment ? : On calcule l’importance des liens vers les pages

Comment consulte-t-on le web ?

- être humain est capable de trier les informations et reconnaît à lui seul ce qu’est une page, un
tableau, une image histoire..
- tri des informations

2.2 Les métadonnées

Définition
Ce sont des données sur les données. Description des données. Balise <meta> en HTML (!)

Organiser des données

Tableau

Dans le tableau Excel, il y a des en-têtes de colonnes qui sont des éléments sémantiques donnant du
sens à ce qu’il y a en dessous.

La BDR (bis)

Une solution

Je garde l’ID de l’employé et l'élément que je veux décrire

2.4 Le triplet

On a une ressource, une valeur et une propriété


Ressource liée à la valeur par propriété

On parle de sujet, prédicat et d’objet

Le sujet peut être l’objet d’un prédicat (rond)


Quand chaîne finale (élément atomisé) liée à un quel élément (carré)

Dans le web, notre nom n’est plus notre identifiant. L’identifiant unique est l’URL (se présente sous la
forme d’une adresse web).

2.5 Vers un web des données

Description d’un cas concret

Article de Tim

- téléphone sonne => baise le volume des autres appareils


- mère malade => besoin physiothérapeute
- Cherche où aller sur son portable (à l’époque “ordinateur” !)
- trouve physiothérpaeute
- prendre RDV

Le principe

- notion d’ “agent” qui va chercher sur le web


- pas besoin d’AI : les données sont sur le web
- structurés grâce aux langages XML et RDF (ontologies)
- permet une évolution de la connaissance
- le même web mais une extension

foaf ontology : www.ijcset.net :

04/10/2023

Cours n°4 :

RDF

● Est un “Frmawork”, un modèle


● N’est pas un langage de programmation (RDF Schéma)
● +/- “code de bonne description”
● Lié aux URI
● Modèle entité-association

RDF Schéma

● Langage
● “Vérifier qu’un permis de conduire contient à rubrique “Nom” le nom d’une personne et le
nom d'un contrôle de modèle de voiture”

Triplet

données atomisées (au bout de l a chaînes et non reliées)

La réification (ou factorisation)

Un triplet devient sujet ou objet

3.2. Les ontologies

Origines

● Philosophie : études des pro


modélisation de la connaissance sous forme de concepts reliés à un domaine
établissement de liens entre ces concepts

Vers une définition

● Vocabulaires formalisés de termes*


● Couvrent souvent un domaine spécifique
● Partagées entre utilisateurs (+/- consensus)
Progression

● taxonomie
● thésaurus
● modèle conceptuel

3 éléments de bas

● axiome : propriétés que l’on se donne


● entités : référents aux objets du monde
● expressions : combinaison d’entités pour former des descriptions complexes à partir de
formes de base

Énoncés de base

● Tout homme est mortel


● je suis

Pourquoi faire ?

● AI peut s'appuyer dessus mais pas besoin d’elle pour utiliser l'ontologie
● raisonnements automatisés (ami : vous connaissez peut-être ou fil d’actualité)
● modèle de calcul

Les éléments d’une ontologie - I

● Individus objets, instances


● Classes : collections, concepts, types d’objets
● Attributs : propriétés, caractéristiques, paramètres…
● Relations : Lient classes et attributs

Les éléments d’une ontologie - II

● Restrictions : Descriptions qui définissent les conditions pour que des assertions peuvent être
acceptées comme entrées
● Règles : Déclarations de causalité qui définissent les possibilités d’inférence
● Axiomes : Assertions logiques qui expriment une vérité supposée

Ontologies supérieures

● Ontologies de niveau supérieur (cf. idée de classe)


● Dublin Core, SUMO,
Le Dublin Core

● 1995 : Dublin Core


● 15 éléments de base
● 2002 : DC adopté par l’UE comme standard, régit l'indexation des médias de toutes les BU
dans les abcès de données
● Title
● Creator
● Subject
● Description
● Publisher
● Contributor
● Date
● Type
● Format
● Identifier
● Source
● Language
● Relation
● Coverage
● Rights

Espace de noms

● En cas d’ambiguité avec éléments nommés <<ID_etudiant” => upv:ID_etudiant et


sorb:ID_etudiant
● Problématique unicité espaces de noms

11/10/2023

Cours n°5 :

→ prof absent

18/10/2023

Cours n°6 :

Microformats / RDFa
Langage informatique
Web sémantique : lent à mettre en place (Rappel : 1998!)
trop ambitieux ?
<meta> : erreur visible + pas abus : si 200 liens => visiteur alerté
Avantage : Pas de coexistence de 2 fichiers : XML et HTML

Microformats :

réutilisation de l’existant en y ajoutant / insérant des données supplémentaires


utilisation classes et attributs XHML et HTML
XHTML visible sur le net (avec CSS)
XML devait, mais en fait pas vraiment => HTML reste dominant
=> RDF est invisible pour l’homme
But information => humain traitée automatiquement
permet d’éviter traitements automatiques come TALN ou screen-scraping
Réutiliser pas réinventer
et si on trouve pas un
uF (microformat) => exemple : hCard : carte visite ou hCalendare , date événement (ISO)

Inconvénient des microformats : plus de code HTML, du nouveau à maintenir, supports variables
selon le navigateurs, pas tous types de données générées, attirent l'attention des robots qui parcourent
le web : risque de Data mining (cf.IBM)

Pour résumer : concept similaire au web sémantique dans concepts différent sds implantation
WS tourné vers machine pas lisibilité par l'homme
microformat veut info sémantique sur web d'abris pour homme puis pour machines
mouvement <<de la abse>> : expérimentation ouverte
plus ou moins espace d'échange (mainlign liste), décentralisé pas une recommandation W3C

RDFa :

- langage spécifique pour XHTML mais devrait être tt lang basé

5 principes de etada interopérables /


indépendance éditeur : chaque site utilise ses propres standards

réutilisation de données : connais pas dupliquée (pas besoin de répéter dans sections XML des
données)
modularité du schéma : attributs réutilisables

Attributs HTML utilisés


class : séicif type d'objet
id : indirectement ⇔ d’URI
rel et rev : relation ou relation-inverse avec autre ressource
href et ressource – ressource liée (partenaire)

Avantages :
RDFa stricte respect de RDF donc je peux fair edes recueil de triplets avec SPARQL
possibilité de créer du voc personnalisé (schéma RDF pour RDFa)

25/10/2023

Cours n°7 :

Le SWLC

SWLC (le mille-feuille du web sémantique)

On part des phénomènes de base de ce qui est requis à la base au moment où la personne peut faire
confiance au résultat (ce qui est livré au web sémantique) → utilisation de caractères unicodes et URL
URI = adresse web qui met à disposition les ontologies
A l’étage au dessu, on a la nécessité d'utiliser le langage XML avec le NS ce sont les espaces de nom

Trust

X dit A,Y dit B


Qui à raison ?
preuve : certification, signature digitale, sources…
Problématique de consensus ontologie + consensus individus

Signature digitale :

garantit authentification, intégrité, non répudiation


typ PGP
pt être incluse dans prédicat : dans le prédicat e peux mettre a pour nom de famille certifié par, si
j’inclus la signature digitale le prédicat peut fonctionner si je suis automatisé (garantit donc la
fiabilité)
=> taille données

Enjeux du web sémantique

Quelle technologie ?

Microformats : c'est bien mais le problème c’est que c'est une communauté qui maintient cela donc
cela peut évoluer et compliqué à maintenir

TALN : non ca suffira pas (utilisé dans les IA)

RDF : c’est ce qui est conseillé, mais lourdeur pour le mettre en place

Ontologies
Réutiliser l’existant ? : oui surtout si une ontologie est bien faite une autre pourra se raccorder dessu

Réécrire ? : intéressant si on a une ontologie dont on découvre qu'elle est bancale (problème de
cohérence), parfois vaut mieu à l' écrit plutôt que de faire trop de corrections

Vers une guerre des schémas ? des ontologies ? : celle qui a le plus d’éléments s'imposent par rapport
aux autres quis ont mieux structurée mais moins peuplées

Internet des objets

Puces RFID :

Ubiquitous computing / Pervasive computing : le numérique s'introduit partout

Ambient intelligence (Aml) : Informatique sert d’ interface entre les objets - Déclenchement spontané

Everyware : c’est cette omniprésence du numérique dans notre vie

Autonomie informatique (!?) : Agent autonome et interconnexion : les agents informatique sont
conçus pour se promener de façon autonome dans els ontologie pour chercher la donnée demandée

Agent :

autonomie, sociabilité (interagir avec autres agents), réactivité:/environnement (il va chercher


ailleurs), proactivité : agir pour atteindre son but, continuité temporelle, apprentissage, raisonnement
(chercher de manière ciblée), rationalité : pour atteindre but de manière efficace ou successful,
véracité : ne pas “mentir”, bio-induction?: interaction avec ondes cérébrales ?, mobilité : d’une
machine à l’autre (ex:Diagnostic ordi et retour vers serveur), coopération : atteindre buts communs,
négociation

08/11/2023

Cours n°8 :

OpenData

OpenData Pourquoi ?

- données par prises en compte : ce sont produits qui en sont issus qui vont avoir une valeur
- les données peuvent êtres offertes, récupérées et brevetées
- financement privé et public
- Que peut-on breveter ?
- l’opendata c’est rendre certaines données librement accessibles

Quelles données va-t-on pouvoir publier ?

- données sensibles ?
- données économiques ?
- perte de contrôle sur la donnée !
- quid si partiel ?

Administration américaine : Transparence

- whitehouse.gov => RDFa


- Recorvery Act => recorvery.gov → remettre les donénes à disposition des citoyens
- Open government : Publication de “High Value Data” (haute valeurs) pour que les simples
citoyens puissent juger de l’emploie de données publiques, de la répartition des forces de
l’ordre dans le cas (puissent avoir un regard éclairé sur le gouvernement)
- www.data.gov → pouvoir rechercher et explorer la dépense publique jusqu’au niveau du code
postal (accès au budget de la ville)

France : data.gouv.fr

- La plateforme “data.gouv.fr” permet aux services publics de publier de données publiques et à


la société civile de les enrichir, modifier et interpréter en vue de coproduire des informations
d'intérêt général.

EU : Un exemple : La directive INSPIRE

- direction générale de l’environnement de la Commission européenne


- INfrastructure dor S
- favoriser le change des données aus ein de la communauté européenne dans le domaine de
l'environnement pris dans un sens large (SIG)
- le but : établir en europe une infrastructure de données géographiques pour assurer
l’interopérabilité entre bases de données et faciliter la diffusion, la disponibilité, l’utilisation
et la réutilisation de l’information géographique en Europe

Inspire : Obligations

- fourniture des données selon les règles de mise en oeuvre communes;


- constitutions de catalogues de données (métadonnées);
- application de règles d’interopérabilité;
- accès gratuit aux métadonnées;
- accès aux données pour les acteurs réalisant une mission rentrant dans le cadre d’INSPIRE;
- services pour permettre ces accès;
- existence d’une organisation adaptée pour s’assurer de la bonne mise en œuvre de la directive.
-
INSPIRE : Les principes

- la directive INSPIRE s’appuie sur plusieur principes fondateurs d’une infrastructure


d'information géographique :
- Les données géographiques doivent être collectées une seule fois afin d’éviter la duplication,
puis stockées, mises à disposition et actualisées par l'autorité la plus compétente.
- Il doit être possible de combiner facilement et de manière cohérente des informations
géographiques provenant de différentes sources à travers l'Europe, et de les partager entre
différents utilisateurs et applications.
- Une information collectée par une autorité publique doit pouvoir être partagée par l’ensemble
des autres organismes publics, quel que soit leur niveau hiérarchique ou administratif, par
exemple des données de détail pour les enquêtes fines et des informations générales pour des
sujets stratégiques.
- L'information géographique doit être disponible dans des conditions qui ne fassent pas
indûment obstacle à une utilisation extensive.
- Il doit être facile de connaître quelles sont les infos géographiques disponibles, à quels
besoins particuliers elles peuvent répondre, et sous quelles conditions elles peuvent êtres
acquises et utilisées

semaine 11 : intervenant sur l’IA

Vous aimerez peut-être aussi