Chapitre 12
Réseaux
Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des
informations. Par analogie avec un filet, on appelle nœud (node) l'extrémité d'une connexion, qui
peut être une intersection de plusieurs connexions (un ordinateur, un routeur, un concentrateur, un
commutateur).
12.1.1. Bluetooth
La technologie
Bluetooth a été Bluetooth est une technologie de réseau personnel sans fil (noté WPAN pour Wireless Personal
originairement mise Area Network), c'est-à-dire une technologie de réseaux sans fils d'une faible portée permettant de
au point par
Ericsson en 1994.
relier des appareils entre eux sans liaison filaire. Contrairement à la technologie IrDa (liaison
En février 1998 un infrarouge), les appareils Bluetooth ne nécessitent pas d'une ligne de vue directe pour communiquer,
groupe d'intérêt ce qui rend plus souple son utilisation et permet notamment une communication d'une pièce à une
baptisé Bluetooth autre, sur de petits espaces.
Special Interest
Group (Bluetooth Le nom Bluetooth (littéralement « dent bleue ») se rapporte au nom du roi danois Harald II (910-
SIG), réunissant 986), surnommé Harald II Blåtand (« à la dent bleue »), à qui on attribue l'unification de la Suède et
plus de 2000 de la Norvège ainsi que l'introduction du christianisme dans les pays scandinaves.
entreprises dont
Agere, Ericsson,
IBM, Intel,
Microsoft,
Motorola, Nokia et
Toshiba, a été formé
afin de produire les
spécifications Le logo de Bluetooth est inspiré des initiales en alphabet runique (Futhark récent)
Bluetooth 1.0, qui de Harald Blåtand : ᚼ (Hagall) et ᛒ (Bjarkan).
furent publiées en
juillet 1999.
Le Bluetooth utilise des ondes radio sur la bande de fréquences de 2.4 GHz (la même que le Wi-
Fi, ce qui peut provoquer des interférences) pour connecter des équipements entre eux (smartphone,
enceinte, oreillette, objets connectés, dispositifs mains-libres, oreillettes…) afin de leur permettre
d'échanger des données ou des fichiers (documents, photos, musique…).
Les périphériques Bluetooth sont capables de se détecter sans intervention de la part de
l'utilisateur pour peu qu'ils soient à portée l'un de l'autre.
En 2017, le Bluetooth 5 succède au Bluetooth 4.2. Cette nouvelle version de Bluetooth permet de
doubler la portée du Bluetooth, qui passe à 200 mètres, de multiplier par 4 le débit des transmissions
basse consommation (4 Mbit/s), d'améliorer l'interopérabilité et de réduire les interférences avec les
autres technologies sans fil comme le Wi-Fi. Le Bluetooth 5 ouvre donc de nouvelles perspectives
pour le marché de la téléphonie mobile et des objets connectés.
12.1.2. Wi-Fi
Le Wi-Fi, aussi orthographié Wi-Fi, est un ensemble de protocoles de communication sans fil
régis par les normes du groupe IEEE 802.11 (ISO/CEI 8802-11). Un réseau Wi-Fi permet de relier
par ondes radio plusieurs appareils informatiques (ordinateur, routeur, smartphone, modem Internet,
etc.) au sein d'un réseau informatique afin de permettre la transmission de données entre eux.
Apparues pour la première fois en 1997, les normes IEEE 802.11 (ISO/CEI 8802-11), qui sont
utilisées internationalement, décrivent les caractéristiques d'un réseau local sans fil. La marque
déposée « Wi-Fi » correspond initialement au nom donné à la certification délivrée par la Wi-Fi
Alliance (« Wireless Ethernet Compatibility Alliance », WECA), organisme ayant pour mission de
spécifier l'interopérabilité entre les matériels conformes à la norme 802.11 et de vendre le label « Wi-
Fi » aux matériels répondant à ses spécifications. Pour des raisons de facilité d'usage (et de
Un WLAN,
marketing) le nom de la norme se confond aujourd'hui avec le nom de la certification (c'est le cas en
Wireless Local
Area Network, ou France, en Espagne, au Canada, en Suisse, en Tunisie…). Ainsi, un réseau Wi-Fi est en réalité un
Wireless LAN, est réseau répondant à une des normes IEEE 802.11. Dans d'autres pays (Allemagne et États-Unis par
un LAN mais qui exemple) de tels réseaux sont aussi nommés par le terme générique WLAN : Wireless LAN (réseau
utilise la
transmission sans
local sans fil).
fil (Wi-Fi, ...). Grâce aux normes Wi-Fi, il est possible de créer des réseaux locaux sans fil à haut débit. En
Le mot wireless pratique, le Wi-Fi permet de relier des ordinateurs portables, des machines de bureau, des assistants
signifie « sans fil » personnels (PDA), des objets communicants ou même des périphériques à une liaison haut débit.
(wire = câble). Par
exemple, un
La portée peut atteindre plusieurs dizaines de mètres en intérieur (généralement entre une
hotspot Wi-Fi, vingtaine et une cinquantaine de mètres) s'il n'y a aucun obstacle gênant (mur en béton par exemple)
c'est-à-dire un entre l'émetteur et l'utilisateur. Ainsi, des fournisseurs d'accès à Internet peuvent établir un réseau
point d'accès Wi-Fi Wi-Fi connecté à Internet dans une zone à forte concentration d'utilisateurs (gare, aéroport, hôtel,
public comme on
en trouve dans des
train, etc.). Ces zones ou points d'accès sont appelés bornes ou points d'accès Wi-Fi ou « hotspots ».
lieux publics tels
qu'un hôtel, est un Confidentialité
réseau local sans
fil (WLAN).
Le risque le plus évoqué est un accès indu par un tiers à des données relevant de la vie privée ou
du secret industriel ou commercial, etc.
Un autre risque pour le détenteur d'un point d'accès est de voir engager sa responsabilité si ce
point est utilisé pour réaliser des actions illégales comme le partage illégal de copies protégées par le
droit d'auteur ; problème qui se pose principalement lorsque le point d'accès n'est pas sécurisé.
12.1.4. Ethernet
Ethernet désigne un protocole de réseau local (LAN). Celui-ci se base sur des commutations de
paquets et sur des câbles en paires torsadées pour permettre de relier plusieurs machines entre elles.
Pour les particuliers, Ethernet se résume à ce câble branché entre un ordinateur et une Box
Internet, qui permet d'offrir un réseau et un débit Internet de grande qualité. Il se rapproche dans ses
fonctions du réseau Wi-Fi classique.
Dans les premiers réseaux Ethernet, le câble coaxial diffusait les données à toutes les machines
connectées, de la même façon que les ondes radiofréquences parviennent à tous les récepteurs. Le
nom Ethernet dérive de cette analogie : avant le 20ème siècle, on imaginait que les ondes se
propageaient dans l'éther, milieu hypothétique censé baigner l'Univers. Quant au suffixe net, il s'agit
L'Ethernet est le standard de connexion filaire qui est utilisé depuis plus de 30 ans pour mettre
des machines en réseau entre elles. En termes techniques, il s'agit d'un câble
RJ45 (voir ci-contre), qui vient se ficher sans difficulté depuis un ordinateur ou
une console de salon dans un modem ou sur une prise téléphonique. Ce qui
pose problème au fond, c'est de devoir acheminer un câble d'un point A à un
point B, car le câble Ethernet doit traverser une pièce et esthétiquement, cet
encombrement est de moins en moins accepté.
Et pourtant, l'Ethernet dispose d'un atout de poids : sa fiabilité. En effet, via
un câble RJ45, la vitesse de connexion est supérieure au Wi-Fi, et surtout elle
ne subit pas de fluctuation ni d'interruption. De plus, la sécurité est plus facile à
contrôler sur une connexion Ethernet, car il faut se brancher physiquement au réseau pour le
rejoindre.
L'arrivée du Wi-Fi a ringardisé les câbles. La capacité de pouvoir se connecter librement, sans fil,
à proximité d'une borne ou d'un spot Wi-Fi, a changé nos habitudes – et nos exigences ! Chez soi,
c'est une réelle solution de facilité. Tous les membres du foyer peuvent se connecter à distance
raisonnable d'une seule et même box internet. Cela autorise une grande mobilité : plus besoin de
mettre ses jambes sous le bureau, on peut travailler sur son ordinateur portable dans toutes les pièces
et même dans le jardin ! Quant aux terminaux nomades, ils sont dépourvus d'entrée RJ45 et
s'appuient exclusivement sur le Wi-Fi pour se connecter à Internet.
Toutefois, la puissance du Wi-Fi est fluctuante en fonction de la distance avec la borne, et trop
instable pour une utilisation multimédia poussée : ses ralentissements viennent régulièrement
perturber le streaming vidéo ou les jeux en ligne... Les téléchargements de fichiers sont également
plus longs, et parfois même annulés en cas de microcoupure.
Réseau en maille
Dans en réseau en maille, tous les ordinateurs sont reliés
entre eux. Ce type de topologie est à éviter, car il nécessite trop de câbles.
Réseau en étoile
C'est la topologie la plus utilisée aujourd'hui. Dans une topologie de réseau en étoile, les
équipements du réseau sont reliés à un système matériel central (le nœud). Celui-ci a pour rôle
d'assurer la communication entre les différents équipements du réseau. C'est le point faible du
réseau : s'il tombe en panne, tout le réseau est paralysé.
En pratique, l'équipement central peut être un concentrateur (en anglais hub, littéralement
« moyeu de roue »), un commutateur (en anglais switch) ou un routeur (en anglais router).
Un hub Ethernet ou concentrateur Ethernet est un appareil informatique permettant de concentrer
les transmissions Ethernet de plusieurs équipements sur un même support dans un réseau
Alors que le Hub se informatique local.
contente d'envoyer
les données sur
toutes ses prises
Ethernet, le Switch
agit comme un
aiguillage, et ne
transmet les paquets
que vers la machine
effectivement
destinataire.
Un commutateur réseau (en anglais switch), est un équipement qui relie plusieurs segments
(câbles ou fibres) dans un réseau informatique et de télécommunication et qui permet de créer des
Dans un réseau,
l'information qui circuits virtuels. Dans les réseaux locaux (LAN), il s'agit le plus souvent d'un boîtier disposant de
circule est plusieurs ports RJ45 (entre 4 et plusieurs centaines). Il a donc la même apparence qu'un
découpée en concentrateur (hub).
unités
élémentaires
Un routeur est un élément physique intermédiaire dans un réseau informatique assurant le
appelées paquets. routage des paquets. Son rôle est de faire transiter des paquets d'une interface réseau vers une autre.
Il s'agit d'une suite Le routeur est un élément physique d'un réseau. Pour résumer, c'est un guide : vous lui demandez
d'octets votre route, il vous accompagne vers la bonne destination. Sa fonction principale est de prendre un
suffisamment
courte pour
paquet et de le renvoyer au bon endroit en fonction de la destination finale.
pouvoir être Un réseau tel qu'Internet emploie de nombreux routeurs qui communiquent tous les uns avec les
communiquée autres. Ce sont en quelque sorte les échangeurs de l'autoroute de l'information. Quand il y en a un qui
sous forme tombe en panne, selon l'architecture globale du réseau, un autre peut prendre le relais.
numérique et sans
erreur.
Aujourd'hui le cœur du réseau domestique est la box, boîtier polyvalent qui offre aussi un switch
et en plus le Wi-Fi. Ce type de réseau dispose de bonnes capacités et se révèle fiable et résistant : si
un câble ou un ordinateur lâche, le réseau fonctionne toujours.
12.2.1.Modèle OSI
Le modèle OSI (de l'anglais Open Systems Interconnection) est un standard de communication,
en réseau, de tous les systèmes informatiques. C'est un modèle de communications entre ordinateurs
proposé par l'ISO qui décrit les fonctionnalités nécessaires à la communication et l'organisation de
ces fonctions.
Le modèle comporte sept couches.
ISO : International
Organization for
Standardization La caractérisation donnée ici est tirée du chapitre 7 de ISO 7498-1. La description originelle
Ne pas confondre donne en plus pour chaque couche les fonctions de manipulation de commandes ou de données
OSI et ISO ! significatives parmi celles décrites plus bas.
1. La couche « physique » est chargée de la transmission effective des signaux entre les
interlocuteurs. Son service est limité à l'émission et la réception d'un bit ou d'un train de bit
continu (notamment pour les supports synchrones).
2. La couche « liaison de données » gère les communications entre deux machines adjacentes,
directement reliées entre elles par un support physique.
3. La couche « réseau » gère les communications de proche en proche, généralement entre
machines : routage et adressage des paquets.
4. La couche « transport » gère les communications de bout en bout entre processus
(programmes en cours d'exécution).
5. La couche « session » gère la synchronisation des échanges et les « transactions », permet
l'ouverture et la fermeture de session.
6. La couche « présentation » est chargée du codage des données applicatives, précisément de
la conversion entre données manipulées au niveau applicatif et chaînes d'octets
effectivement transmises.
7. La couche « application » est le point d'accès aux services réseaux, elle n'a pas de service
propre spécifique et entrant dans la portée de la norme.
12.2.2.TCP/IP
Le modèle TCP/IP (appelé aussi modèle Internet), qui
date de 1976, a été stabilisé bien avant la publication du
modèle OSI en 1984. Il présente aussi une approche
modulaire (utilisation de couches) mais en contient
uniquement quatre (voir schéma ci-contre).
Aujourd'hui, c'est le modèle TCP/IP, plus souple, qui
l'emporte sur le marché. Le modèle OSI, plus rigoureux, est
principalement utilisé pour certaines applications critiques,
ou pour ses fonctionnalités permettant de garantir une qualité
de service.
Encapsulation des données/IP
Lors d'une transmission, les données traversent chacune
des couches au niveau de la machine émettrice. À chaque
couche, une information est ajoutée au paquet de données, il
s'agit d'un en-tête, ensemble d'informations qui garantit la
transmission. Au niveau de la machine réceptrice, lors du passage dans chaque couche, l'en-tête est
lu, puis supprimé. Ainsi, à la réception, le message est dans son état originel.
12.3. Internet
Le 2 septembre 1969, le professeur Len Kleinrock de l'UCLA (University of California, Los
Angeles) et son équipe, comprenant deux étudiants, Stephen Crocker et Vinton Cerf, parvenaient à
échanger quelques données entre deux gros ordinateurs reliés par un câble de 4,5 mètres. Ce premier
essai est généralement considéré comme l'événement fondateur d'Arpanet, réseau à l'origine
d'Internet quelques années plus tard.
Internet est le réseau informatique mondial qui rend accessibles au public des services comme le
courrier électronique et le World Wide Web. Techniquement, Internet se définit comme le réseau
public mondial utilisant le protocole de communication IP (Internet Protocol).
Internet ayant été popularisé par l'apparition du World Wide Web au début des années 1990, les
deux sont parfois confondus par le public non averti. Le Web est une des applications d'Internet,
comme le sont le courrier électronique, la messagerie instantanée et les systèmes de partage de
fichiers poste à poste. L'accès à Internet peut être réalisé auprès d'un Fournisseur d'accès (FAI) via
divers moyens de télécommunication.
Technique
Internet est composé d'une multitude de réseaux répartis dans le monde entier. Chaque réseau est
rattaché à une entité propre (université, fournisseur d'accès à Internet, armée) et se voit attribuer un
identifiant unique appelé Autonomous System (AS). Afin de pouvoir communiquer entre eux, les
réseaux s'échangent des données, soit en établissant une liaison directe, soit en se rattachant à un
nœud d'échange (point de peering).
Chaque réseau est donc connecté à plusieurs autres réseaux. Lorsqu'une communication doit
s'établir entre deux ordinateurs appartenant à des AS différents, il faut alors déterminer le chemin à
effectuer parmi les réseaux. Aucun élément d'Internet ne connaît le réseau dans son ensemble, les
données sont simplement redirigées vers un autre nœud selon des règles de routage.
Protocoles
Internet fonctionne suivant un modèle en couches. Les éléments appartenant aux mêmes couches
utilisent un protocole de communication pour s'échanger des informations.
Un protocole est un ensemble de règles qui définissent un langage afin de faire communiquer
plusieurs ordinateurs. Chaque protocole a des indications particulières et, ensemble, ils fournissent
un éventail de moyens permettant de répondre à la multiplicité et à la diversité des besoins sur
Internet. Les principaux sont les suivants :
• IP (Internet Protocol) : protocole réseau qui définit le mode d'échange élémentaire entre les
ordinateurs participants au réseau en leur donnant une adresse unique sur le réseau.
• TCP : responsable de l'établissement de la connexion et du contrôle de la transmission. C'est
un protocole de remise fiable. Il s'assure que le destinataire a bien reçu les données.
• HTTP (HyperText Transfer Protocol) : protocole mis en œuvre pour le chargement des
pages web.
• HTTPS : pendant du HTTP pour la navigation en mode sécurisé.
• FTP (File Transfer Protocol) : protocole utilisé pour le transfert de fichiers sur Internet.
• SMTP (Simple Mail Transfer Protocol) : mode d'échange du courrier électronique en envoi.
• POP3 (Post Office Protocol version 3) : mode d'échange du courrier électronique en
réception.
• IMAP (Internet Message Access Protocol) : un autre mode d'échange de courrier
électronique.
• IRC (Internet Relay Chat) : protocole de discussion instantanée.
• NNTP (Network News Transfer Protocol) : protocole de transfert de message utilisé par les
forums de discussion Usenet
• SSL : protocoles de transaction sécurisée, utilisés notamment pour le paiement sécurisé.
• DNS (Domain Name System) : système de résolution de noms Internet.
Circulation de l'information
Dans un réseau, l'information qui circule est découpée en unités élémentaires appelées paquets. Il
s'agit d'une suite d'octets suffisamment courte pour pouvoir être communiquée sous forme
numérique et sans erreur.
Dans le cas d'Internet, le format des paquets est spécifié par l'Internet Protocol. On parle donc de
paquets IP. Quand on récupère un fichier par exemple, son contenu est découpé en petits morceaux
inclus dans une multitude de paquets IP qui transitent sur le réseau. Chaque paquet circule
indépendamment des autres. Pour cela, il contient un en-tête indiquant entre autres quelle est la
destination du paquet. Le protocole IP spécifie que cette destination est identifiée par une suite de 4
octets : son adresse IP (chaque octet est généralement lu comme un nombre entre 0 et 255).
Adresse IP
L'adresse IP est une adresse unique attribuée à chaque appareil d'un réseau informatique utilisant
IP comme protocole (c'est-à-dire qu'il n'existe pas sur un même réseau deux ordinateurs ayant la
même adresse IP). L'adresse IP se présente le plus souvent sous forme de 4 nombres (entre 0 et 255)
séparés par des points. Par exemple : 204.35.129.3.
En fait, l'adresse IP contient 2 informations essentielles :
• le numéro du réseau auquel appartient la machine ;
• le numéro de la machine sur le réseau.
Les premiers nombres représentent le numéro du réseau et les derniers le numéro de la machine
sur le réseau. Pour savoir quels nombres correspondent au numéro du réseau et lesquels
correspondent au numéro de la machine sur le réseau, on utilise un autre groupe de 4 nombres appelé
masque de sous-réseau.
Le principe du masque est le suivant : quand un nombre du masque est à 255, le nombre
correspondant de l'adresse IP fait partie du numéro de réseau ; quand il est à 0, le nombre
correspondant de l'adresse IP fait partie du numéro de la machine.
Exemple :
• l'adresse IP : 192.168.1.5
• le masque de sous-réseau est :255.255.255.0
• donc le numéro de réseau est 192.168.1 et le numéro de la machine est .5
Autre exemple :
• l'adresse IP : 192.168.1.5
• le masque de sous-réseau est : 255.255.0.0
• alors le numéro de réseau est 192.168 et le numéro de la machine est .1.5
Paquet IP
Voici ci-dessous le format de l'en-tête d'un paquet IP, tel que spécifié au bit près dans le
standard RFC 791. La première ligne indique la signification des quatre premiers octets du paquet
(soit 32 bits), la deuxième, celle des quatre suivants et ainsi de suite. Le reste du paquet est constitué
par les données qui transitent dans le paquet (typiquement de l'ordre de 1000 octets).
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|Version| IHL |Type of Service| Total Length |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Identification |Flags| Fragment Offset |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Time to Live | Protocol | Header Checksum |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Source Address |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Destination Address |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Options | Padding |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
On voit qu'outre l'adresse IP de la destination (cinquième ligne), un paquet IP contient aussi celle
de la source (quatrième ligne) et bien d'autres champs comme la version du protocole (quatre
premiers bits de la première ligne). La version présentée ici (la plus courante à l'heure actuelle) est la
version 4 (IPv4). Tout paquet IPv4 commence par les bits 0100, soit 4 en binaire.
À l'intérieur d'un réseau
Comment les paquets ainsi formés circulent-ils dans un réseau ? Un réseau est constitué de
routeurs et de liens de communication. Les liens relient les routeurs entre eux à la manière de routes
entre les villes d'un pays. Plus précisément, un routeur est une sorte d'aiguilleur qui possède des liens
avec d'autres routeurs. Chaque lien est branché au routeur via une interface. La principale activité
d'un routeur consiste à... router des paquets.
Toute machine reliée à un des routeurs du réseau peut ainsi communiquer avec toute autre
machine reliée à un routeur du réseau. Les machines qui sont ainsi mises en relation par un réseau
sont appelées des hôtes.
Entre les réseaux
Comment les paquets circulent-ils d'un réseau à un autre ? Les hôtes sont généralement reliés à
un réseau local. Pour chaque réseau local, un routeur appelé passerelle relie ce réseau avec l'Internet.
La seule décision de routage prise par un hôte est d'envoyer un paquet, soit directement à la
destination si elle se trouve dans le réseau local, soit à la passerelle sinon.
Tous les routeurs d'un réseau sont gérés par la même organisation. Ils sont reliés entre eux, et
savent acheminer des paquets entre eux. Certains des routeurs du réseau peuvent avoir des liens vers
des routeurs d'autres réseaux, appelons-les des routeurs frontière (border gateway). Le monde des
destinations, vu d'un routeur d'Internet, se sépare donc en deux populations, les destinations qui sont
accessibles sans sortir de son propre réseau d'une part, et celles qui sont en dehors de ce réseau
d'autre part.
Internet est constitué par un empilement hiérarchique de réseaux, comme le montre la figure ci-
après.
Source de l'image :
[3]
Le réseau F est par exemple connecté par sa passerelle au réseau E, qui est lui-même
un sous-réseau du système autonome A. Le réseau F pourrait par exemple être le réseau
Wi-Fi d'un particulier dont le modem ADSL f (qui fait aussi routeur Wi-Fi) est relié à un
routeur e de son fournisseur d'accès à Internet. Ce routeur e fait partie du réseau
national E de son fournisseur qui possède une connexion directe avec un système
autonome A internationalement connecté.
Les routeurs des systèmes autonomes possèdent des sortes de méta-tables de routage qui
indiquent pour une adresse IP comment atteindre le système autonome où se trouve la destination
possédant cette adresse. Plus précisément, chacun de ces routeurs connaît la suite de systèmes
autonomes qu'il va falloir traverser pour atteindre la destination. Pour cela, tout routeur frontière
connecté au routeur frontière d'un autre système autonome échange avec lui des informations sur les
adresses IP gérées par tel ou tel système autonome et sur les interconnexions entre système
autonomes selon le protocole de routage BGP (pour « Border Gateway Protocol »).
L'acheminement d'un paquet IP se fait donc généralement ainsi :
1. le paquet remonte la hiérarchie de réseau jusqu'à un routeur du système autonome de la
source,
2. il transite ensuite de système autonome en système autonome jusqu'à celui de la destination,
3. il descend la hiérarchie jusqu'à la passerelle en charge du réseau local de la destination,
4. cette passerelle l'envoie à la destination.
12.4.3.Exploration du Web
Le World Wide Web, en tant qu'ensemble de ressources hypertextes, peut être modélisé par un
graphe orienté où les ressources sont les sommets et
les hyperliens les arcs. Du fait que le graphe est
orienté, certaines ressources peuvent constituer des
puits : il n'existe aucun chemin vers le reste du Web. À
l'inverse, certaines ressources peuvent constituer des
sources en indiquant des liens vers d'autres ressources.
Le graphe obtenu n'est pas forcément connexe : il n'est
peut-être pas possible de rejoindre un sommet à partir
d'un autre...
1 Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement
le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de
permettre à un moteur de recherche de les indexer.
2 Le spamdexing est un ensemble de techniques consistant à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir,
pour un mot-clef donné, un bon classement dans les résultats des moteurs.
Des documents apparaissent et disparaissent tous les jours : il faut donc constamment réactualiser
cette base de données. Aucun moteur de recherche ne peut parcourir la totalité des pages en un jour
(ce processus peut prendre plusieurs semaines).
12.5. Google
L'histoire de l'entreprise Google commence par la rencontre de deux étudiants de l'université de
Stanford en 1995. En cette année, Sergey Brin et Larry Page commencent à travailler sur un
nouveau moteur de recherche. Ils nomment leur projet BackRub. Ils imaginent un logiciel qui
analyserait les relations entre les sites web afin d'offrir des meilleurs résultats que ceux donnés par
Larry Page leurs concurrents de l'époque, Altavista notamment.
(né en 1973) Une fois leurs travaux finalisés, les deux étudiants commencent à concrétiser leur projet de
moteur de recherche, et à cet effet, achètent un téraoctet de disque dur d'occasion, afin de créer une
base de donnée. Cette installation sommaire a pris place dans la chambre de Larry Page.
Les deux entrepreneurs sollicitent des entreprises (Sun Microsystems entre autres), famille et
amis, et parviennent finalement à réunir un million de dollars pour fonder la compagnie. Dans la plus
pure tradition des pionniers de l'informatique, Google Inc. s'installe dans un garage de Menlo, loué
par un ami, en septembre 1998, La société comporte trois personnes : Sergey, Larry et Craig
Silverstein qui est aujourd'hui directeur de Google Technology.
Alors que le moteur est toujours en phase version bêta 3, il répond à près de 10'000 requêtes par
jour. En août 1999, la barre des 3 millions de recherches quotidiennes est franchie.
Sergey Brin En décembre 1998, PC Magazine classe Google dans sa liste des 100 meilleurs sites au monde.
(né en 1973) En février 1999, c'est 500'000 requêtes journalières que Google doit gérer. Devenant trop grand pour
le garage qui l'héberge, Google se déplace, en mars, dans un bureau sur l'avenue de l'université de
Palo Alto et 8 personnes y travaillent désormais.
Dès janvier 1999, la presse mondiale commence à se faire l'écho des performances de ce nouveau
moteur de recherche. Le journal français Le Monde écrit ainsi que le choix technologique de Google
« s'avère très efficace à l'usage ». Ainsi, une recherche avec les mots « Bill Clinton » renvoie d'abord
au site de la Maison Blanche, alors qu'AltaVista ne fait apparaître le site qu'après des dizaines
d'autres références. Autre avantage : Google affiche les mots-clés en gras dans le contexte d'une
phrase pour chaque lien, alors qu'Altavista ne fournit, à l'époque, que les liens eux-mêmes.
La société déménage une seconde fois vers son emplacement définitif, le Googleplex, situé à
Mountain View, en Californie. Le moteur de recherche, jusque-là en version bêta, achève sa phase de
test le 9 septembre. Google assure alors la gestion de 3 millions de recherche par jour.
Le 9 mai 2000, le moteur de recherche est disponible en 10 nouvelles langues : allemand, danois,
espagnol, finnois, français, italien, néerlandais, norvégien, portugais et suédois, permettant à la
société de pénétrer de nouveaux marchés et de gagner en importance. Tout juste un mois plus tard, en
juin 2000, Google est le premier moteur de recherche à avoir référencé un milliard de pages web.
L'entreprise cherche à étendre la portée de son moteur en concentrant ses efforts sur l'Asie, avec les
versions chinoise, japonaise et coréenne (12 septembre), puis au monde entier, totalisant 26 langues
dès le 27 mars 2001. Fin octobre 2000, Google signe un partenariat avec Yahoo! et commence à
proposer de la publicité ciblée en fonction des mots-clés. L'année 2000 voit le trafic journalier du site
dépasser les 100 millions de requêtes, ce qui représente plus de 1000 requêtes/seconde en moyenne.
Par son succès et sa croissance exponentielle, l'entreprise devient un phénomène mondial de presse.
L'année 2001 s'achève par une conquête physique du monde et par l'annonce de la 3 milliardième
page indexée. Le 4 septembre 2001, Google obtient la validation de son brevet concernant
PageRank. Le moteur de recherche continue ainsi sa croissance, est décliné en plus de 100 langues
en 2004 et 150 de nos jours. Aujourd'hui Google est le premier moteur de recherche sur Internet, que
80 % d'internautes américains utilisent contre seulement 35 % de Chinois, qui préfèrent l'outil
chinois Baidu.
C'est à partir de 2002 que l'entreprise diversifie son activité, basée jusqu'alors sur son moteur de
recherche. Apparaîtront alors, parmi les plus connus, Gmail, Google Earth, Google Maps, Google
Documents, Google Books, etc.
3 Un produit en période de test bêta est généralement soumis à un nombre important ou représentatif de personnes : les bêta-testeurs. Ils peuvent
être soit des employés de la société qui développe le logiciel, soit des bénévoles notamment dans le cas des logiciels libres. Ces personnes ont
pour but d'utiliser le logiciel et de rapporter les problèmes rencontrés ainsi que leurs suggestions.
Entre l'étape 5 et l'étape 16, il s'est écoulé moins d'une seconde ! Pas mal, quand on pense qu'il a
30'000 milliards de pages indexées par Google (chiffres de 2018)...
12.5.2.PageRank
Le PageRank ou PR est l'algorithme d'analyse des liens concourant au système de classement des
pages Web utilisé par le moteur de recherche Google pour déterminer l'ordre dans les résultats de
recherche qu'il fournit. Ce système a été inventé par Larry Page, cofondateur de Google.
On attribue à chaque page un score compris entre 0 et 10, proportionnel au nombre de fois que
passerait par cette page un internaute parcourant aléatoirement le graphe du Web en suivant les liens.
L'idée principale est que si une page A fait un lien vers une page B, alors c'est que la page A juge
que la page B est suffisamment importante pour mériter d'être citée et d'être proposée aux visiteurs.
Cet exemple
provient d’un
article de Pierre-
Antoine Guihéneuf
http://images.math.
cnrs.fr/De-l-
algorithme-de-
Google-aux-
billards-de-
Sinai.html
Prenons un internaute fictif qui part de la page numéro 1. S'il se comporte comme on vient de
l'expliquer, après un clic, il aura une chance sur deux de se retrouver sur la page 2, et une chance sur
deux sur la page 4.
S'il est arrivé sur la page 4, alors il se retrouvera forcément sur la page 1 au clic suivant. Si, en
revanche, il est allé vers la page 2, il aura ensuite une chance sur deux de tomber sur la page 5, et une
chance sur deux de tomber sur la page 1. Au final, après deux clics, il aura une chance sur 4 de se
trouver sur la page 5, et 3 chances sur 4 sur la page 1.
Ainsi de suite, on peut calculer les probabilités que l'utilisateur se trouve sur une certaine page
après un nombre donné d'étapes, et mettre ça dans un tableau : dans chaque case, on met la
probabilité que l'utilisateur (qui est parti de la page numéro 1), se retrouve sur la page de numéro
donné par la colonne, après le nombre de clics donné par la ligne.
Numéro de la page 1 2 3 4 5
après 0 clic 1 0 0 0 0
après 1 clic 0 0.5 0 0.5 0
après 2 clics 0.75 0 0 0 0.25
après 3 clics 0 0.5 0.13 0.37 0
après 10 clics 0.43 0.24 0.05 0.09 0.19
après 100 clics 0.31 0.31 0.08 0.15 0.15
après 1000 clics 0.31 0.31 0.08 0.15 0.15
Les nombres ont l'air de se stabiliser : on a l'impression qu'à partir d'un certain moment,
l'utilisateur aura presque une chance sur trois de se trouver sur les pages 1 ou 2, mais moins d'une
chance sur 10 d'être sur la page 3.
C'est là qu'interviennent les mathématiques : ce n'est pas un hasard si ces nombres semblent se
stabiliser. Un théorème datant du début du 20 ème siècle, dû à Perron et Frobenius, explique que c'est
effectivement le cas. Plus précisément, ce théorème affirme que si on laisse beaucoup d'utilisateurs
naviguer au hasard sur le web, alors la proportion d'internautes situés sur une page donnée aura
tendance à se stabiliser.
Dans le cas du mini-web de notre exemple, cette proportion d'utilisateurs sera à peu près égale au
nombre correspondant sur la dernière ligne du tableau ci-dessus. Par exemple, on n'aura pas loin d'un
tiers d'utilisateurs sur la page numéro 1. Cela correspond à la valeur qu'on veut attribuer aux pages :
une page est considérée d'autant plus importante par Google que le nombre correspondant à la page
est élevé.
Le théorème de Perron et Frobenius est même un peu plus précis, il nous dit que la convergence est exponentielle : on sait
combien de lignes du tableau il faut calculer avant d'avoir une bonne approximation de la valeur d'une page, et on sait que ce
nombre est assez petit. C'est une indication précieuse en pratique : lorsqu'on veut calculer la valeur de chaque page du web, la
quantité de pages et de liens qu'il faut prendre en compte est titanesque ; c'est une bonne nouvelle qu'il ne faille pas en plus de
cela obliger l'algorithme à faire beaucoup d'étapes de calcul des probabilités.
Exercice 12.1
Vous avez créé un site web. Comment pouvez-vous améliorer le PageRank de la page d'accueil ?
Les moyens malhonnêtes sont permis...
Exercice 12.2 A
Calculez le PageRank des pages web reliées
selon le schéma ci-contre.
12.6. Proxy
Un proxy est un composant logiciel informatique qui joue le rôle d'intermédiaire en se plaçant
entre deux hôtes pour faciliter ou surveiller leurs échanges.
Dans le cadre plus précis des réseaux informatiques, un proxy est alors un programme servant
d'intermédiaire pour accéder à un autre réseau, généralement Internet. Par extension, on appelle aussi
« proxy » un matériel comme un serveur mis en place pour assurer le fonctionnement de tels
services.
communiquer et partager des documents de manière complètement sécurisée, comme s'il n'y avait
qu'un local avec un réseau interne.
Les VPN sont très utilisés par les multinationales et grandes sociétés. Le VPN garantit la sécurité
et la confidentialité des données, qui circulent de manière cryptée par Internet, afin que personne de
malintentionné ne puisse intercepter les informations.
Un VPN permet d'accéder à des ordinateurs distants comme si l'on était connecté au réseau local.
Il permet d'avoir un accès au réseau interne (réseau d'entreprise, par exemple) ou de créer un réseau
de pairs.
Un VPN dispose généralement aussi d'une « passerelle » permettant d'accéder à l'extérieur, ce qui
permet de changer l'adresse IP source apparente de ses connexions. Cela rend plus difficile
l'identification et la localisation approximative de l'ordinateur émetteur par le fournisseur de service.
Cependant, l'infrastructure de VPN (généralement un serveur) dispose des informations permettant
d'identifier l'utilisateur : par exemple, les sociétés proposant des VPN gratuits ou payants peuvent
récolter les données de navigation de leurs clients, ce qui relativise l'anonymat de ces services. Cela
permet aussi de contourner les restrictions géographiques de certains services proposés sur Internet.
L'utilisation d'un système pair-à-pair nécessite pour chaque nœud l'utilisation d'un logiciel
particulier. Ce logiciel, qui remplit alors à la fois les fonctions de client et de serveur, est parfois
appelé « servent » (de la contraction de « serveur » et de « client », due à Gnutella), ou plus
communément mais de façon réductrice, « client ». C'est là l'origine du terme pair (de l'anglais :
peer) que l'on trouve dans pair-à-pair : les communications et les échanges se font entre des nœuds
qui ont la même responsabilité dans le système.
Le modèle pair-à-pair va bien plus loin que les applications de partage de fichiers. Il permet en
effet de décentraliser des services et de mettre à disposition des ressources dans un réseau. Tout
nœud d'un réseau pair-à-pair peut alors proposer des objets et en obtenir sur le réseau. Les systèmes
pair-à-pair permettent donc de faciliter le partage d'informations. Ils rendent aussi la censure ou les
attaques légales ou pirates plus difficiles. Ces atouts font des systèmes pair-à-pair des outils de choix
pour décentraliser des services qui doivent assurer une haute disponibilité tout en permettant de
faibles coûts d'entretien.
Applications
Chaque internaute est un pair du réseau et les ressources sont des fichiers. Chacun peut donc
partager ses fichiers et télécharger les fichiers des autres. Ces systèmes s'avèrent très efficaces y
compris quand il s'agit d'échanger des données de gros volumes.
Une seconde application destinée au grand public ou à la recherche est la possibilité pour les
internautes de mettre à disposition une partie de leur puissance de calcul. Les ordinateurs actuels sont
tellement puissants que la majeure partie du temps, une grande partie de leur processeur est
disponible pour effectuer des calculs. Le projet BOINC a saisi cette opportunité pour créer un
gigantesque parc informatique réparti dans le monde afin d'utiliser cette immense puissance de calcul
totale pour effectuer des calculs trop complexes pour être réalisé dans un laboratoire. Le projet
BOINC demande donc au particulier de permettre l'usage de la puissance de calcul dont il n'a pas
immédiatement besoin pour contribuer à la recherche sur le repliement de protéine (Folding@Home)
et même à la recherche d'intelligence extra-terrestre (SETI@home).
Les avis divergent sur l'intérêt du cloud computing. D'un côté, les révolutionnaires vénèrent le
principe et voient le futur sur un petit nuage. Un avenir mutualisé et sans cesse connecté à la Toile.
De l'autre, les méfiants qui le redoutent et font des inconvénients cités ci-dessus leur argumentaire
d'anti-cloud. Trop risqué et trop fragile, ce n'est pas un concept viable.
Pour Richard Stallman, à l'origine du système d'exploitation libre GNU, l'informatique dans le
nuage « est un piège », ses utilisateurs perdant le contrôle de leurs applications. Ce militant du
logiciel libre y voit un concept publicitaire sans intérêt, rejoignant les critiques exprimées par Larry
Ellison, fondateur d'Oracle, selon lequel il s'agit d'un phénomène de mode.
Sources
[1] Wikipédia, « Modèle OSI », <http://http://fr.wikipedia.org/wiki/Modèle_OSI >
[2] Wikipédia, « Internet dans le monde », <https://fr.wikipedia.org/wiki/Internet_dans_le_monde>
[3] Interstices, « Internet, le conglomérat des réseaux », <http://interstices.info/Internet>
[4] Wikipédia, « World wide web », <http://fr.wikipedia.org/wiki/World_Wide_Web>
[5] Wikipédia, « Proxy », <http://fr.wikipedia.org/wiki/Proxy>
[6] Wikipédia, « Réseau privé virtuel », <http://fr.wikipedia.org/wiki/Réseau_privé_virtuel>
[7] Wikipédia, « Google », <http://fr.wikipedia.org/wiki/Google>
[8] Webrankinfo, « Description de l'algorithme du PageRank »,
<http://www.webrankinfo.com/dossiers/pagerank/introduction>
[9] Eisermann Michael, « L'algorithme PageRank de Google : une promenade sur la toile »,
<http://www.igt.uni-stuttgart.de/eiserm/enseignement/google-promenade.pdf>
[10] Wikipédia, « Pair à pair », <http://fr.wikipedia.org/wiki/Pair_à_pair>
[11] Interstices, « Les réseaux de pair à pair », <https://interstices.info/jcms/c_8622/les-reseaux-de-
pair-a-pair>
[12] Badufle Gilles, « L'ABC du réseau », <https://abcreseau.blogspot.com/>