Académique Documents
Professionnel Documents
Culture Documents
Découvrir et exploiter
le web invisible pour la
veille stratégique
Accédez à des milliers de ressources
cachées de haute qualité
Le contenu de ce document est protégé par le droit d’auteur. Son contenu est la propriété de Digimind et de ses auteurs respectifs. Il peut être reproduit en partie
sous forme d’extraits à la condition expresse de citer Digimind comme auteur et d’indiquer l’adresse http://www.digimind.com. Pour toute information complé-
mentaire, vous pouvez contacter Digimind par mail à l’adresse contact@digimind.com ou par téléphone au 01 53 34 08 08.
NOTES…..............................................................................................................................................................33
© Digimind - Tous droits réservés Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
[extraits]
Téléchargez l’intégralité de ce document et
l’ensemble des publications de Digimind :
http://www.digimind.fr/actus/actu/publications
Lors d’une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous
privez de la surface immergée, en moyenne 50 fois plus importante.
Sur le web, c’est la même chose ! Se contenter du web visible pour votre veille revient à ne pas explorer une zone invisible environ 500 fois plus
volumineuse, comportant des centaines de milliers de ressources de grande valeur.
Les ressources du Web Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu’elles
sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.
Ce document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites apparte-
nant à ce web “profond”.
Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en
œuvre un véritable processus de veille industrielle sur les ressources du Web Invisible.
LE WEB INVISIBLE :
DEFINITION ET STRUCTURE
Le Web Invisible est constitué des documents web mal ou non indexés
par les moteurs de recherche généralistes conventionnels.
© Digimind - Tous droits réservés Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
En effet, le fonctionnement des moteurs pour “aspirer” le web implique pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon
que, d’une part, les pages soient bien liées entre elles via les liens les moteurs). C’est aussi le cas de plusieurs milliers de bases de données
hypertexte (http://) qu’elles contiennent et que, d’autre part, elles professionnelles en ligne comme PubMed, certaines n’étant pas
soient identifiables par les robots du moteur. Or dans indexées du tout. D’autre part, les moteurs n’indexent
certains cas, ce parcours de liens en liens et cette
identification de pages est difficile, voire impossible.
“Le web invisible pas la totalité du contenu d’une page lorsque celle-ci
est très volumineuse : Google et Yahoo! archivent les
Une partie du web est en effet peu ou non accessible
est constitué des pages dans une limite de 500k et 505k.
aux moteurs de recherche pour plusieurs raisons : documents web
mal ou non indexés 2- les pages sont protégées par l’auteur (balise
1- Les documents ou bases de données sont trop par les moteurs meta qui stoppe le robot des moteurs)
volumineux pour être entièrement indexés. de recherche Certains sites sont protégés par leur créateur ou
Prenons l’exemple de l’IMDB . L’Internet Movie
3
conventionnels” gestionnaire (webmaster), qui, grâce à un fichier
Database, une base de donnée en libre accès robot.txt inséré dans le code des pages, interdit leur
consacrée au cinéma répertorie plus de 7 millions de pages descriptives accès aux robots des moteurs. L’utilisation de ce fichier robot.txt est
consacrées aux films et acteurs, représentant chacune une page web. effectuée pour protéger le copyright des pages, limiter leur visite à un
Soit plus de 7 millions de pages. Les moteurs conventionnels n’indexent groupe restreint d’internautes (auquel on fournira l’adresse, inconnue
des moteurs) ou préserver certains sites d’un accès trop fréquent
ralentissant les serveurs. Ainsi, le site du journal Le Monde interdit aux
robots des moteurs de recherche l’accès à ses pages payantes. De cette
manière, il évite que les moteurs archivent des pages payantes et les
mettent à disposition gratuitement via leur fonction “Cache”.
Les pages web peu accessibles ou inaccessibles aux moteurs de recherche conventionnels
6- Les pages sont mal liées entre elles ou sont orphelines (aucun lien
présent sur d’autres pages ne pointent vers elles).
L’authentification pour l’accès au site d’une fédération professionnelle.
Plutôt qu’une toile, le web est en fait un immense papillon.
5 - Les formats des documents Pourquoi ?
Il y a encore quelques années, on incluait dans le Web Invisible toutes Nous avons vu que le fonctionnement des robots des moteurs de
les pages aux formats autres que le html, seul format reconnu et indexé recherche impliquait que toutes les pages soient liées entre elles pour
par les moteurs. qu’elles soient visibles. Or, ce n’est pas le cas.
En effet, jusqu’en 2001, les moteurs n’indexaient pas les formats PDF Jusqu’en 2000, on avait coutume de représenter le web à la manière
(Adobe) et Microsoft Office (Excel, Word, Power Point…). Depuis l’été d’une toile d’araignée, supposant ainsi que les pages web sont toutes
2001, Google indexe le PDF et, depuis octobre 2001, il indexe les fichiers bien liées entre elles, selon la même densité de liens entrant et sortant,
Word (.doc), Excel (.xls), Powerpoint (.ppt), Rich Text Format (.RTF), constituant ainsi un ensemble homogène de ramifications. Ainsi, en
PostScript (.ps) et d’autres encore. Le format Flash, lui, a commencé à partant de certaines URLs bien définies, les robots devaient forcément
© Digimind - Tous droits réservés Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
parvenir à parcourir le web en quasi-totalité. ces pages sont accessibles et liées à partir du noyau mais en retour, elles
Or, en juin 2000, des chercheurs de IBM (Almaden Research Center, n’ont pas de liens qui pointent vers le cœur. C’est le cas, par exemple, de
Californie), Compaq et Altavista ont proposé une toute autre sites “Corporate” de sociétés qui ne comportent que des liens internes et
représentation du web, plus proche de la réalité… ne proposent pas de liens sortant vers d’autres sites.
Dans leur étude “Graph structure in the web” , les 8 chercheurs analysent
7
© Digimind - Tous droits réservés Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
© Digimind - Tous droits réservés Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 25
Dans la même collection
White Papers
• «Le Web 2.0 pour la veille et la recherche d’information : Exploitez les ressources du Web Social»
Christophe Asselin, Expert Veille Internet, Digimind
Red Books
• Biotechnologie
• Nanotechnologie
• Nutrition
• RFID
• Risk management
• Contrefaçon
• Moyens de paiement
© Digimind - Tous droits réservés Digimind WhitePaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 33
www.digimind.com
Téléchargez l’intégralité de ce document et
l’ensemble des publications de Digimind :
http://www.digimind.fr/actus/actu/publications