Veille Sur Internet

INTERNET Recherche avance et outils de veille
Support de cours commun ADBS Octobre 2002

(version rvise aot 2003)
"Trouver l'information est un art, pas une science" Jean-Pierre Lardy
dd/06/yy
SOMMAIRE
PREMIERE PARTIE : LA RECHERCHE D'INFORMATION SUR INTERNET
Points de repre sur l'Internet_____________________________________________6

Les internautes.....................................................................................................................................................6 La Taille du Web................................................................................................................................................. 6 La topologie du Web........................................................................................................................................... 7 Caractristiques de l'information sur Internet................................................................................................ 7
Les dix rgles d'or de la recherche d'information sur Internet___________________8 Les rpertoires de recherche______________________________________________ 10
Principe des rpertoires de recherche............................................................................................................. 10 Modes de recherche........................................................................................................................................... 10 Utilisation .......................................................................................................................................................... 10 Les principaux rpertoires francophones et internationaux generalistes.................................................... 11 Typologie des rpertoires..................................................................................................................................12 Un rpertoire la loupe : Yahoo .....................................................................................................................16
Les moteurs de recherche________________________________________________ 17

Principe des moteurs de recherche.................................................................................................................. 17 Les principaux moteurs franais et internationaux....................................................................................... 17 Quelques chiffres sur les moteurs.................................................................................................................... 18 Le langage de recherche des moteurs : les options "standard" (Rappel).................................................... 18 Avantages et inconvnients des moteurs......................................................................................................... 19 Quelques ides reues sur les moteurs.............................................................................................................19 Principaux critres de comparaison des moteurs de recherche.................................................................... 19 Le tri de pertinence des moteurs...................................................................................................................... 20 Le referencement payant (source : abondance.com)..................................................................................... 22 Les moteurs spcialiss..................................................................................................................................... 23
Les moteurs principaux la loupe_________________________________________ 25

Google a la loupe............................................................................................................................................... 25 ............................................................................................................................................................................ 26 All The Web a la loupe...................................................................................................................................... 27 Alta vista a la loupe........................................................................................................................................... 28 Nouveaux moteurs (20012002)....................................................................................................................... 30
Les mta-moteurs "on-line"______________________________________________ 33

Prsentation ...................................................................................................................................................... 33 parmi les plus puissants mta-moteurs du web.. ........................................................................................... 33 Les mta-moteurs spcialiss............................................................................................................................35 Le web invisible................................................................................................................................................. 35
Les listes et les forums___________________________________________________ 37

Listes de discussion ...........................................................................................................................................37 Forums de discussion........................................................................................................................................ 38
Trucs et astuces________________________________________________________ 39
Quand utiliser quels outils ?............................................................................................................................. 39 Comment trouver des sites similaires une source dj connue ?............................................................... 39 Qu'est-ce que le "peer-to-peer" ?.................................................................................................................... 40 Peut-on utiliser le langage naturel sur les outils de recherche ?................................................................... 42 Comment identifier des fichiers pdf sur le Web ?.......................................................................................... 43 Comment identifier des sites fdrateurs (portail vertical ou vortal) ?....................................................... 44 Comment choisir ses mots-cls ?...................................................................................................................... 44 Comment grer les problmes frquents avec les outils ?............................................................................. 47 Peut-on faire une recherche dans les balises "meta keywords" ?................................................................ 48 Comment effectuer une recherche par navigation ?...................................................................................... 48 La recherche sur sites de presse....................................................................................................................... 50 Peut-on faire une recherche par dates ?..........................................................................................................51
Evaluation des sites web _________________________________________________ 52

Les critres d'valuation................................................................................................................................... 52 Les grilles d'valuation existantes ................................................................................................................... 52 Astuces pour l'valuation des pages en cours de navigation......................................................................... 52
Les agents volus sur Internet___________________________________________55

Que sont-ils ?......................................................................................................................................................55 Les "aspirateurs" de sites web......................................................................................................................... 56 Le push (ou webcasting)................................................................................................................................... 57 Le phnomne Weblogs et les fils RSS............................................................................................................ 58 Les mta-moteurs clients "off-line".................................................................................................................59 Les agents d'alerte............................................................................................................................................. 62 Les outils de "text-mining".............................................................................................................................. 63
Principes d'une veille efficace sur Internet__________________________________ 64

Mthodologie mettre en uvre......................................................................................................................64 La veille automatise......................................................................................................................................... 65 La veille "manuelle" (sans lutilisation des agents)....................................................................................... 66
POUR EN SAVOIR PLUS_____________________________________________ 68
PREMIERE PARTIE Recherche avance
Points de repre sur l'Internet

LES
INTERNAUTES
Estimation 665 millions d'utilisateurs dans le monde au dbut 2003 (pour 400 millions dbut 2001 et 540 dbut 2002), selon Computer Industry Almanac www.c-i-a.com. A noter que les estimations Nielsen Netratings se situent en dessous www.nielsennetratings.com, mais encore faut-il se mettre d'accord sur le concept d'"utilisateur"! Estimation 2004 : 724,9 Millions d'utilisateurs, chiffres repris par le Journal du Net http://www.journaldunet.com/cc/01_internautes/inter_nbr_mde.shtml En France, environ 18,7 millions de personnes s'taient connects durant le mois de janvier 2002 selon Mediamtrie pour moins de 12 millions en dbut d'anne 2001 et 17 millions durant le mois de janvier 2002 (www.mediametrie.fr), 21,4 Millions en juin 2003 (toujours source Mediamtrie, repris par le Journal du Net ici : http://www.journaldunet.com/cc/01_internautes/inter_nbr_fr.shtml) Selon une tude du cabinet GfK, en France 24 % des foyers disposaient d'une connexion Internet fin 2002, contre 22,4% fin 2001, 17% fin 2000 et 11 % fin 99 (tude annuelle ralise pour le compte du magazine Science et vie Micro).
LA TAILLE
DU
WEB
Il est trs difficile destimer la taille relle du web. Sa croissance se poursuit un rythme trs rapide (quelque 7 millions de pages supplmentaires par jour), mais de nombreuses pages ont une dure de vie trs limite. La plus grande difficult provient aujourd'hui du nombre trs important de pages dynamiques (cf le chapitre consacr au web invisible), et donc de la dfinition que l'on donne une "page web". Cela dit, en toute logique, on doit dpasser actuellement les 4 milliards de pages, sans compter les informations contenues dans les bases de donnes. Les tudes srieuses sont malheureusement rares : (voir aussi sur http://c.asselin.free.fr/french/webenchiffre.htm) Benchmark Group, avril 2001 Cyveillance, juillet 2000 Inktomi/Nec Research Institute, dc 1999 Nec Research Institute, fvrier 1999 Nec Research Institute,dcembre1997 2,9 milliards de pages 2,1 milliards de pages plus de 1 milliard de pages 800 millions de pages 320 millions de pages
Plus de 42 millions de sites web au niveau mondial, pour 1 million en avril 97 et 7 millions en 2000 (selon Netcraft www.netcraft.com ). (chiffres juillet 2003 : 42,298,371 http://news.netcraft.com/archives/2003/07/02/july_2003_web_server_survey.html) A noter : Selon une tude de juin 2001 de l'OCLC (Online Computer Library Center, Inc), le nombre de sites tait alors de 8,7 millions, contre 7,4 en 2000. (http://wcp.oclc.org) ; Netcraft donnait la mme poque une estimation de 27 millions. Contrairement aux apparences, ces deux chiffres taient peu prs compatibles En effet, pour l'OCLC, chaque site correspond une adresse IP distincte, quant Netcraft tient compte des diffrents sites coexistant sous une mme adresse IP.
LA
TOPOLOGIE DU
WEB
Selon une tude mene par des chercheurs dIBM, Compaq et AltaVista, parue en mai 2000, le Web aurait la forme dun nud papillon comprenant 4 parties. Le nud ou cur du net, trs interconnect, reprsentait 30 % des pages. Il est facile d'y accder depuis de nombreux sites, simplement en suivant les liens. Environ 24 % des pages sont considres comme initiatrices. Leurs liens permettent d'accder au cur du web, mais la rciproque est fausse. l'inverse, les pages destination (24 % des pages sondes) peuvent tre facilement repres depuis le cur du web, mais elles n'y renvoient pas. Les 22 % restants sont des pages compltement disjointes du cur. Elles peuvent tre relies des pages initiatrices ou destination, voire mme constituer des lots totalement dconnects. Il peut s'agir des pages perso d'une famille ou d'un groupe d'tudiants, par exemple. Seule solution pour s'y connecter : connatre l'adresse, puisque mme les moteurs de recherche ne peuvent les trouver. Cette tude n'a malheureusement pas t remise jour rcemment.
(http://www.almaden.ibm.com/cs/k53/www9.final/) CARACTRISTIQUES

DE L'INFORMATION SUR
INTERNET
Grande htrognit dans les contenus et dans les publics (grand public et professionnels) Contenus dynamiques et renouvellement continuel Instabilit des localisations (de plus en plus d'erreurs de type "404") Fragmentation plus ou moins importante, selon les disciplines Multilinguisme et couverture gographique mondiale Information gratuite et payante (tendance plus d'information, plus rapide, moins chre, avec une frange d'information valeur ajoute payante).
Les dix rgles d'or de la recherche d'information sur Internet

1. "Affiner" savoir poser les bonnes questions :sa question (type de recherche, sujet prcis et objectif, tude des concepts, recherches prliminaires ventuelles), choisir ses stratgies de recherche. (OA "lorsqu'on a une recherche faire sur le web, la premire chose faire, c'est de ne pas aller sur le web") 2. Matriser les outils de navigation et de recherche : gestion des signets, rcupration des donnes, rpertoires, moteurs et mta-moteurs. Pour les moteurs, utiliser au moins deux moteurs ayant des approches diffrentes et complmentaires. 3. Trouver de bons points de repre : annuaires et "bons sites" (associations professionnelles, experts, usuels du domaine) dans un domaine : Retrouver les quivalents de ses sources habituelles (d'o l'importance d'avoir une ide, mme approximative, de l'offre documentaire dans le domaine recherch). Complter avec les sources originales Trouver les rpertoires et "mta-pages" spcialises.
Une adresse fiable qui renvoie directement au sujet d'une recherche constitue un bon point de dpart parce que : L'administrateur d'un bon site spcialis est gnralement averti de l'existence et la cration des autres sites de la spcialit : Il slectionne les meilleures rfrences et parfois les commente ; Il passe du temps sur le rseau dans son domaine de comptence ; Il met en jeu son expertise. 4. Toujours analyser l'information : recouper l'information, faire preuve d'esprit critique, valuer rapidement 5. Utiliser en cours de recherche son carnet d'adresses pour garder trace des sites ou pages intressants mais momentanment hors sujet, et "noter" rapidement les ressources enregistres. 6. Savoir se limiter dans le temps : ne pas se rendre esclave d'une recherche d'exhaustivit tout prix, ne pas s'obstiner en vain. Internet contribue souvent rpondre la question "o trouver" (chercher l'info qui conduira l'info). 7. Choisir les bons mots-cls 8. Rester clair sur ses objectifs, sa stratgie et ses critres de choix tablis auparavant face "l'hyper-choix". Rester vigilant sur la trajectoire parcourue et celle qui reste parcourir. "on ne doit pas rechercher l'info de la mme manire suivant que l'on est novice ou expert sur un sujet. Le novice recherche les sites web les plus riches et les plus visits. Il n'a pas de temps perdre et veut viter le bruit. Il obtient des rsultats rapides, aprs la phase d'acclimatation au problme. L'expert n'est pas intress par les sites classiques. Il recherche au contraire le bruit afin de trouver le "signal faible" qui lui donnera l'avantage. Il est prt y consacrer beaucoup de temps. (il fait beaucoup d'efforts pour des rsultats marginaux) 9. Conjuguer harmonieusement recherche dans les outils classiques, web invisible, presse et actualit et navigation hypertexte : la recherche d'information sur Internet est un processus itratif qui oblige passer par diffrents modes d'accs l'information.
Etre "agile" : Dvelopper une lecture rapide, lancer plusieurs recherches la fois, savoir rebondir d'une information l'autre, d'un outil l'autre, d'un article une institution. Se souvenir qu'il n'existe pas de mthode infaillible et que chercher l'information sur Internet, c'est avant tout un tat d'esprit. Ainsi, si je cherche le premier producteur de statistiques en Irlande, je peux commencer, sans trop de risques d'erreurs, par faire l'hypothse que l'INSEE propose des liens vers ses homologues europens.
Faut-il commencer une recherche sur Internet ? Internet est-il complmentaire d'autres supports ou se suffit-il lui-mme ? . On trouvera rarement matire une tude complte d'un sujet via Internet (test : essayez avec un sujet que vous connaissez bien = vous serez toujours trs du). Par contre, bien (et rationnellement utilis) le Web sera souvent plus rapide et moins cher que d'autres supports pour des recherches de type "questions-rponses". Enfin, Internet et ses diffrents services (mail, newsgroups, mailing lists) se prtent bien la pratique de la veille, de part son caractre mouvant, dcloisonn, international.
Les rpertoires de recherche

PRINCIPE
DES RPERTOIRES DE RECHERCHE
"Collections" gnralistes ou spcialises de sites web classes par catgories organises hirarchiquement (au niveau mondial, on arrive des systmes de catgories trs importants : quelque 300.000 pour Looksmart et 460.000 pour le Open Directory ; Nomade ("Tiscali Recherche") annonce quelque 10.000 catgories). Filtrage et classement manuels : la slection peut tre plus ou moins rigoureuse, avec une valuation et une description des sites ventuellement enrichies. Pas dindexation en texte intgral des pages des sites. Les rpertoires gnralistes mondiaux intgrent les fiches descriptives de 2 millions de sites web pour Yahoo, "plus de 4 millions" pour Looksmart et prs de 3 millions huit cent vingt mille sites (400000 sites de plus en 5 mois) pour le Open Directory. Au niveau francophone, quelque 150000 sites sont rpertoris par Nomade et Yahoo (+ 10.000 en 6 mois), 65.000 sur les guides de Voila, de Lycos France ou de MSN, et pour environ 90000 sites francophones grs par le Open Directory (+42 % en un an). (Nomade "reoit" quelque 2000 soumissions par semaine et rejette
40 % des soumissions)
Outils de premire approche : Donnent une vue d'ensemble d'un domaine l'utilisateur, qui peut ensuite naviguer l'intrieur des sites indiqus pour aller plus loin. Ne grent pas les requtes complexes, mais permettent gnralement de faire une recherche par mot-cl sur une catgorie seule. Problmes de mise jour et de dsherbage .
MODES
DE RECHERCHE
Recherche dans le plan de classement : Cette mthode est parfois complexe, aucune norme n'existant pour l'arborescence des rpertoires. Les sites sont indiqus par ordre alphabtique. Recherche par mot cl : la recherche se fait sur les champs suivants : intituls des catgories, titres des sites, rsum des sites, adresses URL des sites. Avec ce mode de recherche, les rsultats bnficient gnralement d'un classement de pertinence opr uniquement sur les fiches descriptives des sites. Le Open Directory ne recherche pas sur les catgories.
UTILISATION
Les rpertoires sont rserver pour des recherches plutt thmatiques, ou sur des mots cls assez gnralistes ; notons toutefois que les catgories deviennent au fil du temps de plus en plus "pointues" en fonction du sujet. Si l'on utilise des mots cls trop prcis, ou trop de mots cls, la plupart des rpertoires passent le relais des moteurs de recherche partenaires (Google dans le cas de Yahoo) qui effectuent des recherches sur le texte intgral des pages web. Cest pourquoi la distinction entre annuaires et moteurs est de plus en plus difficile percevoir (cf "nouveau Yahoo" en .com et en .fr qui ne diffrencie plus les
10
rsultats pages et sites mais donne des "web matches", qui proviennent de Google, mais reprennent la catgorisation de Yahoo s'il s'agit de sites). Mais elle reste nanmoins fondamentale.
Les rpertoires sont aussi utiles : pour se faire une ide du vocabulaire utilis dans un domaine (mme en anglais, via Yahoo) pour retrouver, partir d'un site web donn, d'autres sites traitant du mme sujet pour trouver des sites fdrateurs ou portails spcialiss pour obtenir rapidement tous les sites d'une organisation importante.
LES
PRINCIPAUX RPERTOIRES FRANCOPHONES ET INTERNATIONAUX GENERALISTES
(ordre alphabtique) Rpertoires About C'est trouv (ex Eureka) Looksmart Nomade Open Directory Virtual library Voila (Guide) Yahoo www.yahoo.com http://dmoz.org www.vlib.org recherche.wanadoo.fr guide.voila.fr www.yahoo.fr ou www.looksmart.com Internationaux www.about.com www.ctrouve.com inactif en 2003) (moteur Franais
www.looksmart.fr (arrt) www.nomade.fr http://dmoz.fr
Important : De nombreux autres portails intgrent bien entendu ces rpertoires Disparitions rcentes (depuis 2001) : Actualits : Lancement de Looksmart France : Looksmart fournit son annuaire MSN, Excite, AltaVista, iWon, AOL,etC. Looksmart a Google comme partenaire moteur. 12 mars 2003 : (source Enfin.com) = 12/03/2003 : "Looksmart France : mort et enterr" (archiv) NBCI (ex Snap) disparat en tant qu'annuaire. C'est dsormais Overture qui est utilis par la chane amricaine. Disparition du rpertoire slectif Alpha Search
Et oui, cette belle aventure de Looksmart France vient de prendre dfinitivement fin depuis peu. Le site qui restait en ligne comme tmoignage de l'chec qu'il reprsente est dsormais une redirection vers la version anglaise. A noter que Looksmart Angleterre ne se porte pas vraiment mieux depuis que le principal partenaire, BT, s'est retir de l'affaire.
11
Nomade modifie sa prsentation pour prsenter en premier les catgories pertinentes (cf Yahoo). La catgorie n'apparat plus explicitement sous chaque site trouv. Un lien "sites similaires" permet d'obtenir les sites classs dans la ou les mmes catgories. A noter la prsence envahissante des liens pays sur les pages de rsultats pour les mots populaires (ex : voyage) Nomade choisit Fast comme partenaire moteur (aprs Inktomi, puis Google)
Ctrouve, bas sur la soumission des diteurs, rfrence actuellement plus de 200000 sites francophones. Nouvelles fonctionnalits : recherche par popularit, par visibilit, par visiteurs, recherche moteur/annuaire, Rcemment modifis, par disponibilit, par rgion, modifis souvent, par univers. (ne semble plus fonctionnel cet t 2003, mme si les adresses rpondent) Yahoo.com (partenaire Google) ne diffrencie plus les sites et les pages web mais annonce des "web matches" (octobre 2002), suivi par Yahoo France en janvier 2003.
TYPOLOGIE
DES RPERTOIRES
Les rpertoires gnralistes "classiques" Rpertoires ayant vocation indexer tous les sites et qui n'effectuent une censure que sur la base de principes prdfinis : sites manifestement illgaux, sites en construction totale ou sans contenu rel, sites personnels trop "personnels", etc. Des quipes ddies appartenant la socit dtentrice du rpertoire enrichissent les catgories. Citons Yahoo, Nomade, , Looksmart. Notons que le nombre de ces rpertoires gnralistes tend diminuer (disparition de SNAP)
12
Les rpertoires gnralistes"contributifs" ou "ouverts" Rpertoires dont l'enrichissement est effectu par diffrentes quipes d'internautes, non intgres la socit grant le site. La responsabilit d'une ou plusieurs catgories est confie : Soit des experts rmunrs pour leur prestation : About.com travaille ainsi avec des spcialistes qui slectionnent les sites pour leur thmatique et sont charges de l'animation de leur section. Celle-ci peut d'ailleurs tre considre comme une "mta-page" du domaine, voire un rpertoire spcialis. About se prsente donc comme un annuaire de guides du web. Voir par exemple http://websearch.about.com qui reprsente l'un des points de dpart incontournables pour la recherche d'information sur le Web. En septembre 2001, About.com supprime 300 des 750 guides de son catalogue et roriente son activit vers le commerce lectronique : "About is going to be much more based on what users need to know, rather than something for everyone" est-il dit la Direction Soit des internautes bnvoles dont la comptence dans le domaine couvert pour cette catgorie a t vrifie. Ces internautes reoivent alors les demandes de rfrencement de leur catgorie, dcident ou non d'intgrer les sites, et le cas chant, rdigent eux-mmes la description du site : Ainsi, le Open Directory "rachet" en 1998 par Netscape qui propose des licences d'utilisation d'autres acteurs du Web, tels Lycos (plus de 52000 diteurs issus de 229 pays en 44 langues). Bien entendu, l'inconvnient d'un tel systme rside dans une qualit ingale selon les catgories. Le Open Directory signale actuellement environ 100 000 sites francophones. A noter que le Open Directory fait des "mules", mais qui se rapprochent plus du modle ci-dessus, avec une rmunration des diteurs : exemple wherewithall.com (dont l'outil de recherche se situe aujourd'hui l'URL www.xoron.com) ou bien Zeal.com, rpertoire ouvert propos par Looksmart et qui sert galement alimenter ses bases Soit des centres spcialiss (universits, centres techniques, etc.) : Ainsi, la Virtual Library du W3C (World Wide Web Consortium) fut le premier catalogue de ce type du Web. On est renvoy pour chaque thmatique une section spcifique sur le serveur du centre concern.
Les rpertoires slectifs Rpertoires dont les gestionnaires mettent en place des critres de qualit prcis et intgrent uniquement les sites rpondant ces critres : Exemples www.bonweb.com ou www.britannica.com (encyclopdie Britannica).
13
Les rpertoires spcialiss, ou "mta-pages" Rpertoire dont les sites rpertoris relvent tous d'un domaine ou d'un secteur particulier (le vin, le tourisme, le sport, les ressources humaines, etc.). Un rpertoire spcialis peut, par exemple, ne prendre en compte que les entreprises d'un secteur, ou les produits d'un domaine. Les rpertoires spcialiss sont souvent la base d'un portail thmatique ou "vortail" : Ainsi, Indexa intgre les sites web d'entreprises (et par extension, du monde professionnel : fdrations, presse, etc.). Attention l exhaustivit, la mise jour et laspect slectif. Exemples de mta-pages spcialises sur nature de documents : Usuels et rfrence Personnes Recherche ligne Thses Site universitaires Statistiques Presse gnraliste Presse scientifique Bibliothques dimages http://www.bnf.fr/pages/liens/ http://www.nedsite.nl/search/people.htm en http://www.ebsi.umontreal.ca/jetrouve/internet/mote ur4.htm www.theses.org www.braintrack.com www.statistics.com www.presseweb.ch www.libs.uga.edu/science/fullalph.html http://sunsite.berkeley.edu/Libweb/index.html (Monde) www.abf.asso.fr/sitebib (France) Cartes gographiques Administration franaise www.internets.com/smaps.htm www.service-public.fr
Exemples de mta-pages thmatiques : Mdecine Juridique www.cismef.org www.legifrance.gouv.fr www.conseilconstitutionnel.fr/signets/autressi.htm Collectivits Economie Informatique Environnement http://www.ait.asso.fr/Liens.htm www.ccip.fr/rime www.inria.fr/InfoWeb www.ulb.ac.be/ceese/meta/cdsfr.html CISMEF CHU Rouen Legifrance Cons. Constitutionnel
AIT RIME (grandes coles commerce) Inria Universit Bruxelles Libre de
Sciences sociales www.sosig.ac.uk
14
Les rpertoires d'outils de recherche Rpertoires spcialiss dans le signalement de rpertoires gnralistes, de rpertoires spcialiss, de moteurs de recherche gnralistes, de moteurs de recherche spcialiss, de mta-moteurs, voire de portails. Ces rpertoires proposent parfois un signalement gographique, comme Indicateur.com, Search Engine Collosus (www.searchenginecolossus.com) ou Ariane6 (www.ariane6.com/moteurs.htm) Certains rpertoires de ce type jouent galement le rle de mta-moteurs (exemple The Big Hub). 7alpha (www.7alpha.com) ; Beaucoup (www.beaucoup.com) ; Enfin (www.enfin.com) ; Finderseeker (www.finderseeker.com) ; Indicateur (www.indicateur.com) ; Metamonster (www.metamonster.com) ; Searchability (www.searchability.com) : Search Engine Guide (www.searchengineguide.com) ; Search Power (www.searchpower.com) ; The Big Hub (www.thebighub.com) ; Strategic Road (www.strategic-road.com) ; "Vite, tous les Outils" (Jean-Pierre Lardy) (www.adbs.fr, rubrique Recherche d'information ou URFIST le Lyon : http://urfist.univ-lyon1.fr/risi/risi.htm) ..ETC ETC Signalons les rpertoires "acadmiques" les plus connus de mta-pages (en-dehors de la Virtual Library, dj cite) : Strathclyde University, Ecosse : Bubl Link : bubl.ac.uk/link Internet Public Library (University of Michigan) : www.ipl.org Universit de Gttingen : http://www.sub.uni-goettingen.de/ssgfi/ Library of California : Librarian's index to the Internet : www.lii.org En franais, voir notamment la selection de Sciences-Po Paris : http://www.sciencespo.fr/docum/ebibliotheque/index.htm, et de la BNF
15
UN
RPERTOIRE LA LOUPE
: YAHOO
Prsentation Plus de 8000 soumissions par jour sur Yahoo US (700 en France). Deuxime (assez loin derrire Google) dans le palmars des outils utiliss. Recherche possible dans les dpches d'agences (Reuters, Cyperus, AFP, AP, etc.). On peut chercher directement dans l'actualit via http://news.yahoo.com ou bien en France http://fr.news.yahoo.com Finance : http://fr.finance.yahoo.com Recherches possibles dans une sous-catgorie Les sites ou catgories appartenant galement d'autres catgories sont repres par un @ Yahoo France prsente d'abord les catgories concernes par la recherche, puis les sites web. Mais depuis peu, seules les premires catgories concernes apparaissent, pour laisser la place aux sites sur la premire page de rsultat. Yahoo.com ne diffrencie plus les rsultats sites et pages. Partenaire moteur : Google
Syntaxe Oprateur ET implicite (pour plus doptions, passer en recherche avance) Utilisation possible du +, du et des " " Troncature automatique (sauf pour les mots courts), mais possibilit de troncature droite avec * Limitations de champs lURL, taper u :nom rechercher ex u :danone Limitation au titre, taper t :terme rechercher ex t :optronique Les majuscules et minuscules ne sont pas distingues Yahoo gre quelques synonymies dans son systme de recherche.
A noter La catgorie Commerce et Economie / Socits qui liste les socits par secteur d'activit On trouve pour certains domaines la sous-catgorie "Annuaires et guides web" qui rpertorie des sites portails ou rpertoires spcialiss. "Saut" possible de Yahoo France Yahoo US partir d'une catgorie. Yahoo prend en compte la popularit d'un site lorsque le moteur est utilis (et ne renvoie donc pas une liste par ordre alphabtique dans ce cas) Fusion avec le site eGroups, (listes de discussion ou "Yahoogroupes") : http://groups.yahoo.com Le rachat de Inktomi par Yahoo devait tre finalis dbut 2003. On peut donc s'interroger sur la prennit du partenariat avec Google, mme si, la rentre 2003, c'est toujours Google qui motorise cette partie du rpertoire.
16
Les moteurs de recherche

PRINCIPE
DES MOTEURS DE RECHERCHE
Un moteur de recherche est un outil automatique constitu de plusieurs lments
1.Robot d exploration (spider) : collecte du contenu de millions de pages web dans une base de donnes structures en champs (texte de la page, titre de la page, URL). Ces pages sont stockes dans un index qui se rafrachit la vitesse des visites du robot. 2. Indexation automatique : l'index de la base de donnes contient tous les mots significatifs des pages visites par le robot. 3. Interrogation de lindex : l'utilisateur rentre un ou plusieurs mots cls. Chaque page contenant au moins une fois l'un de ces mots est considre comme une rponse pertinente. Attention : les moteurs indexent rarement toutes les pages des sites visits : par exemple AltaVista a mis en place une "limite de taille" d'environ 400 pages par sites. De plus, toutes les pages ne seront pas prises en compte en mme temps. La mise jour de l'index est variable et peut prendre de un jour quatre semaines. Plusieurs moteurs s'orientent actuellement vers une mise jour "partiale" en travaillant d'abord sur les sites les plus populaires et les plus mouvants. De faon gnrale, les moteurs travaillent aujourd'hui plus sur la reprsentativit que sur l'exhaustivit de leur index.
La plupart des outils indexent galement les mta-donnes, LES
PRINCIPAUX MOTEURS FRANAIS ET INTERNATIONAUX
(ordre alphabtique) Moteurs Alta Vista AOL Exalead (sur Directory) Excite Fast Google Hot Bot (rsultats Fast) Lycos (rsultats Fast) Mirago MSN (rsultats Inktomi) Teoma Voila Wisenut www.wisenut.com www.alltheweb.com www.google.com www.hotbot.lycos.com www.lycos.com www.mirago.com (UK) search.msn.com www.teoma.com www.voila.fr www.google.fr www.hotbot.fr www.lycos.fr www.mirago.fr search.msn.fr le Internationaux www.av.com www.aol.com Open www.exalead.com www.excite.fr (Fast) Franais www.altavista.fr www.aol.fr(technologie Exalead)
17
Disparitions rcentes (depuis 2001) : Infoseek, Ecila, Excite (en tant que technologie moteur), Webtop (Dialog), Lokace et Northern Light
Ce 14 juillet 2003, Yahoo! a annonc le rachat d'Overture pour 1,63 milliard de $. La socit Overture est leader des liens sponsoriss et promotionnels* et a elle-mme rachet en fvrier le moteur Altavista et la division Web Search de FAST, l'diteur du moteur AlltheWeb. De son ct, Yahoo! a finalis en mars l'acquisition d'Inktomi afin de possder ses propres technologies de recherche. En effet, jusqu'ici, le moteur utilis par Yahoo!, c'est Google, un partenaire encombrant qui finalement lui capte et "vole" de nombreux clients et internautes. (source : C. Asselin, Intelligence Center : http://c.asselin.free.fr/french/juillet03/yahooverture.htm)
QUELQUES
CHIFFRES SUR LES MOTEURS
Estimation du nombre de pages indexes par chaque moteur
Sorce : Searchengine Showdown Greg Notess http://www.searchengineshowdown.com/stats/sizeest.shtml
Sorce : Search Engine Report Dc 2001 www.searchenginewatch.com Showdown Claim Data from: Dec. 31, 2002 Estimate (millions) (millions) Based on AlltheWeb reported size and percentages from 3,033 2,106 1,689 1,453 1,147 1,018 1,015 733 275 3,083 2,112 1,000 1,500 3,000 3,000 500 125 150
relative size showdown AlltheWeb: 2,106,156,957 reported
Search Engine Google AlltheWeb AltaVista WiseNut Hotbot MSN Search Teoma NLResearch Gigablast
Fast (Alltheweb), Google se livrent une bataille acharne pour ravir la premire place, Alta Vista restant actuellement plus loin derrire.
LE
LANGAGE DE RECHERCHE DES MOTEURS
LES OPTIONS
"STANDARD" (RAPPEL).
Oprateurs inclusifs et exclusifs (+ et -) Troncature : * Expression : " " Limitation par langue
18
Les outils disposent aussi d'une interface de recherche guide ("plus d'options", "recherche avance" "power search", etc.) qui vite de connatre le langage d'interrogation et permet d'exploiter simplement diffrentes options. Attention la recherche d'avance de Alta Vista qui exige une syntaxe diffrente de la recherche simple (cf fiche moteur Alta Vista)
AVANTAGES

ET INCONVNIENTS DES MOTEURS
Gestion de recherches complexes (par opposition aux annuaires) Rponse des recherches trs prcises Manque dexhaustivit Les algorithmes de pertinence dvelopps ne pallient pas les limites d'une indexation souvent "basique en texte intgral" = bruit Pas d'accs au "Web invisible" (voir le chapitre spcifique) Pas trs performants en recherche sur autre chose que du texte (images, sons) Lenteur de rafrachissement de lindex (environ 4 semaines) donc pas efficaces pour des recherches sur lactualit.
QUELQUES
IDES REUES SUR LES MOTEURS
Il existe des centaines de moteurs FAUX : Il existe en fait de nombreuses interfaces "oprant" sur les mmes bases. Une socit comme Inktomi propose des licences de ses bases de multiples outils (Lycos utilise ainsi conjointement Fast et Inktomi) "Je cherche une page que j'ai vue sur le web il y a un an" Les moteurs de recherche n'archivent pas les documents qui ont t modifis ou qui ont disparu: ce n'est pas parce que vous avez vu une page un jour sur le web que vous la retrouverez forcment. A noter que Google propose toutefois d'obtenir la page telle qu'elle tait lorsqu'elle a t visite par le robot (environ une fois par mois = option "en cache") (solution de dernier recours = la Wayback Machine de www.archive.org). Quand vous interrogez un moteur, vous scrutez le web en temps rel" FAUX : vous interrogez l'index d'une base de donnes. "On ne sait jamais quelles fonctionnalits sont disponibles sur un moteur" FAUX : les aides en ligne (help, tips) sont gnralement bien rdiges. "If you've found it once, you'll find it again" FAUX : la plupart des moteurs changent, les algorithmes de pertinence varient, et peuvent donner des rsultats trs diffrents (voir la notion de "Google Dance" mensuelle). Les pages disparaissent, voluent. On n'utilise pas exactement la mme requte.
PRINCIPAUX

CRITRES DE COMPARAISON DES MOTEURS DE RECHERCHE
Provenance de l'index, taille de l'index, ressources prises en compte Dlai moyen de rafrachissement et conditions de mise jour Mode d'indexation et traitement ventuel des ressources (linguistique, statistique, parsing : extraction des lments signifiants)
19
Options de recherche simple et avance, aide la reformulation des questions. Critres dterminants pour le classement des rsultats Prsentation des rsultats : informations disponibles, source du rsum, datation des rsultats, regroupement des pages d'un mme site (cluster), mise en exergue des mots-cls sur la page, archive de la page, cartographie, etc. Critres subjectifs : interface de consultation, adquation aux types de recherche effectus.
LE
TRI DE PERTINENCE DES MOTEURS
Principes Les moteurs mettent au point des "tris de pertinence" pour classer de faon automatique leurs rsultats de recherche, afin de prsenter en dbut de liste ceux qui obtiennent le meilleur score pour une requte donne. Les algorithmes de tri sont diffrents en fonction des outils et plus ou moins performants et complexes. Ils ne sont gnralement pas connus de faon prcise et varient dans le temps pour chaque moteur. Les principaux critres utiliss sont les suivants : Par rapport la requte de l'internaute : position des mots dans la requte : Ainsi, sur Alta Vista et Google, l'ordre des mots de la question n'est pas neutre. correspondance d'expression : similarit entre l'expression de la requte et l'expression correspondante dans un document Par rapport aux pages de rsultats "densit" des mots-cls : nombre d'occurrences du (des) terme(s) demand(s) / nombre de termes de la page en question, une fois limins les mots vides. prsence dans le titre ou dans le premier tiers de la page mise en exergue du texte (gras, taille des caractres) prsence dans les mta-donnes* (ce critre tend perdre de son importance). Des outils comme Google ou Fast n'utilisent pas du tout ce critre, et Voila ne leur donne plus beaucoup d'importance. prsence dans l'adresse de la page proximit des mots-cls sur la page Par rapport la base de donnes du moteur : raret des mots (dtermin par le nombre d'occurrences du mot dans l'index) : des mots rares dans une requte ont une pondration plus importante que des mots communs popularit des pages : indice de clic (bas sur l'audience) ou indice de popularit (bas sur le principe de citation).
La popularit comme mesure de pertinence Depuis deux ans, on a assist la naissance, au dveloppement, puis au franc succs de deux nouvelles mesures de pertinence appeles respectivement "indice de clic" et "indice de popularit". Ces mesures s'ajoutent le plus souvent d'autres "ingrdients" pour classer les rsultats des moteurs, mais ils constituent aussi le critre de tri primordial des nouveaux venus inventeurs de ces technologies. Ces nouveauts, issues du "filtrage collaboratif", sont symptomatiques d'un certain dsarroi des acteurs et utilisateurs du
20
rseau face aux multiples difficults d'un recueil rapide d'informations pertinentes. L'indice de clic
Il s'agit ici d'analyser le comportement des internautes posant la mme question au moteur et de privilgier dans le classement les pages les plus "cliques", et sur lesquelles le temps pass est le plus important. Il permet donc de classer les rsultats des requtes les plus populaires, en rcuprant le jugement implicite de communauts d'usagers. Fonctionne donc en "tche de fond" sur un moteur existant, la base s'enrichissant ainsi. Direct Hit (www.directhit.com), rachet par Ask Jeeves en 2001, puis devenu Teoma, est la rfrence dans ce domaine et est utilis par de nombreux moteurs comme Lycos et MSN (plus de 50 sites clients), mais aussi Ask Jeeves. Alta Vista et Inktomi ont dvelopp leur propre systme sur un principe similaire. Un systme de positionnement payant "DirectHit Network" permettra d'acheter un positionnement dans les rsultats de Direct Hit. A noter que (fvrier 2002), Ask Jeeves envisagerait d'arrter cette anne le site web consacr Direct Hit pour centraliser ses efforts de dveloppement sur le moteur Teoma. Il conserverait la technologie pour la proposer ses clients, mais le site serait fusionn avec celui de Teoma. La technologie Global Brain (www.globalbrain.net) est trs proche et fut notamment mise en uvre sur le rpertoire NBCI avant son arrt rcent. Le dfaut de l'indice de clic reste de privilgier fortement les sites "installs" et qui ont des moyens publicitaires importants, au dtriment des "petits nouveaux". Il ne faut toutefois pas nier l'ingniosit du principe, ni les services que ces outils peuvent rendre. Pour savoir si les pages ramenes par un moteur sont issus de Direct Hit, il faut scruter attentivement le bas de la page de rsultats. Si tel est le cas, la ligne "powered by Direct Hit" apparat. L'indice de popularit
On s'intresse ici aux "backlinks" ou "liens l'arrive", c'et dire au nombre et la qualit des liens pointant sur une page : on mesure ainsi sa popularit, et donc selon les concepteurs de ces technologies, sa pertinence. Les anglophones disent pour mieux expliquer le principe de l'indice de popularit :"It's not what you know, it's who knows you". En d'autres termes, le plus important n'est pas ce que vous dites ou ce que vous savez, mais qui vous connat. Le principe, rendu clbre par le moteur Google, n'est pas totalement nouveau. Ne mesure-t-on pas la crdibilit d'un auteur scientifique au nombre de citations qui sont faites sur ses articles ? Google examine la structure des liens sur l'ensemble du web. Quand on fait une recherche, un URL avec un fort "page rank" a plus de chance d'tre listee en premier. Chaque page de l'index de Google est note : le "page rank" est une proprit de la page en elle-mme, indpendante des requtes effectues : elle quivaut la probabilit quel 'internaute aboutisse cette page sur Internet.
Dfinition formelle : Soit A une page du web et T1...Tn les n pages citant A. Soit C(X) le nombre de liens pointant en dehors de la page X.Soit d la probabilit qu'a l'internaute virtuel de changer de page au hasard ( souvent mis 0.85 ). Alors Le PageRank de A est Pr(A)=(1d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn)) Si A tait une page contenant tout le web alors le PageRank de cette page serait de 1. Le PageRank forme une distribution probabiliste sur l'ensemble des pages du web.
21
Le tri des rsultats pour une requte intgre d'autres critres plus classiques, dont bien entendu la prsence des termes de la requte dans les pages de rsultat, ou identifie comme pertinente via l'analyse du contexte des liens. Le grand avantage du systme est de donner une meilleure visibilit aux sites incontournables du domaine de recherche. L'inconvnient majeur est l encore, de pnaliser les nouveaux venus peu connus.
A noter
Alta Vista n'applique pas son algorithme de pertinence en mode avanc, mais propose de trier les rsultats en fonction du ou des mots saisis dans le champ "Trier par" (sort by).
Complment d'information :

Sur le ranking de diffrents moteurs, voir www.user.cityline.ru/~asona/secret/searchengine5.html entre autres la page suivante
Sur le site Abondance (www.abondance.com), Olivier Andrieu donne pour chaque moteur prsent l'importance relative des diffrents critres (peu dtaill toutefois).
Les socits spcialises dans le rfrencement cherchent bien entendu connatre le plus prcisment possibles les critres cls de chaque moteur (cf paragraphe prcdent). L'objectif est de faire apparatre en bonne position (ranking) les pages web de leurs clients sur les listes de rsultats une requte comportant certains mots-cls. Ce travail de rfrencement se fait parfois au mpris de l'thique et donne lieu une activit de "spamdexing" ou "spamming". (Cration ou modification d'un document avec l'intention de tromper un catalogue ou un systme de classement lectronique. Toute technique qui a pour objectif d'augmenter la position potentielle d'un site aux dpens de la qualit de la base de donnes du moteur de recherche. Dfinition issue du glossaire ralis par les membres francophones de la liste de diffusion I-Search Digest hberg par le fournisseur d'hbergement IDF www.idf.net/mdr/glossaire.html). Cette activit a notamment amen la baisse d'importance rapide du critre de prsence des mots-cls dans les mta-donnes.
LE
REFERENCEMENT PAYANT
(SOURCE :
ABONDANCE.COM)
le rfrencement payant devient une norme, au moins pour l'tude des dossiers. L'extrme est bien sur Overture, o les mots-cls sont "mis aux enchres" : La soumission payante La soumission payante est propose principalement par les annuaires. Elle permet de voir son site rapidement valu (en quelques jours) par les netsurfers et d'obtenir une rponse par mail, que celle-ci soit ngative ou positive. Il ne s'agit en rien d'une garantie d'inscription dans l'annuaire. Le responsable du site paye uniquement pour tre sr que sa source d'information sera visualise rapidement et qu'il sera averti dans la foule de la dcision de l'outil de recherche. Vous pouvez donc tout fait payer pour voir votre site refus. Cependant, il semblerait que le pourcentage de sites accepts par ce biais soit assez important outreAtlantique. Le fait que Yahoo! ait rendu cette procdure obligatoire dans un certain nombre de catgories semble galement montrer qu'elle est plutt bien ressentie par les propritaires des sites. Ex : Yahoo, Looksmart, NBCI Le rfrencement payant
22
Le rfrencement payant garantit la prsence d'un certain nombre de pages d'un site dans la base de donnes d'un moteur de recherche, ainsi qu'un rafrachissement de ces documents dans des dlais courts et garantis. Il ne s'agit en rien, dans ce cas, d'une garantie de positionnement sur tel ou tel mot cl, mais uniquement du fait que le webmaster saura que sa (ou sa "collection de") page sera joignable par l'internaute, qu'elle sera prsente dans l'index. Ct moteur, il s'agit galement d'un moyen de lutter contre le spam et de prendre en compte des pages dynamiques (accessibles l'aide d'une url "exotique", c'est--dire contenant un "?" dans leur intitul) puisque les clients sont, cette fois, dment enregistrs. Aucun soumission anonyme n'est possible. Ex : Altavista, Inktomi, Fast Le positionnement payant Le positionnement payant permet, pour sa part, d'obtenir une page web de votre site dans les X premires positions de l'annuaire (sur une catgorie ou une saisie de mot cl) ou d'un moteur de recherche (pour un mot cl donn). Ex : Yahoo Sponsored sites. Offres de positionnement publicitaire des outils de recherche grce l'achat en ligne pour certains mots-cl ex : les premiers rsultats d'Overture sont prsents en tte de la page de rsultats sur AOL, Netcape, MSN, Yahoo US ou Lycos US. ("sponsored sites", "feature links"). Et Les rsultats de Espotting apparaissent sur les outils franais Lycos, Altavista, Hotbot, Nomade depuis janvier 2002 et bientt Yahoo,. Copernic a sign un accord pour 5 liens maximum, en fonction des mots-cls demands Attention, depuis peu, des sites payent pour apparatre en premire position lors de recherches sur des marques de notorit mondiale. Les campagnes de rfrencement payant peuvent atteindre des sommes trs importantes. Ainsi, Kelkoo pour son lancement en Grande-Bretagne a investi 1 million d'euros en achat de mots-cls auprs d'Espotting. Si le montant est comparable celui d'une campagne publicitaire, son efficacit est en revanche mesurable. Les connexions sur le site de Kelkoo en Angleterre ont t multiplies par 8 durant le premier mois de cette campagne de rfrencement payant. (01 net) Selon Merrill Lynch, le march de la vente de mots-cls atteindra 400 millions de dollars aux tats-Unis en 2002. . . Autre solution Google propose le systme Adwords : le client cre un encart qui apparatra en haut et droite des pages de recherche de Google en fonction de mots cls choisis par le client. Google propose galement l'offre Premium Sponsorship (rsultats sponsoriss) : le client apparat en haut de page et avant les rsultats de la recherche. Les formats et design sont grs par Google Pour le dtail sur des tarifs, voir : www.edantza.com/ressources-referencement/offres_referencement_payant.html www.referencement.ch/referencement-payant.html.
LES
MOTEURS SPCIALISS
Ils sont encore peu nombreux, car font rapidement appel des technologies complexes.
23
Certains font une indexation en texte intgral des pages d'une slection manuelle de sites web (exemples Medical World Search en mdecine www.mwsearch.com, ou encore LawCrawler du site Findlaw dans le domaine juridique http://lawcrawler.findlaw.com ) D'autres catgorisent automatiquement des pages web, tel Voila avec sa recherche thmatique ( tester par exemple avec le mot "bilan" dans la thmatique "comptabilit"). Exemple : Polymer search on the Internet (plastiques, caoutchouc, polymres) www.polymer-search.com moteur de recherche en texte intgral sur le contenu web de nombreux sites. L'diteur Rapra slectionne les nouveaux sites indexer selon des critres prcis (quantit et qualit du contenu). www.netsearcher.com : recherche sur slection de sites internet.com Scirus : www.scirus.com : moteur spcialis et mta-moteur spciaslis : utilise des sites web d'accs libres indexs en profondeur par le moteur de recherche Fast. Seuls des sites contenu scientifique valid sont slectionns et intgrs. + bases de donnes. www.newenergy2b.com : recherche sur 200 sites. Moteur Etat-Partenaires de l'ADIT sur 300 sites publics. www.adit.fr Moteur sur les sites ducatifs du CNDP : www.cndp.fr/spinoo/
24
Les moteurs principaux la loupe
GOOGLE
A LA LOUPE
Google est la star actuelle des moteurs de recherche (50 % du trafic de la recherche francophone d'aprs le baromtre Xiti/1re Position du mois d'avril 2002, loin devant Yahoo France avec 16,4 %). Google utilise aujourd'hui 8000 serveurs Linux connects en rseau. Il aurait un index de 3 milliards de documents (pages web, archives des forums de discussion et images) dont les sont rellement disponibles en tant que docs web indexs en texte intgral. Google utilise des algorithmes analogues ceux des autres moteurs, mais donne davantage dimportance un critre trs intressant : la popularit des pages web. Google calcule en effet l'importance d'une page en fonction du nombre de liens qui, partir d'autres sites, pointent vers cette page. L'importance probable des sites o se trouvent ces liens est galement prise en considration, et elle est value de la mme manire. (cf page) Syntaxe: L'oprateur par dfaut est ET. Google accepte les guillemets. On peut ventuellement utiliser loprateur OU. L'oprateur + est nanmoins parfois ncessaire pour forcer le moteur prendre en compte un mot trs courant ("mot vide", ou "stop word" en anglais). Loprateur fonctionne. Il ny a pas de troncature, et la recherche se fait sur la chane de caractre indique (au singulier si indiqu au singulier), mais sans tenir compte des accents. Recherche dans le titre des pages (fonction intitle: ainsi que allintitle:) et dans l'url (inurl: ainsi que allinurl:) link:www.monsite.com visualise les pages "pointant" vers "monsite". related: www.monsite.com/page.html visualise les pages lies. particulier site:www.monsite.com cherche le mot cl "particulier" sur le site Mon site. filetype:pdf retrouve les fichiers de type pdf. filetype:ppt site: gihweihtghwhg : 257000 docs filetype:asp retrouve les fichiers ASP (Active server pages de Microsoft), Fonctionnement identique depuis novembre 2001 pour les documents word (doc) excel (xls), powerpoint (ppt) et RTF (rtf) dsormais indexs. ne permet pas la troncature comme dans la majorit des outils, mais permet de remplacer un mot : exemple "trois * chats" va ramener des phrases comportant "trois petits chats", "trois gros chats", etc La recherche avance permet de retrouver ces fonctions via des menus droulants et permet galement d'inclure seulement (ou d'exclure) les pages provenant d'un site ou d'un domaine. En anglais, une recherche est possible sur le titre ou l'URL. Recherche propose dans les rsultats (revient rajouter des mots cls la premire quation). Dans les rsultats, La ligne de "description" des pages met en situation les motscls (habituellement, c'est la premire ligne de la page ou la mta-donne description qui est utilise)
25
Google conserve une copie (lien "cached" ou archiv en mmoire dans les rponses) des pages qu'il a indexes. Ainsi, si la page a t modifie, a disparu ou si elle a chang d'adresse, il est tout de mme possible de la consulter. Google indexe 22 millions de fichiers pdf (voir"trucs et astuces : comment identifier des pages pdf sur le web"). Le moteur utilise le rpertoire Open Directory, mais reclasse dans chaque rubrique par popularit via son systme. Google propose comme beaucoup une barre d'outils tlcharger et qui s'intgre au navigateur. Les + de l'outil : le "page rank" ou taux de popularit de la page de Google en direct ; la recherche sur le site dont provient la page web visite. Google a rachet en fvrier 2001 l'outil de recherche sur les forums Deja, et propose aujourd'hui les archives des forums depuis 1995, soit 650 millions de messages. Depuis juillet 2001, le moteur permet la recherche sur les dates en recherche avance : il n'y a pas, comme dans Alta Vista, moyen de configurer prcisment sa requte, mais on peut nanmoins choisir d'effectuer une recherche sur les trois derniers mois, les six derniers mois ou l'anne prcdente. Google est partenaire de Yahoo et de Nomade (quand la requte sur les annuaires ne donnent rien). Recherches d'images (http://images.google.com) : 250 millions de fichiers sont aujourd'hui proposs, ce qui fait de Google un redoutable challenger pour les autres moteurs de recherche d'images. Google a rachet Outride, spcialise dans la mise en place d'algorithmes de pertinence dans le domaine de tri de l'info disponible en ligne et manation du Xerox Palo Alto Research Center. Google a lanc une page "News and resources" (news.google.com) sur les dernires nouvelles et dpches d'actualit dans 7 catgories distinctes. Les infos sont issues de 100 sites d'info en langue anglaise (New York Times, CENT, News.com, Reuters, etc.). les dpches sont mises jour toutes les heures, et pour l'instant, aucune recherche dans les archives n'est disponible. Fvrier 2002 : mise en place d'un nouveau systme pour les liens achets ( ct du systme classique base sur le CPM): "adwords select" o l'annonceur ne paye que si le lien est cliqu Avril 2002 : Google lance les "Google web APIs" bote outils pour les programmeurs qui peuvent ainsi utiliser gratuitement (pour usage non commercial) l'index de Google pour leurs applicatifs. Mapstan a utilis cette fonctionnalit pour cartographier les rsultats fournis par Google sur une requte par mots-cls : search.mapstan.net Voir aussi www.touchgraph.com/TGGoogleBrowser.html reprsentation graphique des liens pointant vers un site. Recherche sur les tendances www.google.fr/press/zeitgeist.html et faits pour voir la :
marquants
A noter dbut 2003 650570 sites visibles sur le web francophone sur Google.
26
ALL THE WEB
A LA LOUPE
Lanc en 1999 par la socit norvgienne Fast suite un accord avec Dell Computer Corporation : Moteur trs rapide avec l'un des plus gros index de pages web actuellement (625 millions de pages).Il est utilis galement par Lycos et Spray Choix d'une langue de recherche Clustering pour les rsultats. Un clic sur "more hits from" relance une recherche de All The Web sur le seul site concern. En recherche simple, noter les parenthses pour signifier le OU (un seul niveau de parenthses possible) :+scurit +(voiture automobile). url.tld:nomdedomaine trouve les pages l'intrieur d'un domaine spcifique (url.tld:fr trouve les pages du domaine France) url.host:urld'unsite) trouve les pages d'un site spcifique (url.host:www.adbs.fr) link.all:urld'unsite trouve les pages ayant un lien avec l'adresse indique (link.all:www.adbs.fr trouve les pages pointant vers www.adbs.fr) normal.title:texte trouve les pages contenant le mot ou la phrase dans le titre url.all:texte : trouve les pages avec un mot ou une phrase dans l'URL url.domain:text : trouve les pages avec le mot ou la phrase spcifie dans le nom de domaine Pas de troncature En recherche avance, la plupart des fonctionnalits sont disponibles via une interface guide Recherches d'images, de clips video, de fichiers MP3 ou FTP (par dfaut, recherche sur les sites web, mais on peut naviguer dans les rsultats des diffrentes sources. Est rentr dans le capital de la socit Albert (langage naturel) Rafrachissement annonc de l'index de 9 12 jours, mais l'ensemble du web n'est pas crawl en un cycle. Service de news (3000 sources, avec mise jour toutes les deux heures) ; Classement dynamique des 200 premiers rsultats (utilisation des catgorie du Open Directory si l'une ou plusieurs correspond, sinon, cration d'une nouvelle : voir en haut de la page dans une fentre "beta fast topics") ; Outil de pr-analyse qui permet de voir comment le moteur a traduit la requte ("your query was rewritten into"). Mars 2002 : Fast va signer avec le site FirstGov (www.FirstGov.gov), le portail Internet du gouvernement amricain, pour l'quiper de ses technologies de recherche d'information en remplacement d'Inktomi (51 millions de docs disponibles avec formats htrognes (bases de donnes, html, pdf..) Recherche dans les documents pdf et flash annonce en septembre 2002 (voir recherche avance File format), dans les docs word en dcembre Dcembre 2002 : Amlioration de l'algorithme de pertinence, notamment sur les requtes de deux mots cls et plus (prend notamment en compte la proximit des mots et classe en premier l'expresssion Janvier 2003 : Interface recherche avance revue et prise en compte de nombreux oprateurs (page aide trs claire).
27
ALTA

VISTA A LA LOUPE
Alta Vista appartient la socit CMGI depuis 1999 (aprs avoir appartenu Digital depuis 1995, puis Compaq depuis 98) Mise en ligne rcente de la nouvelle version de son moteur de recherche : les changements touchent la fois le look (plus pur), les fonctionnalits et le tri de pertinence. L'index est d'environ 1,3 Milliards de page (aprs crawling de 4 milliards), et reste donc en-dea de Google et Alltheweb. On compte aussi quelque 400 millions d'objets multimedia avec une prsentation " onglets" qui ressemble Google. Altavista annonce un rafrachissement beaucoup plus performant avec une mise jour quotidienne de la moiti des liens" ce qui semble trs exagr. On apprcie beaucoup toutefois la notice associe aux rsultats " mis jour dans les dernires 24 h (ou 48 h)" qui s'intressent non pas la rentre de la page dans l'index mais la mise jour relle de la page (plus performant que Google ce niveau l). L'annuaire partenaire reste Looksmart, et les index nationaux et mondiaux regroups dans un mme index. Les majuscules et minuscules ne sont plus prises en compte. Accents pris en compte. La recherche d'un mot accentu ne ramnera que les mots avec accent. Pour le rsum, Alta Vista privilgie dsormais un extrait textuel du document autour du (des) mot(s) demands (cf Google et Voila) Indexation des fichiers pdf : Alta vista indexe le dbut des fichiers (jusqu' 120 pages) comme Google. On peut utiliser la syntaxe de recherche filetype:pdf Traduction automatique Est propose grce au traducteur automatique Systran, et est oprationnelle de l'anglais vers le franais, l'espagnol, l'italien, l'allemand, le portugais, et vice versa Accs direct babelfish.altavista.com Pour dpasser 200 rponses, remplacer la valeur qui suit "stq=" la fin de l'URL Recherche de l'actualit sur 3000 sources, avec des sources telles Moreover, NY Times, BBC, Forbes (meilleure antriorit souvent que sur Google): news.altavista.com Remplacement de l'outil Worldpages.com par Superpages.com en tant que fournisseur de rsultats pour les pages jaunes et les pages blanches Liens payants en provenance de Overture : "featured links" et "sponsored links". Programme "trusted feed' : rfrencement payant pour sites de + de 500 pages (cf web invisible car prise en compte de l'ensemble du site).
Syntaxe recherche simple : Recherche implicite : utilisation du +, du -, des " "., de la troncature avec * (seulement aprs 3 caractres) Limitations aux champs : Titre URL Serveur Domaine title:terme recherche url:terme recherch host:terme recherch Domain:domaine recherche
28
Fichier image Recherche des pages lies mon site
Image:terme recherch
link:monsite.com
PRISMA : remplace l'ancienne "Related searches" Alta Vista garde en mmoire les requtes saisies pour pouvoir vrifier la rptition d'un terme dans toutes les rsponses une requte. Propose ainsi des expressions contenant le mot demand : Exemple : on tape energy et on se voit proposer solar energy , free energy , alternative energy , etc. On peut, soit ajouter ces mots-cls la requte initiale (en cliquant), soit la remplacer entirement (en cliquant sur >>).
Limitation par la langue : Cf menu des langues. Si on ne prcisez rien, la recherche se fera sur des documents crits en toutes langues (in any language). Cluster pour les rsultats : "More pages from this site" pour voir les autres pages d'un mme site, pertinentes par rapport une recherche. En recherche avance, on peut choisir de voir l'ensemble des rsultats d'un mme site une recherche, ce qui est pratique. Raccourcis proposs pour certaines requtes populaires et issus souvent du web invisible (cf partenariats avec bases de donnes majeures).
Syntaxe Recherche avance Utilisation des oprateurs boolens AND OR AND NOT NEAR (moins de 10 mots d'cart entre les mots cls) ainsi que des parenthses Pas d'application de l'algorithme de pertinence pour les rsultats de la recherche en mode avance. On peut appliquer le "sort by" pour classer les rsultats obtenus. Limitation possible par la date (Du: Au:) C'est la date de dernire mise jour des documents au moment de l'aspiration des pages par AltaVista qui sert de rfrence (ne garantit pas forcment la fracheur des infos). Si rien n'est indiqu dans le champ "AU", c'est la date du jour qui est prise en compte
Altavista France : Ne pas confondre le choix "web franais" avec le menu droulant des langues. Si on choisit "web franais", la recherche par mots-cls va porter sur des pages d'origines franaise, sans tri par le domaine (pages proposes par des socits qui dtiennent une adresse postale en France, mais sont peut-tre en .com). A noter les index nationaux et mondiaux sont regroups dans un seul et mme index.
29
NOUVEAUX
AOL.FR
MOTEURS
(20012002)
Lanc en avril 2002, partir de la technologie Exalead et avec un index de 50 millions de pages pour le web francophone et la base d'Inktomi pour le web anglophone (environ un milliard de documents). Rapide compte tenu de la technologie statistique utilise Proposition de mots ou groupes de mots les plus rcurrents dans les documents trouvs Rsultats classs en dossiers et sous-rubriques selon leur popularit et leur pertinence en rapport avec la requte de l'internaute.
EXALEAD (n en aot 2001) La technologie Exalead (plate-forme complte d'acquisition, de traitement et de recherche) s'appuie sur une analyse statistique de l'ensemble des documents du corpus et des rsultats d'une requte : Les rubriques et expressions les plus significatives sont prsentes avec les premires pages de rsultat l'utilisateur. Celui-ci peut donc d'un clic slectionner une option et relancer sa recherche en la prcisant. Les rubriques ne sont pas gnres automatiquement par l'outil, mais incorpores en tant que donnes structurelles de catgorisation du corpus (il peut s'agir d'un annuaire de sites web, de catgories d'un portail ou autre). La technologie de la socit franaise Exalead est "cousine" de l'ancienne fonction "Refine" prsente autrefois sur AltaVista. La dmonstration de Exalead sur le Web se fait actuellement partir de documents catgoriss par le Open Directory : 20 millions de documents pour une interrogation du web francophone, 100 millions sur le web mondial anglophone. A noter une fonction intressante pour privilgier les documents contenant un mot optionnel sans pour autant liminer ceux qui ne le contiennent pas. Exemple : "vache folle" ?crise Possibilit d'quations complexes : tlphone ET (mobile OU portable) tlphone mobile/portable quivaut
"crise de la vache folle" : reconnaissance des mots composs sans guillemets mais risque de ne chercher plus que a (voir chemin d'accs). Troncature implicite ds qu'il y a deux mots de la requte, mais si plus de mots, pas de troncature implicite * OK Mars 2002 : Exalead propose une soluion pour les entreprises "Exalead Corporate" : moteur de recherche pour les sources d'infos de diffrents formats + prise en compte des mta-donnes + gnration de mots-cls pour catgorisation et navigation dynamique. ( chaque tape d'une recherche, Exalead Corporate fournit l'utilisateur les catgories statiques et dynamiques pertinentes lui permettant de naviguer dans les rsultats de sa requte). Avril 2002 : lancement de aol.fr quip de la technologie Exalead (voir ci-dessus) Utilisation de aol.fr sur Netscape (qui appartient AOL)
30
TEOMA Ce nouveau moteur de la socit Hawk Holdings , issu d'un projet n en 1998 Rutgers University aux Etats-Unis, est actuellement en test sur le web. Teoma t rachet par Ask Jeeves trs rapidement aprs sa sortie et fournit depuis janvier 2002 une alternative aux rsultats fournis par le systme de questions-rponses Ask Jeeves, remplaant ainsi les rsultats de Direct Hit, une autre proprit de Ask Jeeves. Il semble que Teoma devienne un lment majeur dans la stratgie d'Ask Jeeves, au dtriment de Direct Hit, rachet en 2001 et qui pourrait tre arret cette anne. Il annonce un index de 500 millions d'URL en janvier 2003 ( 200 millions de pages en avril 2002, puis de 350 millions en novembre 2002.) Teoma propose une page de rsultats trs riche et innovatrice, qui permet d'avoir des vues complmentaires de l'information rponse : o o La partie gauche de l'cran renvoie "classiquement" des pages web rpondant la requte de l'utilisateur Le haut de l'cran ("web pages grouped by topic) prsente les grands sujets extraits dynamiquement des pages rsultats : chaque catgorie peut tre explore en dtail d'un clic. Cette fonction n'est toutefois gure exploitable pour les pages francophones. La partie droite de l'cran ("expert's links") est ddie aux "mta-pages" ou sites fdrateurs riches en liens si le moteur en trouve
Pour rpondre une requte, l'outil commence par chercher classiquement dans son index les pages contenant les termes de recherche (ou considres comme pertinente suite l'analyse des liens). Puis, Teoma classe ces pages dans des ensembles cohrents grce l'analyse des liens (regroupements des pages pointant les unes sur les autres et choix des mots les plus communs). Enfin, un algorithme proche de celui de Google permet pour chaque set de documents, de retrouver les pages les plus populaires. Notons qu' la diffrence de Google, qui attribue des "page-rank" gnraux indpendants des recherches, le score attribu par Teoma est spcifique chaque catgorie cre. Par ailleurs, contrairement Northern Light, c'est l'analyse des liens qui permet d'tablir des classifications.
Oprateur ET par dfaut, ou choix de "exact phrase". On peut aussi utiliser les + et et les guillemets pour l'expression. Nanmoins, dans ce cas, l'interprtation de la phrase sera moins stricte que ci-dessus. Avril 2002 : Nouvelle version : propose des options supplmentatires : sites web similaires, liens slectionns par des experts ( partir des communauts identifies automatiquement) Janvier 2003 : Version Teoma 2.0 Amliorations avec un vrificateur d'orthographe, les extraits pertinents pour les rsultats, une recherche avance en bta.
ILOR Le moteur Ilor (www.ilor.com) utilise la technologie TEOMA avec des fonctionnalits intressantes : Le passage de la souris sur un lien ouvre l'affichage d'un menu ("LORLinks Menu") permettant de sauvegarder les paramtres de la recherche, de le mettre en favoris, etc.
31
WISENUT Wisenut apparat comme un challenger de Google en calculant la pertinence partir des "backlinks"(analyse du texte des liens, des termes qui entourent ces liens et du contenu des pages contenant ces liens) et partir de l'analyse du texte de la page. Rachet rcemment par Looksmart (mars 2002, le moteur annonce 1,5 milliard de pages indexes, et Search Engine Showdown en donne 579 millions en fvrier 2002). Autre fonction le rapprochant de Google : "Sneak a peek" pour voir une "archive" de la page, mais sans quitter la page de rsultats Le moteur effectue une catgorisation automatique des rsultats de la recherche dans des dossiers ("wiseguides") via des liens smantiques avec les mots de la requte (cf Northern Light). On peut ouvrir la catgorie ou relancer une nouvelle recherche en utilisant la catgorie comme requte. Wisenut propose des liens pour des requtes similaires Le moteur groupe les rsultats par site et liste le nombre exact de pages d'un site dfinies comme pertinentes.
MIRAGO Ce nouveau moteur, la technologie propritaire, ne s'intresse qu'aux pages franaises. Il permet de faire une recherche rgionale : slection possible d'une ville ou d'une rgion partir de laquelle dmarrer une recherche Possibilit de classer les rsultats selon le nombre de liens pointant vers une page (popularit des pages) ou le nombre de liens contenus sur une page (page riche en liens) ou selon la date (documents les plus rcents d'abord) ou selon que la page est riche en images ou non. Ramne les pluriels en singulier, formes verbales l'infinitif et abrviations aux mots entiers, adverbes et synonymes la racine du mot auquel ils se rapportent : "enfant adoptif" = "enfant adopt" ; "problmes d'ado" = "problme d'adolescence" Supporte le langage naturel : option "meilleur rsultat" en recherche avance Donne en premier les noms de domaine contenant les mots de la recherche (rsultats non numrots). Option proche du "near" : choisir "mots lis" dans la recherche avance. A noter aussi la possibilit de rechercher sur "la plupart des mots". Recherche par dates Recherche sectorielle propose
32
Les mta-moteurs "on-line"

PRSENTATION
(voir aussi www.metasearchguide.com) Les mta-moteurs (parfois appels mta-chercheurs) interrogent simultanment plusieurs moteurs de recherche et/ou rpertoires et compilent les rsultats avant de les prsenter (limination des doublons, parfois nouveau tri de pertinence). Ils ne maintiennent donc pas eux-mmes de base de donnes, et se contentent de transmettre la requte aux outils utiliss. Avantages : ils sont efficaces et rapides pour une recherche du type "QuestionRponse" ou une recherche prcise. Ils permettent par ailleurs de se faire rapidement une ide du "rpondant" des moteurs partir d'un ou deux termes de recherche ou citations exactes. Ils innovent beaucoup actuellement. A ne pas confondre avec les mta-moteurs clients ("off-line") du type Copernic. Les mta-moteurs "on-line" commencent pour certains d'entre eux proposer un accs au Web invisible (Profusion, Search.com). Inconvnients : Ils ne traduisent pas toujours les langages d'interrogations. Les recherches complexes gnrent beaucoup de bruit avec les mta-moteurs. Par ailleurs, ils ne slectionnent souvent que les dix premires rponses fournies par les diffrents moteurs qu'ils mettent en uvre. Pour tre rellement efficaces, les utilisateurs des mta-moteurs devraient les paramtrer et dpasser la premire page de rsultats. Avec la vague des liens payants, l'"indpendance" des mta-moteurs risque d'tre srieusement remise en cause, d'autant qu'il est souvent plus difficile de reconnatre ces liens dans leurs rsultats que dans les outils d'origine. D'aprs une tude de mai 2001 de SearchEngineWatch (http://searchenginewatch.com/sereport/01/05-metasearch.html) pour certains outils de ce type, la moiti des rsultats s'avraient tre pays. Voici les pourcentages de liens pays dans la source pour les mta-moteurs choisis pour l'tude Dogpile Ixquick 60 %, Mamma 56 %, Meta-Crawler 36 %, Search.com 33 %, 25 %, ProFusion 14 %, Vivisimo 0 %
Critres de choix des mta-moteurs : Outils et sources interrogeables, options de paramtrage, tri et prsentation des rsultats. A noter : La plupart des grands outils de recherche de l'Internet se comportent aujourd'hui en fait comme des mta-moteurs, en interrogeant simultanment diffrentes bases de donnes (base rpertoire, base pages web, base articles de presse ou dpches, bases d'information sur les entreprises, etc.)
PARMI LES PLUS PUISSANTS MTA-MOTEURS DU WEB..
(par ordre alphabtique) : Dogpile : attention, beaucoup de liens achets. (Appartient Infospace, qui a rachet Excite)
33
Gogettem www.gogettem.com Lance et ouvre en mme temps les outils slectionns. Cette particularit peut tre utile Kartoo www.kartoo.com
Un nouveau mta-moteur qui innove avec une interface graphique cense s'adapter tout utilisateur, mme novice : Les sites sont placs sur une carte thmatique, et relis par les termes les plus frquents (analyse statistique sur le corpus de rsultats). Au passage du curseur sur un site, sa description s'affiche. Si l'on passe sur un thme, deux boutons + et s'affichent qui permettent d'ajouter le terme la recherche ou de l'liminer. Avril 2002 : sorite de la version 2 : la taille des boules qui reprsentent les sites sont variables en fonction de la pertinence Mapstan search.mapstan.net
"Mta-moteur de recherche et de capitalisation de connaissances". A partir d'une technologie propritaire de cartographie de l'information personnalise, de filtrage collaboratif, et analyse de corrlation (brevet dpos en dcembre 2000).. Prsentation des rsultats sur un "plan de quartier" o les pages sont regroupes par sites qui sont relis par des "rues" indiquant leur similarit. Il indique galement les pages les plus pertinentes des recherches similaires (en bleu). La socit propose des solutions entreprise. Metacrawler www.metacrawler.com A voir la recherche avance : Options de recherche par grande rgion ou pays, choix de la vitesse de recherche, du nombre de rsultats par source, et choix du classement des rsultats (par pertinence, par source ou par site) Profusion www.profusion.com Rachet par la Intelliseek, qui dveloppe le mta-moteur "off-line" Bulls-Eye, Profusion propose aujourd'hui, aprs une version beta pendant quelques mois, le nouveau ProFusion : Dpouill de toutes bannires publicitaires, l'outil a la particularit de permettre une recherche sur des groupes de sources (1000 sources dans plus de 200 groupes), y compris 500 bases de donnes (web invisible). Il peut "recommander" son utilisateur des sources d'information additionnelles. A noter galement le systme d'envoi des rsultats par mail des tiers et d'alerte par mail. Search.com (ex Savvy Search) www.search.com Le mta-moteur appartient dsormais au rseau de sites CNet "The source for computing and technology". Il propose comme Profusion une recherche sur des groupes d'outils spcialiss, en plus des outils gnralistes (annonce 1000 sources thmatiques). Ixquick http://www.ixquick.com Se prsente comme le "mtachercheur le plus puissant du monde", et dispose entr'autres d'une interface en franais. Il a rcemment achet le mta-moteur Debriefing. Ixquick a l'avantage de traduire les requtes mme complexes base de parenthses, de recherche sur champs (si une fonctionnalit spcifique est indique, elle sera prise en compte seulement par les moteurs qui la supportent). Le classement se fait via le classement des outils utiliss (par rapport au nombre de moteurs qui ont choisi les pages dans leur "top 10"). Vivisimo www.vivisimo.com Ce nouveau mta-moteur, issu de Carnegie Mellon University a pour particularit de classer les rsultats des recherches dans des dossiers, la manire de Northern Light.. L'interface propose gauche un menu hirarchique de sujets et sous-sujets et droite le
34
groupe de rsultats choisis. Notons que le mta-moteur n'utilise pour la classification que les titres et les brves descriptions ramenes par chaque moteur. Traduit la requte AND + OR NOT NEAR La pertinence n'est pas recalcule mais est fonction des algorithmes des moteurs utiliss Vivisimo traduit les requtes dans le langage des moteurs Zworks www.zworks.com Ce mta-moteur rcent a l'avantage d'avoir une interface guide trs conviviale et formate les requtes selon l'outil de recherche utilis (comme Ixquick). Il propose galement un filtre (sexe, etc.)
LES
MTA-MOTEURS SPCIALISS
Il interrogent simultanment sur le texte intgral de plusieurs bases de donnes, moteurs, rpertoires ou sites dans un domaine particulier A voir notamment les nouvelles fonctions des mta-moteurs "on-line" des mta-moteurs Profusion et Search.com vus plus haut. Voir galement les thmatiques de recherche proposes par les mta-moteurs "off-line" tels Copernic, Strategic Finder ou BullsEye. Autres exemples sur le Web : Domaine Images Adresses e-mail Emploi Presse Mdecine Information financire Sciences Exemple ImageWolf Mesa Keljob Newstrawler (gnraliste) Findarticles (business) Citeline Big Charts Scirus Adresse www.trellian.com/iwolf http://mesa.rrzn.unihannover.de www.keljob.com www.newstrawler.com www.findarticles.com www.citeline.com www.bigcharts.com www.scirus.com
LE
WEB INVISIBLE
Il s'agit de l'ensemble des pages non localisables et/ou non indexables par les outils. Le web invisible correspond plusieurs types de ressources : Pages dont les caractristiques techniques rendent difficiles, sinon impossible l'indexation par les moteurs : frames, javascrips modifiant le contenu, technologies propritaires (par exemple flash, active X, java) Pages situes l'intrieur d'une frame (cadre) Pages qui n'ont fait l'objet ni d'un rfrencement direct, ni d'aucun lien d'une autre page. Pages ncessitant une identification de la part de l'internaute Pages dont le contenu indique aux moteurs qu'ils ne doivent pas l'indexer
35
Page produite partir de bases de donnes ou d'applications, et dont l'URL comporte des paramtres non exploitables par la plupart des moteurs Page produite partir de donnes saisies par l'utilisateur via un formulaire html. Exemple : les rsultats de l'interrogation d'une base de donnes avec des critres de recherche entrs par l'utilisateur.
(dfinition mise au point par les formateurs internet ADBS)
Identification des ressources du Web invisible. Elle passe en bonne partie par une culture significative du web dans son domaine Connatre les portails thmatiques, se tenir au courant, tre inscrit des lettres de diffusion thmatiques, se prvoir des journes spcifiques dcouvertes, et mettre en bookmarks les pages utiles. Pour les bases de donnes accessibles via l'Internet, utiliser des rpertoires spcifiques, tels : - en franais, le rpertoire de Jean-Pierre Lardy "DADI" : http://urfist.univlyon1.fr - en anglais, www.invisibleweb.com ou www.completeplanet.com Selon une tude de la socit BrightPlanet (Completeplanet) parue en juillet 2000, il y aurait 100 000 bases de donnes disponibles, riches en contenu, reprsentant 550 milliards de pages Web (7 500 Tera Octets d'information) qui serait gratuitement accessibles pour 95% d'entre elles et sont caractristiques du "Deep web" (expression choisie par Bright Planet. Les rsultats de ltude : http://www.completeplanet.com/Tutorials/DeepWeb/index.asp Pour les pages produites dynamiquement, utiliser des moteurs d'actualit tels www.net2one.com ou des outils du type www.dailydiffs.com (vrifie tous les jours les changements sur des dizaines de milliers de pages slectionnes manuellement) Utiliser des mta-moteurs spcialiss, si toutefois il en existe dans son domaine. Le mta-moteur "on-line" Profusion, rachet par la socit Intelliseek (qui dveloppe le mta-moteur "off-line" Bulls-Eye), propose une recherche sur des groupes de bases de donnes par thmes : http://beta.profusion.com
36
Les listes et les forums

LISTES
DE DISCUSSION
Elles utilisent le protocole du courrier lectronique. Les personnes intresses doivent s'abonner la liste choisie et reoivent alors dans leur bote aux lettres les messages posts. Le serveur de listes gre les changes en recevant les contributions son adresse ("l'adresse de la liste") et en les renvoyant tous les abonnes. Les serveurs de listes travaillent donc de faon individuelle, ce qui explique la difficult pntrer dans les archives de certaines listes moins d'y tre abonn. Il n'existe pas de site permettant l'interrogation immdiate de l'ensemble des messages parus sur toutes les listes du monde. On assiste aujourd'hui, d'un part un mouvement de fusion chez les serveurs de listes hors secteur universitaire / recherche, d'autre part une multiplication de listes prives, et enfin une tendance la gratuit de l'hbergement des listes, au prix d'un peu de publicit. Au niveau francophone, Francopholistes (www.francopholistes.com) reste le rpertoire incontournable avec plus de 3200 listes indexes. La socit propose depuis peu une recherche centralise sur les archives rcentes de l'ensemble des listes francophones (recherche parmi 13000 messages) Citons aussi Kitalettre (http://www.buongiorno.com/fr/) qui s'est spcialis dans les "priodiques" envoys par mail et achet en mars 2001 par le groupe italien Buongiomo, spcialis dans l'e-mail marketing (et a depuis chang de nom). A l'international, les deux principaux hbergeurs de listes de discussion sont Topica et Egroups / Yahoogroupes La socit Topica (www.topica.com) est ne la fin 98, et a rachet le trs connu rpertoire de mailing-lists Liszt en avril 99, et n'a cess depuis de progresser en notorit et en audience : le serveur hberge actuellement plus de 200.000 listes pour 40.000 en mai 99. Yahoo est devenu avec Yahoo!Groups (http://groups.yahoo.com) l'un des plus importants hbergeurs de listes depuis la reprise de E-groups, qui avait luimme rachet son concurrent OneList.
Directory of Scholarly and Professional E-Conferences : Diane Kovacs a remis en ligne son rpertoire des mailing-lists intressant tudiants, chercheurs et professionnels http://www.kovacs.com/directory . La recherche se fait par mot-cl ou catgorie.
37
FORUMS
DE DISCUSSION
Les forums de discussion rentrent dans deux catgories distinctes : Les forums "classiques" (ou newsgroups ou forums usenet) se sont dvelopps dans les annes 80. Ils sont organiss selon une arborescence prcise, et fonctionnent grce un rseau spcifique de serveurs. Deux modes de consultation sont envisageables : avec le logiciel de news intgr son navigateur, ou via un autre logiciel spcialis : on consulte alors les messages posts dans leur format d'origine, et on est tributaire du choix de forums propos par son fournisseur d'accs ou son entreprise. En France, il est rare d'avoir ainsi accs plus de 12000 news internationaux sur le Web : Via le site web de socits qui archivent sur des serveurs web les messages changs sur le rseau Usenet, qui sont alors consultables avec un simple navigateur. Le choix de forums est alors souvent beaucoup plus large que dans le premier cas, et on peut rpondre directement sur le Web.
Deja a longtemps t la rfrence en donnant accs plus de 45000 forums et aux archives depuis 1995 (plus de 500 millions de messages). En fvrier 2001, Deja a t rachet par Google qui donne accs aujourd'hui 650 millions de messages depuis 1995. Aprs une priode de transition, les fonctionnalits de recherche sont assez compltes : par newsgroup, par sujet, par auteur, par langue et par date. http://groups.google.com A voir : http://newssearch.pilum.net Citons aussi, pour la France, le serveur mis en place par Voila http://news.voila.fr et le challenger Foorum (www.foorum.fr) qui suit 13000 forums de discussion francophones. Les "web forums" (ou message boards ou bulletin boards) apparus beaucoup plus rcemment : il s'agit d'espaces sur le Web, crs l'intrieur d'un site sous forme de pages html o l'on peut poster et consulter les messages. Il est donc ncessaire de se connecter d'abord au site hbergeant le forum pour y participer. De nouveaux outils permettent de faire une recherche sur le texte intgral des messages posts sur de nombreux forums : www.boardreader.com (fond en mai 2000 par des ingnieurs et tudiants de l'Universit du Michigan) www.messageking.com classe les rsultats par catgories
38
Trucs et astuces
QUAND
UTILISER QUELS OUTILS
La rponse cette question ne peut pas tre dfinitive. Rappelons que la recherche d'information sur Internet n'est pas une science, et tout dpend aussi de son exprience de la recherche et du Web, et de sa faon de travailler. Disons en simplifiant beaucoup En fonction du type de recherches Recherches larges ou premire approche : annuaires gnralistes Recherche d information ponctuelle (tous secteurs) : moteurs gnralistes Recherche sur des donnes de nature bien dfinie (statistiques, pays, presse, indicateurs) : annuaires et outils spcialiss sur ce type de recherche Recherches rcurrentes sur un sujet: identification de sites via pages de liens ou annuaires spcialiss, puis recherche par navigation / mta-moteur off-line Recherches prcises sur noms ou chanes de caractres (sans boolens) : mta-moteurs.
En fonction de sa connaissance du sujet : Faible connaissance du sujet Bonne connaissance du sujet "Question-rponse" .Recherche sur les moteurs "Sites de rfrence" (Sites ou mta-moteurs spcialiss sur le sujet, reprs au pralable) .Remonter un concept plus gnraliste et utiliser les annuaires .Annuaires pour identifier les " Sites de rfrence" bons sites et les bons mots complts par recherches cls sur moteurs ou mtamoteurs .Recherche sur " sites de rfrence" .Recherche sur moteurs
"Tout savoir sur"
COMMENT
TROUVER DES SITES SIMILAIRES UNE SOURCE DJ CONNUE
Cette stratgie de recherche est souvent payante, et permet de complter une information ou mme d'identifier des concurrents d'une socit. Plusieurs solutions sont envisageables : Utilisation des rpertoires : Le nom du site devient le mot-cl utiliser. Il suffit alors de cliquer sur la rubrique concerne par le site, ou le cas chant de choisir la catgorie la plus adquate. Par exemple, en tapant "adbs" dans Nomade, on peut se diriger ensuite sur la rubrique : Sciences humaines et sociales > Sciences
39
de l'information et de la communication > Documentation > Associations, organismes professionnels > France. Sur Yahoo, on peut aussi utiliser l'adresse du site connu (ou des mots de l'URL) comme cl de recherche. On pourra ainsi crire u:adbs.fr. Utilisation des moteurs classiques : On choisira alors, partir de la page de rsultats, la fonction appele "Related pages" ou "Sites similaires". Cette option est disponible dans plusieurs moteurs, notamment Alta Vista et Google. Sur Alta Vista, on peut directement utiliser le mode de requte like:www.adbs.fr Utilisation des moteurs linguistiques : Un moteur comme Webtop, qui procde par analyse de contenu et extraction de concepts, permet galement de trouver des sites similaires : il faut alors utiliser la fonction "copy and paste" et faire un "copier-coller" de la page la plus pertinente du site connu. Utilisation de la fonction "Apparent" de Internet Explorer ou "Infos connexes" sur Netscape, c'est dire en fait de l'utilitaire Alexa (aujourd'hui proprit de Amazon.com) qui peut aussi tre tlcharg rapidement :Alexa propose notamment des pages similaires en suivant les liens des pages et en utilisant le filtrage collaboratif. Alexa donne aussi des informations sur les pages visites De nouveaux outils dits "contextuels" ont fait leur apparition ces derniers mois. Ainsi, Kenjin (www.kenjin.com) est un logiciel diffus gratuitement par Autonomy : S'intgrant la barre des tches de Windows, Kenjin ralise une analyse smantique contextuelle partir d'une page web ou word (ou d'une slection), et propose des sources complmentaires. Le nombre de rsultats est limit six. Voir aussi dans la mme famille : Flyswat (www.flyswat.com), Gurunet (www.gurunet.com), Nano (www.nano.com), Zapper (www.zapper.com), etc. (trs anglosaxons dans le choix des sources).
QU'EST-CE
QUE LE
"PEER-TO-PEER" ?
Le "peer to peer" ou "p2p infosharing" ("pair" "pair"), mis en lumire par Napster, qui permet d'changer des fichiers musicaux au format MP3 directement entre ordinateurs particuliers, fait beaucoup parler de lui. Napster distribue gratuitement un petit logiciel qui permet aux internautes de s'changer des fichiers sans intermdiaire. Grce un rpertoire constamment mis jour (fichiers disponibles et adresses de leur propritaire sur un serveur central), Napster aiguille chaque internaute vers un pair qui dtient sur son disque dur les morceaux de musique convoits. Il est ainsi possible de lancer une requte pour des fichiers vers les ordinateurs des autres internautes adhrents au systme et partageant le logiciel, et de crer un systme distribu pour la recherche d'information. L'objectif est mme de crer un systme totalement distribu de partage de fichiers entre utilisateurs, sans les intermdiaires serveurs classiques. Les autres intrts sont d'avoir une information toujours jour, et de pouvoir rcuprer diffrents types de fichiers. L'inconvnient majeur rside dans le danger d'une mauvaise configuration des logiciels laissant certains dossiers ouverts tous Gnutella permet d'effectuer des recherches sur des bases de donnes internes un site. Chaque ordinateur dialogue avec ses voisins pour tre inform chaque instant, des fichiers disponibles et de leur localisation. La technologie est utilise
40
par des jeunes dveloppeurs qui ont dvelopp le moteur de recherche infrasearch , acquis par Sun en mars 2001dans le cadre de son projet de rechercherche ("jxta") pour dvelopper les techniques de recherche, de partage et de stockage de l'information travers: (http://search.jxta.org) Freenet (www.freenetproject.com) : A revoir un espace des disques durs des ordinateurs connect est rserv aux changes de fichiers par Freenet. On y trouve les fichiers destins tre partags mais aussi des fichiers trs demands que Freenet recopie sur certains "nuds" de ce rseau virtuel. Pointera (www.pointera.com) : Le "Pointera search engine" travaille "classiquement", mais est aussi capable de poursuivre ses investigations sur les disques durs des utilisateurs volontaires et connects. Ceux-ci ont pralablement dfini un espace ouvert Pointera. Pointera revendique la possibilit de travailler avec 500 millions de PC et cible les portails et sites "de contenu vertical" Human Links (www.human-links.com) : La socit franaise Amoweba teste auprs de plus de 100.000 volontaires son outil Human Links exploitant le peer to peer. Le logiciel prsente une interface utilisateur originale reprsentant les centres d'intrt , les contacts et les pages web en relation les uns avec les autres sur une carte. Le nombre de cartes cres est illimit.Il s'agit en fait d'change entre internautes des URL indexes dans leurs favoris. En fvrier2002, la socit a propos la plate-forme Human-Links Organization, une version intranet/extranet de son moteur applique la gestion de la connaissance, dveloppe en collaboration avec l'diteur L2T. A suivre : le projet Pandango (www.pandango.com) Alta Vista propose enfin depuis peu d'exploiter ce concept dans l'environnement des entreprises. L'outil permet de faire ses recherches d'une part sur un ensemble de sites web, et d'autre part sur les ordinateurs des salaris, et ce dans 200 formats et 30 langages diffrents. Ce systme peut toutefois apparatre comme trs indiscret aux salaris de l'entreprise. Fv 2002 : Nouvel outil gratuit en anglais widesource (www.widesource.com) ; il s'agit d'un systme de partage de "carnet d'adresses internet"
Complment d'information sur Red Herring, article de dcembre 2000 :"Can peer-to-peer grow up ? : http://www.redherring.com/mag/issue86/mag-grow-86.html Sur le site de O'Reilly and associates, article issu de "The O'Reilly P2P Conference, tenue en fvrier 2001 San Francisco "Gnutella and Freenet represent true technological innovation" www.oreillynet.com/pub/a/network/2000/05/12/magazine/gnutella.html NB : Napster a t dclar coupable par une cour amricaine en fvrier 2001 de complicit d'enfreinte au droit d'auteur. La socit vit sous la menace d'une interdiction dfinitive ou, au mieux, d'une transformation en canal de distribution payant du catalogue musical de son nouvel actionnaire Bertelsmann. Voir aussi les liens de la http://www.cyberpolitik.org/informatique/peertopeer.html page :
41
PEUT-ON
UTILISER LE LANGAGE NATUREL SUR LES OUTILS DE RECHERCHE
"Everyone's trying to get away from keyword" (Paul Hagen, analyste chez Forrester Research) Sur le Web, la plupart de ceux annonant "comprendre" le langage naturel se contentent le plus souvent de supprimer les mots parasites (o, quoi, pourquoi, qui, est,) de la question pour ne conserver que les mots signifiants et lancer alors une requte classique "full text". Le traitement du langage dit "naturel" fait appel des analyses syntaxiques et smantiques complexes et coteuses. Rares sont donc les outils de l'Internet proposant ce type de recherche. Citons le moteur Oingo lanc fin 99. Oingo, dvelopp par la socit Applied Semantics, travaille partir d'un base de termes compils par une quipe de linguistes reliant les mots des synonymes, expressions, termes familiers et concepts. Il propose sur le web (www.oingo.com) une dmonstration de sa technologie utilisant le rpertoire Open Directory. Le moteur prsente avec chaque liste de rsultats des mots ou concepts relis aux termes de recherche. Peut aussi tre utile lorsque l'on cherche des suggestions de mots-cls En franais, Albert (www.albert-inc.com). propose une dmonstration de sa technologie sur une version dmo base sur l'index du moteur Fast.). Le groupe vient d'annoncer la disponibilit sur le march franais de son offre d'accs l'information. Voir le site de l'ONU sur l'assistance humanitaire www.reliefweb.int (+ de 150000 documents) un des premiers clients d'Albert. Le moteur prcise les interrogations des utilisateurs, les reformule et les interprte ; fonctionnant sur le principe de la logique floue, il prvoie les erreurs de syntaxe, d'orthographe ou les questions ambigus et formule plusieurs requtes en tenant compte de ces biais au systme de recherche. Albert stocke et analyse l'historique des requtes dans une base de connaissances de faon pouvoir s'adapter. Pas de dictionnaire intgr. Signature d'un accord mondial avec l'amricain Verity, diteur de solutions pour les portails d'entreprise et d'indexations de contenus. Le moteur amricain Ask Jeeves (www.ask.com) a innov dans ce domaine en travaillant depuis 1997 sur une base de donnes de plus de dix millions de questions / rponses, une page web et une seule tant slectionne pour chaque question. L'utilisateur choisit donc, dans la liste de questions proposes aprs analyse de sa requte par l'outil, celle se rapprochant le plus de son besoin. Une quipe d'une trentaine de personnes est charge d'alimenter la base. Ask Jeeves intgre dsormais un rpertoire avec les donnes de l'Open Directory. Mais comme Google, il reclasse les sites dans chaque rubrique par ordre de popularit et non plus par ordre alphabtique. Ask Jeeves prend en compte les donnes de Direct Hit, rachet debut 2000. Ask jeeves commercialise depuis peu un logiciel permettant toute entit de mettre en place soi-mme son propre outil d'interrogation, Premier prix 100000 $. Ask Jeeves a achet l'outil Teoma trs rapidement aprs sa sortie et propose dsormais en alternative les rsultats. Il a rachet galement en janvier 2002 la socit Octopus Inc., socit conceptrice de logiciels permettant d'interroger des bases de donnes, donc le "Web invisible". Ces nouveaux modules de recherche devraient tre intgrs aux plates-formes de recherche d'information de Ask Jeeves (et notamment le logiciel JeevesOne, permettant de grer des applicatifs de type SAV par exemple) d'ici au milieu de l'anne 2002. (Abondance) Infoclic qui tait le "clone" franais de Ask Jeeves, vient malheureusement de cesser son activit(www.infoclic.fr On peut galement citer les nouveaux outils tels Subjex en anglais (www.subjex.com) qui mettent l'accent sur le dialogue avec l'utilisateur pour tenter de mieux affiner son besoin, d'obtenir de nouveaux mots-cls
42
Complment d'information : article de avril 2000 sur le site "The Standart" : "The language barrier" donnant notamment les rfrences de socits amricaines spcialises dans la recherche en langage naturel. http://www.thestandard.com/article/display/0,1151,14040,00.html
COMMENT
IDENTIFIER DES FICHIERS PDF SUR LE
WEB ?
Le format PDF (Portable Document Format) est cr l'aide du logiciel Acrobat de Adobe.. Il permet d'avoir une visualisation fidle du document original, sans avoir besoin du logiciel de cration (Word, Xpress), ni des polices de caractres utilises. Les fichiers pdf sont lisibles et imprimables grce un logiciel gratuit et tlchargeable, Adobe Acrobat Reader. Il est assez rpandu pour la diffusion de documents professionnels sur Internet (trs peu grand public, d'o son intrt). Les documents au format pdf font partie du Web invisible (cf page) dans la mesure o ils ne sont gnralement pas pris en compte par les moteurs traditionnels. Adobe a dvelopp un moteur de recherche pour les documents pdf http://searchpdf.adobe.com Le moteur travaille partir de l'indexation en texte intgral de plus d'un million de rsums (gnrs automatiquement) associs au document original. L'outil permet de visualiser le rsum avant de dcider de voir celui-ci. Le moteur utilis est celui de Alta Vista et utilise donc les mmes fonctionnalits (recherche simple). Google permet depuis fvrier 2001 d'identifier des documents pdf rpondant aux requtes de ses utilisateurs : les fichiers sont indexs et proposs en version texte (mots cls choisis en couleurs), et Google leur applique son calcul de pertinence comme aux autres pages de son index. Dans les pages de rsultats, les fichiers pdf sont clairement identifis et l'option "Texte" remplace le "Cache" des documents en html. Prvoir une requte du type : "mot-cl pdf" ou mots-cls inurl:pdf Pour ne rcuprer que les fichiers en format pdf (et non galement toutes les pages html qui "parlent de" fichiers pdf), effectuer une requte du type : mot-cl filetype:pdf Alltheweb fait aujourd'hui de mme Les fichiers au format pdf accessibles partir de documents web sont toujours clairement identifis comme tels. On peut donc utiliser "pdf" comme mot-cl pour reprer ces fichiers. Mais cette stratgie ne permet qu'une recherche trs large, puisqu'elle ne porte ni sur le rsum, ni bien sr sur le texte intgral du document pdf.
43
COMMENT
IDENTIFIER DES SITES FDRATEURS
(PORTAIL
VERTICAL OU VORTAL)
Les sites fdrateurs ou portails (cf page) sont des outils de recherche incontournables dans de nombreux domaines. Les rpertoires thmatiques proposs et les autres ressources peuvent faire gagner beaucoup de temps lors d'une recherche. Il convient toutefois d'tre prudent et d'valuer srieusement leur valeur ajoute et les objectifs de l'diteur. : la mode est aux portails et des sites de ce type se construisent tous les jours ; certains ont la qute de notorit pour seul objectif. Plusieurs voies d'approche sont possibles : Utiliser les rpertoires gnralistes de type Yahoo ou Open Directory. Pour certaines thmatiques, une sous-rubrique "annuaires" ou "directory" sera disponible, pour d'autres, une exploration sera ncessaire, partir des rsultats pour une requte la plus large possible. Le rpertoire About.com en anglais est souvent intressant. Exploiter les rpertoires d'outils de recherche et de portails verticaux, et les rpertoires professionnels (dont ADBS / Guide thmatique du Web). Attention, ils ne sont jamais exhaustifs, et peu critiques pour la plupart. On pourra aussi utiliser un outil comme Argus Clearinghouse (www.clearinghouse.net), rpertoire slectif et comment de quelque 400 "mtapages" raliss par des indpendants et couvrant les grands domaines de la connaissance. S'appuyer sur les sites des associations professionnelles, donnant le plus souvent les liens cls du secteur (sur les rpertoires gnralistes ou bien sur des rpertoires spcialiss entreprises comme Indexa en France www.indexa.fr) Si on en connat dj un, aller sur un site de rfrence sur le sujet, et suivre les liens le plus souvent indiqus Reprer un ou deux "sites de rfrence" et chercher les "backlinks" (liens pointant vers ces sites). On peut travailler avec les syntaxes spcifiques des moteurs (Google, Alta Vista, Hot bot) ou bien utiliser un mta-moteur spcifique comme link popularity www.linkpopularity.com Passer par un moteur : Exemple sur Alta Vista, pour trouver une "mta-page" en gographie, on peut essayer une quation du type (links* OR liens) NEAR (Internet OR web) NEAR geograph* Le "bouche oreille" (y compris sous forme lectronique avec les listes de discussion et forums) : l'information sur les bons sites circule
COMMENT
CHOISIR SES MOTS-CLS
Quand ? La slection des mots-cls s'effectue aprs le choix d'une stratgie de recherche. En effet, le choix sera fondamentalement diffrent si l'on cherche un portail thmatique, ou une source susceptible de fournir l'information ou l'information prcise immdiatement. Pour simplifier, disons que dans le premier cas, les mots-cls seront "le plus large possible", dans le second cas, ils seront "le plus prcis possible".
44
Un ou plusieurs ? On procdera par tape pour affiner ventuellement sa recherche l'aide de plusieurs mots-cls. Si le nombre de rsultats est faible avec un seul mot-cl prcis (exemple : 100 rsultats sur un moteur), inutile de prciser davantage. Donc, utiliser d'abord un seul mot cl (ou expression) quant la terminologie ou l'association terminologique est trs spcifique. Pour ou contre le SAUF ? On peut aussi isoler les mots-cls exclure absolument car gnrateurs de bruit (oprateur SAUF ou signe -). Attention toutefois ne pas aller trop vite, de peur de passer ct de documents pertinents : Ainsi, si je cherche des informations sur les nergies alternatives autres que solaires, je peux tre tent d'"envoyer" au moteur une quation du type +"nergies alternatives" solaires. Mais je n'aurai pas alors les ressources qui abordent successivement toutes les nergies alternatives. Majuscules, minuscules ? En gnral la saisie en minuscules non accentues donne par dfaut toutes les occurrences. De nombreux moteurs (Google, Voila) ne font aucune diffrence entre les deux saisies. D'autres (Alta Vista, Hot Bot) comprennent diffremment la saisie en majuscule et en minuscule : Dans ce cas "Python" renverra les pages contenant Python, alors que "python" donnera des pages comportant python, PYTHON, ou Python. Mme principe pour l'accentuation ou non des mots-cls. Troncatures ? Sur un outil comme Yahoo ou Voila, les mots de la recherche sont "dclins" au pluriel. Sur d'autres, la chane de caractres exacte est recherche. La troncature, le plus souvent applicable avec le caractre * permet d'tendre la recherche en remplaant plusieurs caractres : avec le mot-cl "mnage", la recherche s'effectuera aussi sur "mnages" ou "mnagres". La troncature sur le Web permet gnralement de remplacer plusieurs caractres sur la fin des mots. Sur Hot Bot, le caractre ? remplace un seul caractre (* est OK pour plusieurs caractres). AllTheWeb ne propose toujours pas de troncature. Et les synonymes ? Il est important d'explorer la terminologie du domaine de recherche, pour reprer les synonymes (trs rares sont les moteurs travaillant sur les concepts). De faon gnrale, les premiers documents intressants rcuprs permettent de valider, complter ou revoir ses mots-cls.
45
Astuces pour identifier des synonymes et/ou mots associs Utiliser un dictionnaire de synonymes tel celui du laboratoire de linguistique du CNRS pour les termes en franais http://elsap1.unicaen.fr/dicosyn.html Utiliser un moteur de recherche travaillant partir de dictionnaires, encyclopdies, thesaurus, tel pour les termes en anglais www.xrefer.com. Voir aussi www.thesaurus.com. Utiliser un rpertoire de dictionnaires comme Xlation www.xlation.com ou OneLook Dictionaries www.onelook.com Utiliser pour l'anglais le mta-moteur Surfwax (www.surfwax.com) en cliquant sur la petite flche suivant la ligne "focus:mot-cl choisi" au dessus des rsultats gauche. Utiliser un thsaurus de son domaine (en ligne gratuit, ou achet comme par exemple celui de la base INSPEC (www.iee.org.uk) Utiliser le "gnrateur de mots-cls" du site franais Abondance : Donne les motscls le plus souvent prsents dans les pages web contenant le mot-cl demand ( partir des rsultats de Google ou de Alltheweb) www.abondance.com/audit/motscles.html Explorer les balises mta (keywords) de quelques documents pertinents A partir d'un document pertinent, chercher des sites / pages similaires (cf astuce page) Pour passer du franais l'anglais, utiliser partir d'une catgorie donne, le "passage direct" de yahoo.fr yahoo.com : "Poursuite de la recherche sur Yahoo US" Utiliser un moteur travaillant en langage naturel comme oingo.
46
COMMENT
GRER LES PROBLMES FRQUENTS AVEC LES OUTILS
Erreurs 404, liens non valables l'adresse de l'host est bonne, revenir site pour retrouver la page cherche lien "cached" sur Google (cf page) ou
: remonter dans la hirarchie du site. Si cette adresse et "tatonner" l'intrieur du et sa nouvelle URL. On peut aussi utiliser le les archives de Alexa (cf page)
Erreur 400 401
Signification des principaux messages derreurs : Message Bad Request Access Denied Signification Erreur dans ladresse La consultation ncessite un nom dutilisateur et un mot de passe Laccs est rserv et vous navez pas les privilges correspondants La page correspondant cette URL na pas t trouve sur le serveur Problme de serveur. Contacter ladministrateur du site Le temps allou la connexion est coul
403
Forbidden
404
Not found
500 503
Internal Read time out
Rponses hors sujet : reformuler sa question, rajouter des mots cls La page propose ne contient pas votre terme de recherche .
Il peut y avoir plusieurs explications, mais la plus vraisemblable est que ce mot se trouvait dans la page lorsque celle-ci a t sauvegarde par le robot du moteur. Puis elle a t modifie et le mot a disparu de la page. Mais par contre il est rest dans l'index de la base de donnes. Il se peut aussi que votre terme apparaisse dans un formulaire droulant, ou enfin en mta-donnes. Une solution pour tre certain d'obtenir des rsultats contenant les mots-cls de votre question consiste utiliser un mta-moteur "off-line" avec la fonction "raffiner" ou "filtrer". Non limination des doublons : les moteurs utilisent maintenant peu prs tous les techniques de clustering pour la prsentation des rsultats (une rponse = un site et non une rponse = une page) ou le proposent en option. Mais cela n'empche pas toujours les doublons. Problme d'accs de l'information trs rcente : attention, un moteur peut mettre plusieurs jours ou mmes semaines avant d'indexer un nouveau site Voir du ct des serveurs d'actualit, par exemple.
47
PEUT-ON
FAIRE UNE RECHERCHE DANS LES BALISES
"META
KEYWORDS"
Les mta-donnes : Dfinition Ces balises du langage html permettent de donner des informations (description, motscls) sur le contenu d'une page web.
Elles se trouvent dans l'en-tte HTML de la page Web, (le "HEAD") et fournissent des
informations qui ne sont pas visibles par les navigateurs. Les mta-tags les plus courants (et les plus utiles pour les moteurs de recherche) sont KEYWORDS (mots-cls) et DESCRIPTION. Pour visualiser les mta-tags : Affichage Source (Explorer) CTRL U (Netscape)
Le mta-tag KEYWORD permet l'auteur de souligner l'importance de certains mots et phrases utiliss ou non dans sa page. Certains moteurs de recherche tiendront compte de cette information - d'autres l'ignoreront. Certains moteurs donneront en plus un coup de pouce dans le classement pour certains documents au cas o le mot cl de requte se trouve dans les mta-tags, mais ils peuvent pnaliser une page o un terme est rpt plusieurs fois dans la balise meta keyword.. Le mta-tag DESCRIPTION permet l'auteur de contrler le texte affich quand la page parat au niveau des rsultats d'une recherche. Certains moteurs de recherche peuvent ignorer cette information. Contrairement KEYWORDS , DESCRIPTION est en langage naturel.
En savoir plus sur les mta-tags : http://searchenginewatch.com/webmasters/meta.html ou www.abondance.com/docs/meta_1.html Voila est l'un des seuls moteurs actuellement proposer cette fonction en recherche avance : keywords:mot-cl description:mot-cl
COMMENT
EFFECTUER UNE RECHERCHE PAR NAVIGATION
Il sagit l dune dmarche un peu inverse celle utilise via les moteurs de recherche. Au lieu de lancer des mots cls et de consulter les pages retrouves par les moteurs de recherche, il sagit de se poser au pralable la question : Qui pourrait dtenir linformation que je recherche ? et aller la rechercher sa source. La difficult ici rside dans la multiplicit des chemins possibles et la profondeur des embotements sur le web. La dmarche la plus simple consiste exploiter les sites connus, de prfrence rpertoris au pralable dans les signets ou favoris. Mais ce nest gnralement pas suffisant. Il sagit donc didentifier des sites de rfrence par rapport un sujet :
48
soit en utilisant des annuaires gnralistes (Yahoo, Nomade, Dmoz) ou ventuellement des annuaires spcialiss gographiquement soit en utilisant un portail spcialis. Pour identifier les portails spcialiss, voir plus bas, chapitre Trucs et astuces . soit en recherchant des sites similaires un site connu (voir autre "trucs et astuces") soit en explorant les liens partir dun site connu dans ce domaine.
Cette mthode est particulirement efficace dans le cas o linformation recherche se situerait dans le web invisible . Elle demande la fois une grande rigueur (pour viter de se perdre dans lexploration) et une certaine intuition Quelques conseils pour ne pas se perdre dans la navigation : face un site inconnu : visualiser le plan du site. Utiliser les moteurs de recherche internes aux sites. matriser ses clics de souris : essayer de mmoriser le cheminement. mettre en signet ou favori et classer dans un dossier les sites potentiellement intressants.
49
LA
RECHERCHE SUR SITES DE PRESSE
Mme si le support numrique na pas encore supplant le support imprim, la presse d'actualit est de plus en plus prsente sur Internet. Le support web permet par ailleurs dintroduire de nouveaux services et plus dinteractivit : forums, newsletters, diffusion dinformation continue, signets spcialiss, dossiers dactualit, voire filtrage et diffusion dinformation cible (push) Comment identifier les sites de presse ? partir dun rpertoire gnraliste (Yahoo, Dmoz) partir dun rpertoire de sites de presse (Presseweb www.presseweb.com, Newspapers www.newspapers.com Emedia http://emedia1.mediainfo.com/emedia) partir dun portail ou dun site de rfrence spcialis sur le sujet.
Pour la presse spcialise, en France, on peut galement utiliser des rpertoires comme Viapressepro www.viapressepro.com ou le site de la FNPS (Fdration Nationale Presse Spcialise) www.fnps.fr. Pour la presse spcialise mondiale, utiliser Publist www.publist.com Comment rechercher sur les sites de presse ? La recherche sur les sites de presse pourra selon les cas se faire partir des sommaires et tables des matires, ou bien par mots cls partir du texte intgral des archives (pas toujours disponible gratuitement). On peut enfin effectuer des recherches simultanes sur plusieurs sites de media avec des mta-moteurs spcialiss comme Net2one www.net2one.fr, Dernieres.com www.dernieres.com, Newstrawler www.newstrawler.com ou encore Individual www.individual.com. Ces mta-moteurs proposent gnralement gratuitement en plus une diffusion cible (push). Enfin, de nouvelles revues sont apparues, sous forme uniquement lectronique, sans quivalent papier. On les appelle newsletters ou webzines (ne pas les confondre avec les listes de diffusion). On peut y trouver, souvent gratuitement, de linformation exclusive et prcieuse. Pour identifier des revues lectroniques et des newsletters, on peut utilise r le site de lUniversit de Pennsylvanie www.library.upenn.edu/resources/ej/ej.html
50
PEUT-ON
FAIRE UNE RECHERCHE PAR DATES
Un certain nombre d'outils permettent d'affiner sa recherche avec un critre temporel gnralement dans leur recherche guide ou avance. Mais attention : c'est la date de dernire mise jour des documents au moment de l'aspiration des pages par le crawler du moteur qui sert de rfrence, et non une date intgre au document, ce qui ne garantit pas forcment la fracheur des informations. Par ailleurs, les sites fort renouvellement de contenu (tels CNN) seront sur-reprsents pour certains moteurs qui privilgient ces sites dans le rafrachissement de leur index (exemple : AltaVista) Alta Vista.: Limitation possible par priodes (deux semaines, mois, deux mois, trois mois, anne) ou par plages de dates (Du Au; Si rien n'est indiqu dans le champ "AU", c'est la date du jour qui est prise en compte). Google : Limitation possible par priodes (trois derniers mois, six derniers mois, anne) Hot Bot : Limitation possible par priodes (une semaine, deux semaines, un mois, trois mois, six mois, un an, deux ans) ou par plages de dates (Avant Aprs) MSN : Limitation possible par plage de date (Modifi entre et ) Voila (+ d'options)
La recherche d'vnements par anne est aussi possible sur certains outils : Voir notamment en anglais : dMarie Time Capsule http://dmarie.com/timecap/ (chansons, livres, vnements de l'anne de 1800 2001) Plus gnral http://www.infoplease.com/millennium1.html (sport, science, etc.) Sur le Xxme sicle uniquement : . http://www.multied.com/20th/index.html
51
Evaluation des sites web

L'valuation de l'information sur Internet devient un enjeu important pour les professionnels. Il s'agit d'un acte d'expertise pour estimer la qualit des diffrentes ressources disponibles :le portail, le site web, la page web, l'article sur la page, la base de donne accessible depuis la page, mais aussi le forum, la liste de discussion, le message post sur une liste ou un forum, etc.
LES
CRITRES D'VALUATION
Diffrentes catgories de critres sont prendre en compte : Crdibilit : Organisation mettrice, type d'metteur, auteurs des documents, source de financement ou sponsoring, webmaster, cibles et objectifs du site, type d'accs, etc. Fracheur : Date de cration et de mise jour Exhaustivit et l'exactitude : Type de document, citations des sources, bibliographie, contextualisation de l'information, qualit de la langue, etc. Adquation : pertinence et utilit par rapport la recherche ou la veille menes. Ergonomie : arborescence, navigation, orientation, frames, etc. Design : prsentation visuelle, conception graphique.
LES
GRILLES D'VALUATION EXISTANTES
La plus aboutie sur le Web (mais trs lourde) dans le domaine de l'information sant :www.chu-rouen.fr/netscoring Voir aussi Sapristi (INSA Lyon) csidoc.insa-lyon.fr/sapristi/fristi36.html Montral www.rrsss06.gouv.qc.ca/commpub/publications/grille.html Universit Laval www.fse.ulaval.ca/fac/href/grille/grille.gif
ASTUCES
POUR L'VALUATION DES PAGES EN COURS DE NAVIGATION
Pour rechercher le propritaire d'un nom de domaine, on peut utiliser l'outil Whois (base de donne d'informations sur les noms de domaine, les propritaires de ces noms de domaines et autres donnes techniques) disponible sur de nombreux outils, dont Network Solutions (www.networksolutions.com) ou Andco (www.andco.fr) pour une interface en franais. L'utilitaire Alexa utilise un systme du mme type (cf ci-dessous) Un outil comme Neotrace (www.neotrace.com) permet d'aller plus loin partir d'une adresse IP, d'une URL ou d'un E-mail. L'outil montre sur une carte mondiale le chemin parcouru sur le rseau, de nuds en nuds jusqu'au serveur correspondant l'adresse, et donne les informations sur le rgistrant. Version d'valuation gratuite. Pour trouver des informations gnrales sur la page, on peut utiliser l'utilitaire Alexa gratuit (tlchargement de la barre d'outils www.alexa.com sous PC et Explorer 5),
52
proprit de Amazon.com. On obtient les coordonnes du "rgistrant", mais aussi des statistiques sur le trafic du site, des tmoignages d'internautes, le temps de chargement de la page, le nombre de liens vers cette page, etc. De plus, des sites/pages "similaires" sont proposes et on peut enfin obtenir, en cas d'erreur 404, la copie du document s'il existe dans la base d'archives d'Alexa. La fonction "Infos connexes" du navigateur Netscape rsume certaines de ses fonctions.
53
DEUXIEME PARTIE Outils de veille
54
Les agents volus sur Internet

QUE
SONT-ILS
La presse informatique a tendance encenser ces outils logiciels destins automatiser des tches rcurrentes, tre mobiles sur les rseaux, interagir avec l'environnement ou d'autres agents, prendre des dcisions autonomes, voire faire preuve de facults dauto-apprentissage. Actuellement peu dagents mritent vraiment leur qualification d "intelligents", mais les meilleurs outils intgrent des technologies varies : Technologies linguistiques, intelligence artificielle, rseaux de neurones, logique floue, technologies mathmatiques et statistiques, technologies push, vie artificielle Les mta-moteurs sont souvent considrs comme la " premire gnration " dagents. Voici aujourd'hui les grandes fonctions de ces agents sur Internet : Faciliter et guider la navigation via des fonctionnalits varies : meilleure gestion de l'historique, du cache, des bookmarks, informations sur les pages visites, etc. Assister la recherche d'information : Mta-moteurs volus, analyse linguistique des requtes, filtrage collaboratif ("bouche oreille lectronique"), etc. Assister l'exploitation des rsultats : Analyse, tri, automatiques, exports des rsultats, cartographie, etc. indexation, rsums
Permettre un suivi, une surveillance dans le temps : de recherches, de sites, de pages, de dossiers de pages, de produits d'informations spcifiques (actualits, offres d'emploi, infos financires, etc). L'agent gre la connexion Internet et envoie un rapport de recherche. Permettre la personnalisation de la diffusion automatique d'information.
Ces agents, loin d'tre indispensables pour une recherche d'information classique, s'avrent rapidement incontournables dans une dmarche de veille. Les comptences et la synthse humaines restent toutefois indispensables.
55
LES "ASPIRATEURS"
DE SITES WEB
Ils enregistrent le site sur le disque dur pour une consultation hors ligne. Pour cela, ils offrent bien entendu un paramtrage trs affin de l'aspiration et permettent l'export (pour pouvoir consulter le site avec un simple navigateur, sans disposer du logiciel ayant servi capturer les pages). A l'heure de la gnralisation des connexions permanentes, cette fonction prsente aujourd'hui moins d'attractivit qu'auparavant. De nombreux utilitaires existent actuellement, avec des fonctionnalits plus ou moins sophistiques. En terme de veille, ces outils sont intressants pour leur capacit mettre jour les sites (souvent automatiquement) et reprer les changements. Citons, avec une interface en franais : Memoweb (Goto Software) : www.goto.fr Aspiweb (AalWay Software) : http://www.aalway.com/20/soft/aspiweb/ Wysigot (ex e-catch La Mine) : www.wysigot.com Teleport Pro (Tenmax) : www.tenmax.com Web Whacker (Bluesquirrel) www.bluesquirrel.com Flash Site (Incontext) : www.incontext.com
En anglais :
Aller plus loin sur Wysigot Wysigot est un logiciel de navigation/aspiration de sites Web orient hors connexion et veille (mises jour, recherches et comparaisons) conu pour grer des quantits de donnes importantes avec des rglages fins et/ou automatiques. La version d'valuation est illimite dans le temps, mais ne permet pas de disposer de l'ensemble des fonctionnalits. Version payante : voir, Wysigot est encore sa version bta Points forts Mise en valeur des nouveauts dans les pages. Recherche plein texte fonctionnelle dans les pages tlcharges Saisie de formulaires hors connexion (page-rponse tlcharge lors de la prochaine connexion). Prise en compte hors ligne des tlchargements futurs par un simple clic sur les liens dsirs. Frquence des mises jour des pages tlcharges automatique ou manuelle (les pages mises jour sont signales par le logiciel). Tlchargement en parallle jusqu' 50 adresses simultanes Sait se connecter, tlcharger, et se dconnecter tout seul. Export dans le format d'origine Points faibles Relative complexit d'utilisation par rapport des outils comme Memoweb
56
LE
PUSH
(OU
WEBCASTING)
Les principes du push L'ide du Push : permettre aux internautes d'obtenir l'information dsire sans avoir effectuer de fastidieuses recherches : l'information est ainsi " pousse " vers les destinataires et non plus " tire ", comme elle l'est en "pull". "Technologie fonde sur l'architecture client-serveur et dans laquelle un internaute s'abonne une ou plusieurs chanes thmatiques auprs d'un serveur qui affichera automatiquement et intervalles rguliers sur l'cran de l'utilisateur les renseignements slectionns" (Extrait de la terminologie internet de l'Office de la langue franaise
www.olf.gouv.qc.ca).
Un logiciel client interroge donc rgulirement le serveur de push. S'il y a des donnes nouvelles tlcharger, le logiciel client les rclame et les enregistre sur le disque dur de l'utilisateur (rplication). Le logiciel "pousse" enfin les donnes vers l'utilisateur sa demande. Le modle push est bas sur les mmes principes de base que les techniques de diffusion hertzienne, via trois composants : L'metteur d'information, qui permet la diffusion du contenu La chane ou canal, qui isole le contenu de ceux proposs par d'autres metteurs Le rcepteur, qui permet l'utilisateur de recevoir le contenu (mme principe qu'un tuner, mais avec consultation possible en mode asynchrone). Ce module est gnralement gratuit et tlchargeable via l'Internet.
Le pionnier : Pointcast en 1995, avec un logiciel qui diffuse en direct sur un bandeau dfilant une foule de titres de dpches (Wall Street Journal, Fortune, CNN, The Times, Reuters etc). Il suffit de cliquer sur le titre pour lire l'article sur le site web de l'diteur. Aujourd'hui proprit de la socit Entrypoint, le phnomne Poincast a fait long feu le mode de diffusion directe tait notamment trs gourmand en bande passante pour l'utilisateur. Les navigateurs Explorer et Netscape ont intgr des agents push partir de 1997, mais ces fonctionnalits sont abandonnes dans les versions actuelles. Pourquoi le push n'a pas "dcoll" problmes de contenu : pas assez cibls. problmes techniques : le push est plus adapt une connexion permanente qu' une connexion par modem, et est gourmand en ressources. problmes de normalisation
Le renouveau du push On assiste nanmoins depuis quelques temps une renaissance du push au travers de sites qui diffusent de linformation (financire, actualit, emploi, appels d'offres) en push. Mais la diffusion se fait l par e-mail (plus simple techniquement). Exemple : Net2one www.net2one.fr (actualit, revue de presse) au service des portails d'entreprises : OpenPortal4U (Arisem) avec Backweb, Portal One (Verity) avec Agentserver, Reuters avec Tibco
57
LE
PHNOMNE
WEBLOGS
ET LES FILS
RSS
Les weblogs, ou 'blogues' sont ns de la rencontre du phnomne de simplification des techniques de publication sur Internet, et de celui de la volont toujours prsente de partager ses informations avec le plus grand nombre. Ce dernier phnomne, principe de base de l'Internet des premiers temps, connat un jour nouveau avec ces nouveaux moyens de publication rapide, simple, souple... (voir http://www.servicedoc.info/article.php3?id_article=28) Intimement lie aux weblogs, mais sans en tre une caractristique, la syndication est une technique permettant d'afficher des donnes provenant (et offertes) d'autres sites, dans son propre site. C'est l'archtype de la gestion de contenu : c'est de l'information venant d'ailleurs, mise disposition (ventuellement filtre, reconfigure...) du plus grand nombre. La technique utilise est issue du XML, mais trs simplifie : elle est d'ailleurs nomme RSS pour Really Simple Syndication, en fait une version dpouille de la norme RDF. On peut en profiter directement si on utilise un CMS (Content management system, comme SPIP par exemple) qui en tient compte, mais il est aussi possible d'insrer un simple code java script (voir http://www.servicedoc.info/article.php3?id_article=57) Les fils RSS servent alors soit afficher dans un intranet ou dans un autre site internet, les infos publies sur le weblog, un peu comme une fentre d'actualit, soit tre collects via des RSS-aggregators, des lecteurs de fils. De la mme faon que l'on ouvre un utilitaire de messagerie ou un lecteur de news, on peut "s'abonner" tel ou tel fil et lire en direct les infos provenant de ressources diverses (voir http://www.servicedoc.info/article.php3?id_article=100) Trs anecdotique, notamment en Europe, jusqu'en 2002, cette mthode, pourtant ancienne (les premiers weblogs et fils RSS datent de 1997) a rcemment explos, tant et si bien qu'elle a sinon rvolutionn le circuit de l'information dans certains secteurs (par exemple celui de l'information et de l'auto-formation la recherche documentaire), au moins influer trs sensiblement sur la politique d'indexation des gros moteurs de recherche. Exemples de fils RSS sur la recherche documentaire (en gnral, le weblog associ est la racine du site hbergeant le fil): http://www.llrx.com/llrx.rss http://www.librarystuff.net/libraryblogs/index.rdf http://talk.lii.org/tipoftheweek/index.rdf http://morinn.free.fr/b2/b2rss.php http://joueb.com/influx/rss.shtml http://google.blogspace.com/index.xml
58
LES
MTA-MOTEURS CLIENTS
"OFF-LINE"
Ils remplissent les mmes missions de base que leurs confrres du "on-line", mais disposent de fonctions plus volues, varies selon les produits : Enregistrement des recherches dans des dossiers Traduction "sophistique" des quations de recherche (au-del du ET, du OU, et de l'expression exacte) Traitement linguistique des requtes (langage naturel) Interrogation de diffrents moteurs et bases de donnes spcialises permettant d'accder du contenu non rfrenc par les moteurs classiques (web invisible). Certains outils laissent l'usager libre d'ajouter manuellement de nouveaux moteurs, bases de donnes, voire sites et pages web interroger dans le cadre de nouveaux groupes de sources. Tlchargement des pages de rsultats, dition de rapports personnaliss en html Mise jour des recherches, voire automatisation de la surveillance : paramtrage de la priodicit des requtes, alertes par mail Raffinement des recherches (ou filtrage) : La fonction "raffiner" ou "filtrer" permet d'effectuer une recherche spcifique sur des documents pralablement tlchargs. On utilise alors le moteur de recherche intgr au mtamoteur, qui offre des fonctions avances de recherche avec les oprateurs classiques mais aussi le PRES (permet de rechercher une page o les mots-cls sont distants d'un nombre dfini de mots) et les parenthses. On peut ainsi tlcharger un corpus important de pages web sur une thmatique assez large, et effectuer ensuite rapidement des recherches beaucoup plus prcises pour l'tude des sous-thmes. Suivi des liens hypertextes des liens considrs comme pertinents Surveillance de pages de rsultats, ventuellement groupes dans des dossiers : Les changements sont indiqus par la prsence d'une icne modifie, ou envoys par mail. Relevance feed-back : l'avis de l'usager est demand sur les documents ramens Traitement des documents rsultats : traductions, rsums automatiques, mise en exergue des extraits pertinents Traitement automatique de l'ensemble du corpus de rsultats, cartographies
Parmi les plus utiliss l'heure actuelle, citons : Copernic : www.copernic.com (voir ci-aprs) Bullseye (Intelliseek) : www.intelliseek.com Strategic Finder (Digimind) : www.strategicfinder.com (voir ci-aprs) La plupart de ces outils sont aujourd'hui proposs en version "serveur" pour tre installs au sein des entreprises clientes, accessibles par exemple via l'intranet. Ainsi, en mars 2002, Copernic a lanc une application logicielle serveur pour les entreprises Copernic Empower : la solution compte 4 modules complmentaires (indexation, module de recherche en parallle sur internet, intranet), module de veille (monitoring de documents), module de rsum (identifie les concepts cls et extrait les phrases les plus "importantes" du document).
59
Copernic Le logiciel Copernic a t lanc fin 1997 par la socit Agents Technologies Corporation, et compte aujourd'hui vingt millions d'utilisateurs avec une couverture de 46 % aux Etats-Unis, 47 % en Europe et 7 % en Asie. Il effectue des recherches sur plusieurs outils francophones ou internationaux (paramtrage des outils et du nombre de rsultats par moteur). En octobre 2002, la gamme "Copernic Agent" remplace le logiciel Copernic 2001, avec une architecture et une interface renouveles. La version "Basic" reste gratuitement tlchargeable, et donne dj une bonne ide du produit. Les versions Personal et Professional offrent bien sr plus de fonctionnalits, notamment la mise jour automatique des recherches selon la priodicit souhaite et avec alertes par mail. Elle permet aussi d'automatiser le tlchargement ou la validation de documents ainsi que le raffinement des recherches. A noter : Copernic a pass un accord avec Espotting en fvrier 2002 (en Grande Bretagne, puis sur le web franais et le web allemand au fur et mesure de l'installation d'Espotting, et aussi d'Overture, car cela se fera aussi) pour l'affichage de 5 liens maximum en fonction des mots-cls demands Nouvelles fonctionnalits : Nouvelle interface plus complte, mais aussi beaucoup plus complexe ! Intgration d'un agent d'alerte, comme Bullseye et Strategic Finder (surveillance automatique de changements dans les pages web) Rsums des pages (extraits pertinents : technologie "Copernic Summarizer" Intgration avec IE et Microsoft Office Catgories de recherche personnalisables (mais impossibilit de "rentrer" de nouveaux moteurs Filtrage des rsultats selon la langue, le domaine, etc. et groupement des rsultats selon ces mmes filtres Amliorations diverses : fonctions automatises de veille et de recherche, recherche de mots-cls dans les pages web, suppression de rsultats non pertinents, personnalisation
Les versions Personal et Professional permettent d'accder plus de 1000 sources d'information spcialises, groupes dans quelque 125 catgories de recherche.
60
Strategic Finder Strategic Finder, lanc en 2000 par la socit Digimind permet la recherche, non seulement sur un certain nombre dannuaires et moteurs, mais aussi sur des sites spcialiss (actualit, entreprise, juridique). On obtient la liste en cliquant sur Sources. La version payante de SF permet dajouter de nouvelles sources ou plugins (certains de ces plug-ins tant proposs sur abonnement en sus). http://www.strategicfinder.com/. SF accepte les parenthses, les guillemets, les oprateurs AND, OR, NOT, les quations tant traduites en fonction du langage d'interrogation de chaque outil. La requte peut tre soumise aux catgories de sources souhaites, avec la possibilit de paramtrer pour chaque source le nombre de rsultats souhaits. La version 2 du logiciel est beaucoup plus rapide et permet d'interroger jusqu' 4000 sources rparties dans plus de 50 secteurs d'activit. Tlchargement des pages souhaites Un "rsum" est propos permettant d'avoir le contexte entourant le mot-cl de la requte Mise jour des recherches Cration de dossier de pages que l'on peut mettre sous surveillance (une icne spcifique indique les modifications) ; Les pages d'un dossier peuvent provenir de diffrentes recherches et on peut mme y intgrer une autre page (en utilisant le navigateur intgr) Filtrage : Par dfaut, Strategic Finder utilise la requte utilise pour lancer la recherche. Mais on peut personnaliser le filtrage en modifiant la requte qui est affiche. Pour cela, vous pouvez crer une requte boolenne (en utilisant les oprateurs AND, OR, NOT, (), ""). Approfondir est une fonctionnalit qui permet de prolonger sa recherche en trouvant de nouvelles informations en ramenant plus de rsultats pour telle ou telle source. te des catgories de sources. Il vous suffit alors de cocher ou dcocher les catgories de votre choix et de cliquer sur "OK" pour lancer la recherche nouveau. Vous pouvez aller plus loin en rentrant dans le dtail de chaque catgorie (bouton Dtail) et en modifiant le nombre d'informations ramener par chaque moteur dans une catgorie. Possibilit de se crer ses propres catgories de sources (au prix de quelques efforts !)
61
LES
AGENTS D'ALERTE
Ils signalent par mail les modification d'une page ou d'un site web, selon des critres plus ou moins fins. On distingue : les agents d'alerte web "serveurs" (Digimind Monitor, Infominder, Get-Updated) : l'utilisateur se connecte sur le serveur de la socit ditrice du produit, donne ses directives et reoit ses alertes gnralement par mail ou les consulte sur un espace priv. L'agent peut aussi tre directement install sur le serveur de l'entreprise cliente. Il fonctionne alors selon le mme principe gnral, mais avec une installation "prive" en intranet ou extranet.
Digimind Monitor : www.digimind.fr Infominder : www.infominder.com Get updated : www.getupdated.com Les agents d'alerte "clients" qui ncessitent le tlchargement d'un logiciel particulier : Webspector, WebSite Watcher ou Watznew www.illumix.com/webspector aignes.com
Webspector Website Watcher
Notons que certains agents d'alerte se spcialisent par grandes thmatiques, tel TracerLock pour l'actualit. D'autres existent aussi pour les webmasters qui, en plaant un bouton sur leur site, permettent leurs visiteurs d'tre avertis des nouveauts par mail. Le paysage des agents d'alerte est loin d'tre stabilis actuellement. Notons que la plupart des grands mta-moteurs intgrent aujourd'hui la surveillance de pages web.
62
LES
OUTILS DE
"TEXT-MINING"
Ils traitent automatiquement de grandes quantits d'informations textuelles issues de bases htrognes et peuvent faire : de l'indexation automatique de l'extraction terminologique de la dtection de liens entre les mots (algorithmes statistiques) de la visualisation graphique (notamment cartographique) de l'interaction dynamique avec l'utilisateur www.lexiquest.fr www.grimmersoft.com www.datops.fr www.semio.com http://atlas.irit.fr www.acetic.fr - > http://www.trivium.fr/fr/index.htm
Quelques exemples Leximine Wordmapper / Question Data Pericles Semio Tetralogie Tropes U-map (module de See-K)
63
Principes d'une veille efficace sur Internet

Dire que l'on "fait de la veille sur Internet" est un abus de langage. En fait, on utilise Internet comme un outil de surveillance des entreprises, des marchs, des technologies, des volutions de la socit L'apport d'Internet par rapport dans une dmarche de veille : Une information ouverte, disponible tout moment, souvent faible cot Une information rgulirement actualise Des informations multi-sources, multidisciplinaires (le fonctionnement rseau tant idal pour la veille). Une information numrise, pouvant tre trie et exploite rapidement. Mais il ne faut pas oublier les aspects ngatifs : Risque de dsinformation : une information "oriente" et donc pas toujours fiable. Risque de se "noyer" dans l'information. Une information parfois difficilement accessible (barrires des langues, services payants,...). Une information en perptuelle volution et donc instable Une relation temps-cot / valeur intrinsque de l'information obtenue pas toujours facile matriser.
MTHODOLOGIE
METTRE EN UVRE
Dfinition des cibles de veille
La mise en place d'un processus de veille sur Internet s'appuie sur un ciblage de la veille dfini partir des objectifs et du positionnement stratgique de l'entreprise ou organisation sur ses diffrents marchs. Concrtement, c'est la rponse aux questions : Qui surveiller sur Internet ? Sur quel thme ? Inventaire des sources connues sur Internet
Lesquelles sont pertinentes par rapport l'tape prcdent, pour quel thme ? Recherche d'autres sources pertinentes
Pour cette tape, on procdera d'abord la constitution volutive d'une liste arborescente des mots-cls des diffrents thmes stratgiques, traduits en anglais, et si ncessaire, dans d'autres langues. Cette liste peut voluer en fonction des ressources trouves, et de l'volution du vocabulaire du domaine.
64
Il s'agit ensuite de constituer les quations de recherche les plus pertinentes pour chaque thme de veille pour les proposer diffrents moteurs. On peut aussi travailler partir de rpertoires hyper-spcialiss et suivre les liens proposs (les rpertoires gnralistes sont de peu de secours, les thmes de veille tant gnralement assez pointus). Mise sous surveillance des couples "ressource Internet"/ thme de veille
On obtient donc une liste de ressources cls sur Internet qui pourra voluer dans le temps (ne pas oublier les forums et listes de diffusion). Aprs un choix d'agents utiliser (agent d'alerte on-line ou off-line), les pages cls (par exemple pour un concurrent les pages Produits, News et Offres d'emploi ) sont mises sous surveillance automatique. Les quations de recherche peuvent tre soumises rgulirement aux moteurs de recherche slectionns (voire mta-moteurs) pour tre averti de la prsence de nouveaux acteurs intressants. L'utilisation parallle de logiciels de cartographie sur les rsultats de ces requtes, (tlchargs pralablement sur le disque dur) peut permettre de reprer des volutions faibles ou tendances sur des marchs mouvants. Avec ces outils, il peut tre intressant de travailler en plus sur des thmes de veille largis. Collecte et Slection des informations recueillies
Rappelons que dans une optique de veille, on ne se base pas sur des donnes rtrospectives, ni mme quantitatives et certaines, mais sur des signaux fragmentaires dits "faibles" : en ne conservant que les informations rellement stratgiques pour l'entreprise, la slection consiste affiner le travail de collecte et permet l'analyse. L'valuation de la fiabilit de la source et de l'information sont bien sr trs importantes, mais peuvent se faire a posteriori. On quitte alors le "cycle Internet" pour intgration des donnes dans le systme d'information de l'entreprise, diffusion et exploitation.
LA
VEILLE AUTOMATISE
Surveillance de pages web Surveillance de sites web Surveillance de dossiers de pages web Surveillance de recherches sur un outil web / plusieurs outils web / une base de donnes / plusieurs bases de donnes Surveillance de catgories d'un rpertoire Surveillance de catgories de ressources (actualits, articles de presse, appels d'offres, offres d'emploi, communiqus de presse, informations financires, etc.)
65
LA
VEILLE
"MANUELLE" (SANS LUTILISATION
DES AGENTS)
Reprer les nouveaux sites dans un domaine :
La meilleur mthode : bouche oreille, abonnement des listes de diffusion, des ezines et newsletters. Les services "Nouveauts" des moteurs sont trop gnralistes pour tre efficaces. Si votre veille s'exerce sur un secteur gographique donn, n'oubliez pas les annuaires et moteurs gographiques. Il existe aussi des sites qui informent de la cration de nouveaux sites web (ex : Interneto http://www.interneto.fr/ ou Actusite www.actusite.com), mais les classifications ne sont souvent pas fines. Suivre l'actualit :
Cela est possible grce aux services de diffusion personnalise, en push, comme Newspage ou Net2one (voir plus haut). S'abonner aux priodiques lectroniques des sites portails importants
Y sont indiqus le plus souvent non seulement les nouveauts du site, mais aussi du secteur concern. Quelques pistes en veille technologique :
Utiliser les newsgroups et les listes de diffusion scientifiques (gnralement de bonne qualit) Utiliser les fonctions d'alerte des grands fournisseurs d'information : Uncover Reveal (diffusion de tables des matires sur profils via e-mail), ou le TOC Alert de Publist.com, Inist (veille documentaire) Accs plus facile et moins cher des bases de donnes, par exemple de brevets (INPI www.inpi.fr) Quelques pistes en veille concurrentielle ou marketing:
Suivre les sites web de socits avec un agent d'alerte comme The Informant ou Webspector, ou un aspirateur de sites, ou manuellement Utiliser les services Push type PRLINE ou Companynews (www.prline.com) Utiliser les newsgroups en faisant des recherches par noms de socits (attention la fiabilit de l'information !) Cela peut tre toutefois un bon moyen de dtecter les rumeurs et les bruits qui circulent.
66
En guise de conclusion
On a vu les limites actuelles des outils de recherche "classiques" : annuaires, moteurs et mta-moteurs. On a vu galement que les "agents intelligents" sont prometteurs mais ne sont pas encore totalement adapts aux besoins des professionnels de l'information. Ces outils vont encore voluer, en incluant des fonctions de plus en plus volues (rsum automatique, traduction, gestion du langage naturel..). Une perspective d'volution intressante concerne l'avenir des mta-donnes et le XML. L'volution des mta-donnes D'aprs une tude du cabinet eMetrie sur 30000 pages (rsultats de 300 requtes sur 10 outils de recherche francophones), les balises mta seraient peu utilises (50 % des pages ne comportaient aucune balise). Par ailleurs, les outils de recherche tiennent de moins en moins compte de ces balises pour leur tri de pertinence (Google, Fast, Lycos ne les utilisent pas du tout). Pour pallier la "faiblesse" des balises mta classiques, certains groupements travaillent mieux dcrire les documents sur Internet. On pourra utilement se rfrer au "Dublin Core", mtadonne de 15 lments destine la description gnrale des documents, qui est d'ores et dj utilise via les balises mta par certains organismes, y compris en intranet. Le Dublin Core, considr comme un bon candidat pour une norme internationale, est le fruit du travail depuis 1995 d'une cinquantaine de chercheurs et professionnels issus du monde de la documentation et des bibliothques, de l'informatique, de la codification des informations. L'ensemble fut initi par l'OCLC (Online Computer Library Center) en accord avec le NCSA (National Center for supercomputing applications). Le Dublin Core doit son nom la premire runion de travail en juin 95 Dublin Ohio dans les locaux de l'OCLC. Notons le format RDF (Resource Description Framework) en cours de standardisation pour les mta-donnes : il permet de prsenter un lment d'information qu'il s'agisse d'un site, d'une page, etc. dans une syntaxe compatible XML (voir ci-dessous). La grande difficult rsidera dans l'impossibilit d'imposer cette norme pour la publication sur Internet (pas de contrle), mais il semble qu'avec son avatar, le RSS (Really Simple Syndication), le RDF tende devenir une norme de fait. Du html au xml XML (Extensible Markup Language, ou Langage Extensible de Balisage) est le langage destin succder HTML sur le World Wide Web. Comme HTML c'est un langage de balisage (markup), c'est--dire un langage qui prsente de l'information encadre par des balises. Mais contrairement HTML, qui prsente un jeu limit de balises orientes prsentation (titre, paragraphe, image, lien hypertexte, etc.), XML est un mtalangage, qui va permettre d'inventer volont de nouvelles balises pour isoler toutes les informations lmentaires (titre d'ouvrage, prix d'article, numro de scurit sociale, rfrence de pice), ou agrgats d'informations lmentaires, que peut contenir une page Web. La tche est aujourd'hui de dfinir des ensembles de balises et de rgles pour les diffrents domaines, et de trs nombreux groupes de travail se sont mis en place. Il vont pouvoir standardiser la structure d'un document chimique comme d'un type de contrat. Le langage permet galement une utilisation plus flexible des liens hypertextes placs dans un fichier spcial Toutefois, les rpercussions court terme se jouent principalement dans les intranets d'entreprise, et non sur le Web.
67
POUR EN SAVOIR PLUS

RECHERCHE D'INFORMATION
. Trouver des informations sur le web / Olivier Andrieu - Eyrolles, 2001 La recherche d'Information sur Internet : Outils et mthodes (Risi) / Jean-Pierre Lardy - ADBS, Coll. Sciences de l'information, srie Recherches et documents, 2001 Intelligence stratgique sur internet / Carlo Revelli. - Dunod, 2000. Recherche et veille sur le web visible et invisible / Batrice Foenix Riou. - Technique et documentation Lavoisier, 2001 The invisible web : Uncovering information sources search engines can't see / Gary Price, Chris Sherman, 2001
SITES D'AUTOFORMATION A L'INTERNET

Apprendre l'Internet Netexpress UNGI www.learnthenet.com/french www.wanadoo.fr/animation/internautes/netexpress
www.imaginet.fr/ime
SITES CONSACRES A LA RECHERCHE D'INFO SUR INTERNET

GIRI RIsI www.bibl.ulaval.ca/vitrine/giri www.adbs.fr/adbs/viepro/sinfoint/lardy/risi.htm (info scientifique) http://csidoc.insa-lyon.fr/sapristi/digest.html (rubrique Outils
Sapristi !
Netsesame (info conomique) www.devinci.fr/infotheq Internet ) Abondance (outils de recherche) www.abondance.com Agentland (agents) www.agentland.fr
La lettre du bibliothcaire qubecois www.sciencepresse.qc.ca/lbq/lbq.html 7000 sites comments sur http://www.sciencepresse.qc.ca/repertoires.html
SITES DES ORGANISMES DE L'INTERNET

The World Wide Web Consortium Internet.gouv.fr www.w3.org AFNIC IAB www.nic.fr Internet Society (ISOC) www.isoc.asso.fr www.iab.org/iab
www.internet.gouv.fr/francais/index.html
LISTES DE DISCUSSION
- ADBS-INFO adbs-info@cru.fr - BIBLIO-FR biblio-fr@cru.fr - MOTRECH motrech-abonnement@egroups.fr
68

Veille Sur Internet

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Veille Sur Internet

Transféré par

Droits d'auteur :

Formats disponibles

INTERNET Recherche avance et outils de veille

Support de cours commun ADBS Octobre 2002

"Trouver l'information est un art, pas une science" Jean-Pierre Lardy

PREMIERE PARTIE : LA RECHERCHE D'INFORMATION SUR INTERNET

Points de repre sur l'Internet_____________________________________________6

Les moteurs de recherche________________________________________________ 17

Les moteurs principaux la loupe_________________________________________ 25

Les mta-moteurs "on-line"______________________________________________ 33

Les listes et les forums___________________________________________________ 37

Evaluation des sites web _________________________________________________ 52

Les agents volus sur Internet___________________________________________55

Principes d'une veille efficace sur Internet__________________________________ 64

POUR EN SAVOIR PLUS_____________________________________________ 68

PREMIERE PARTIE Recherche avance

Points de repre sur l'Internet

Les dix rgles d'or de la recherche d'information sur Internet

Les rpertoires de recherche

DES RPERTOIRES DE RECHERCHE

PRINCIPAUX RPERTOIRES FRANCOPHONES ET INTERNATIONAUX GENERALISTES

www.looksmart.fr (arrt) www.nomade.fr http://dmoz.fr

AIT RIME (grandes coles commerce) Inria Universit Bruxelles Libre de

Sciences sociales www.sosig.ac.uk

Les moteurs de recherche

Un moteur de recherche est un outil automatique constitu de plusieurs lments

La plupart des outils indexent galement les mta-donnes, LES

PRINCIPAUX MOTEURS FRANAIS ET INTERNATIONAUX

CHIFFRES SUR LES MOTEURS

Estimation du nombre de pages indexes par chaque moteur

Sorce : Searchengine Showdown Greg Notess http://www.searchengineshowdown.com/stats/sizeest.shtml

LANGAGE DE RECHERCHE DES MOTEURS

ET INCONVNIENTS DES MOTEURS

IDES REUES SUR LES MOTEURS

CRITRES DE COMPARAISON DES MOTEURS DE RECHERCHE

TRI DE PERTINENCE DES MOTEURS

Les moteurs principaux la loupe

ALL THE WEB

Fichier image Recherche des pages lies mon site

Les mta-moteurs "on-line"

(dfinition mise au point par les formateurs internet ADBS)

Les listes et les forums

"Tout savoir sur"

TROUVER DES SITES SIMILAIRES UNE SOURCE DJ CONNUE

UTILISER LE LANGAGE NATUREL SUR LES OUTILS DE RECHERCHE

IDENTIFIER DES FICHIERS PDF SUR LE

IDENTIFIER DES SITES FDRATEURS

CHOISIR SES MOTS-CLS

GRER LES PROBLMES FRQUENTS AVEC LES OUTILS

Erreur 400 401

Internal Read time out

FAIRE UNE RECHERCHE DANS LES BALISES

EFFECTUER UNE RECHERCHE PAR NAVIGATION

RECHERCHE SUR SITES DE PRESSE

FAIRE UNE RECHERCHE PAR DATES

Evaluation des sites web

GRILLES D'VALUATION EXISTANTES

POUR L'VALUATION DES PAGES EN COURS DE NAVIGATION

DEUXIEME PARTIE Outils de veille

Les agents volus sur Internet

Webspector Website Watcher

Principes d'une veille efficace sur Internet

Dfinition des cibles de veille

"MANUELLE" (SANS LUTILISATION

Reprer les nouveaux sites dans un domaine :

POUR EN SAVOIR PLUS