Vous êtes sur la page 1sur 41

Prsentation Biblio.

(DESS IIR) Les moteurs de recherche Web

Jrmy CLUZEL Philippe ROCHEBLOINE

Sommaire
Introduction Dfinition Prsentation Fonctionnement Architecture Conclusion

Les moteurs de recherche web

Introduction

Les moteurs de recherche web

Introduction

Internet en croissance exponentielle.


Source importante dinformations ne pouvant tre ignore (mme si utilise en complment). Donnes et documents pertinents noys dans limmensit du rseau. Utilisation doutils de recherche quasi-obligatoire.

Les moteurs de recherche web

Dfinition

Les moteurs de recherche web

Dfinition

Expression moteur de recherche souvent employe tord. Importance de la diffrenciation entre les diffrents outils existants Diversit plus complmentaire que concurrentielle

Les moteurs de recherche web

Prsentation

Les moteurs de recherche web

Prsentation
moteurs mtamoteurs annuaires portails anneaux web invisible autres

Les moteurs de recherche web

Moteurs

Outil permettant de rechercher les pages comportant une expression donne. Ex: AltaVista, Excite, Google, Lycos
Exhaustif, options de recherche utiles, indexation de chaque mot. Nombre de rponses souvent lev, une certaine exprience dutilisation est requise.
+

Les moteurs de recherche web

Moteurs (suite) les catgories

Smantiques : intgration du sens du langage au processus de recherche (dictionnaires de concepts, thsaurus).


Multi-dimensionnels : paramtrage pouss, affinage de la catgorisation des documents, et des procds de requtes croises. Verticaux : adaptation des problmatiques mtier bien particulires.
Les moteurs de recherche web

Mta-moteurs
Super-moteurs permettant deffectuer simultanment une recherche sur plusieurs moteurs et annuaires. Ex: Debriefing, MetaCrawler, Savvy Search.

Puissance cumule de plusieurs outils, efficacit croissante. Longueur de la recherche, fantaisie de certains rsultats, efficacit moindre par rapport aux moteurs spcialiss.
+
Les moteurs de recherche web

Annuaires (ou rpertoire)


Cest un catalogue de sites, ne recensant que certains sites seulement. Cration de fiches descriptives avec titre, URL, et bref descriptif (15 25 mots). Utilisation de bases de donnes dcrivant une slection de sites indexe par une liste arborescente de catgories (ou rubriques).

Ex: Francit, Nomade, Yahoo...


Les moteurs de recherche web

Annuaires (suite)
+

Utilisation simple, encadrement de linternaute dans sa recherche laide de raffinements successifs.


Non-exhaustif (seule une petite partie du rseau est rfrence) ncessit de mettre jour trs rgulirement le contenu des rubriques.
Les moteurs de recherche web

Portails

Site offrant un ensemble de ressources et de services (gnraux ou propres un domaine) un ensemble d'utilisateurs dfini (grand public, membre d'une profession, d'une branche d'activit...). Ex: Cuisinons, Visioweb. Navigation et recherche d'information facilites, services valeur ajoute. Sites cloisonnant
+
Les moteurs de recherche web

Portails (suite)

Les moteurs de recherche web

Portails (suite) les services

Outils de recherche, Information (actualit, finance, mto, etc.), Outils de communication (E-mail, listes de diffusion, groupes de discussion), Outils de consommation (vente en ligne, publicit, etc.), Personnalisation, Du contenu...
Les moteurs de recherche web

Anneaux ( WebRings )

Communaut (de sites) dcentralise l'extrme, lie par un thme commun. L'anneau slectionne et contrle humainement la qualit des sites proposs.
Qualit et fiabilit de l'information. Recherche du bon anneau laborieuse.
+

http://nav.webring.yahoo.com
Les moteurs de recherche web

Web invisible

Partie du Web contenant des documents nayant pas t indexs. Origines : Type de fichiers, donnes dynamiques, robot de recherche brid, documents interdits de rfrencement
Outils :, All-One-Search, AlphaSearch, Fossick, Invisibleweb, Searchability
Les moteurs de recherche web

Autres

Impossibilit de citer, et de classer la totalit des outils de recherche existants. Quelques exemples de ces catgories difficilement classables :
Recherche d'adresses classes par zone gographique (FinderSeeker, Excite Travel). Recherche dobjets perdus (Yellowtag).
Les moteurs de recherche web

Fonctionnement

Les moteurs de recherche web

Fonctionnement

Vue densemble,
Le robot explorateur, Le systme dindexation,

Le module de recherche,
Modes dinterrogation, Techniques utilises.
Les moteurs de recherche web

Vue densemble

Le spider rcupre et analyse le maximum dinformations provenant des pages quil visite. Le systme dindexation soccupe de stocker, et classer ces informations dans une base de donnes. Le searcher est charg de retrouver dans cette base, les documents qui correspondent le mieux la requte mise.
Les moteurs de recherche web

Fonctionnement gnral

Les moteurs de recherche web

Le robot explorateur ( spider )


Cest un robot logiciel qui explore de faon autonome le Web . Son efficacit est capitale pour le moteur. Identifie les liens des pages, puis les visite son tour, parcourant ainsi rapidement la totalit du site, puis ceux qui lui sont rattachs. Examine priodiquement des millions de pages et constitue de cette faon une base de donnes de celles dj visits.

Les moteurs de recherche web

Le systme dindexation

Analyse les informations collectes, construit un index des mots rencontrs (et des pages correspondantes), puis stocke lensemble dans une base de donnes. Convertit certains fichiers ne pouvant pas tre indexs cause de leur format. Utilise des outils dextraction pour ne rcuprer que lessence des documents. Ex: Fulcrum, Infoseek, Intelliserv, Livelink.
Les moteurs de recherche web

Le systme dindexation (suite)

Les techniques dindexation :


Au dbut, seulement les titres des documents, Puis, tous les mots du premier paragraphe, Aujourdhui : les mta-donnes (ou metatags), ex: balise HTML <META>.
Les moteurs de recherche web

Module de recherche ( searcher )

Le searcher est le frontal de l'utilisateur. Grce son interface graphique, on peut poser une question, slectionner les options disponibles, et lancer une recherche. Un script faisant alors appel au systme d'indexation pour quil excute la requte sur la base de donnes. Les rsultats affichs sous forme de page Web intgrant gnralement les rponses sous forme de liste.
Les moteurs de recherche web

Module de recherche modes dinterro.

Boolen : utilisation des oprateurs logiques (AND, OR, NOT, NEAR, etc.),
Liste de mots : requte retranscrite en une expression boolenne, En langage naturel (exprimental).
Les moteurs de recherche web

Module de recherche - techniques

Documentaire classique : utilisant des fichiers d'index de type mots-cls (mots ou expressions normaliss). Textuelle : cherchant retrouver les documents " ressemblant " le plus la question pose. Pour cela, on utilise des techniques linguistiques (question pose en langue naturelle) ou statistiques (pondration des valeurs des mots et des documents) Floue : autorisant les erreurs (OCR)
Les moteurs de recherche web

Architecture

Les moteurs de recherche web

Architecture

Architecture Gnrale Exemple de base de donnes (DILIB)

Exemple darchitectures (ALTAVISTA)

Les moteurs de recherche web

Architecture Gnrale
Pages Web Moteur de recherche
Robots Indexation

Navigateur Client

BD Recherche Recherche Serveur Web

Les moteurs de recherche web

DILIB
DILIB est une plate-forme pour l'Ingnierie du Document et de l'Information Scientifiques et Techniques
partie recherche

Les moteurs de recherche web

Structure base de donnes (DILIB)


Consignes Fichier Direct

Gnration Donnes Source Fichiers Inverse

Fichiers Paramtre

Les moteurs de recherche web

Fichier direct / inverse


N enregistrement Titre 000000 Tintin au Congo Auteur Herge Mots cls Tintin, Milou, chien Tintin, Milou, cheval, chien

Fichier direct

000001 000003 000004

Tintin en Amrique Herge Les Dalton Astrix le Gaulois

Morris, Goscinny Lucky Luke, cheval Goscinny, Uderzo Asterix, Idefix, chien

Mots cls
Asterix Cheval Chien 000004 000002, 000003 000001, 000002, 000004 000004 000001, 000002 000001, 000002 Herge

Auteurs
Goscinny 000003, 000004 000001, 000002 000004 000004 Morris Uderzo

Fichier inverse

Idefix Milou Tintin

Lucky Luke 000003

Les moteurs de recherche web

Architecture moteur ALTAVISTA

Les moteurs de recherche web

Deux serveurs

Les moteurs de recherche web

Serveurs en parallles

Les moteurs de recherche web

Serveurs Indpendants

Les moteurs de recherche web

Conclusion

Accroissement important de la quantit dinformations disponible sur le rseau. Progression notable (mais pas encore suffisante) des performances des outils de recherche. Nouvelles technologies intelligentes prometteuses : agents, recherche en langage naturel.
Les moteurs de recherche web

Bibliographie
Glossaire spcialis dans le domaine : http://www.idf.net/mdr/glossaire.html Divers sites explicatifs : http://www.decisionnel.net/recherche/ http://www-dist.cea.fr/ext/neuf/moteur/ Sur le Web invisible : http://www.asktibbs.com/web_invisible.html Sur les Anneaux: http://2sevres.clipewebring.free.fr/quoi.html Liste de discussions : motrech-subscribe@egroups.com

Les moteurs de recherche web

Vous aimerez peut-être aussi