Vous êtes sur la page 1sur 24

Les moteurs de recherche

Ghazel Marwen

Sommaire
Introduction
Dfinition
Prsentation
Fonctionnement
Architecture
Conclusion

Les moteurs de recherche web

Introduction

Les moteurs de recherche web

Introduction

Source importante dinformations ne pouvant tre


ignore (mme si utilise en complment).

Donnes et documents pertinents noys dans


limmensit du rseau.

Utilisation doutils de recherche quasi-obligatoire.

Les moteurs de recherche web

Dfinition

Les moteurs de recherche web

Dfinition
Un

moteur de recherche est une


application web permettant de
retrouver des ressources (pages
web, articles de forums Usenet,
images, vido, fichiers, etc.)
associes des mots
quelconques.
Les moteurs de recherche web

Prsentation

Les moteurs de recherche web

Prsentation
moteurs
mtamoteurs

Les moteurs de recherche web

Moteurs

Outil permettant de rechercher les pages


comportant une expression donne.
Ex: AltaVista, Excite, Google, Lycos
options de recherche utiles, indexation de
chaque mot.
Nombre de rponses souvent lev, une
certaine exprience dutilisation est requise.
+

Les moteurs de recherche web

Moteurs (suite) les catgories

Smantiques : intgration du sens du


langage au processus de recherche
(dictionnaires de concepts).

Multi-dimensionnels : paramtrage pouss,


affinage de la catgorisation des documents

Verticaux : adaptation des problmatiques


mtier bien particulires.
Les moteurs de recherche web

Mta-moteurs
Super-moteurs permettant deffectuer
simultanment une recherche sur plusieurs
moteurs et annuaires.
Ex: MetaCrawler, Savvy Search.

Puissance cumule de plusieurs outils,


efficacit croissante.
Longueur de la recherche, fantaisie de
certains rsultats, efficacit moindre par
rapport aux moteurs spcialiss.
+

Fonctionnement

Les moteurs de recherche web

Fonctionnement

Vue densemble,

Le robot explorateur,

Le systme dindexation,

Le module de recherche,
Modes dinterrogation,
Techniques utilises.
Les moteurs de recherche web

Vue densemble

Le spider rcupre et analyse le


maximum dinformations provenant des
pages quil visite.
Le systme dindexation soccupe de
stocker, et classer ces informations dans
une base de donnes.
Le searcher est charg de retrouver
dans cette base, les documents qui
correspondent le mieux la requte mise.
Les moteurs de recherche web

Fonctionnement gnral

Les moteurs de recherche web

Le robot explorateur ( spider )


Cest un robot logiciel qui explore de faon
autonome le Web .
Son efficacit est capitale pour le moteur.
Identifie les liens des pages, puis les visite
son tour, parcourant ainsi rapidement la
totalit du site, puis ceux qui lui sont
rattachs.
Examine priodiquement des millions de
pages et constitue de cette faon une base
de donnes de celles dj visits.

Les moteurs de recherche web

Le systme dindexation

Analyse les informations collectes,


construit un index des mots rencontrs (et
des pages correspondantes), puis stocke
lensemble dans une base de donnes.
Convertit certains fichiers ne pouvant pas
tre indexs cause de leur format.
Utilise des outils dextraction pour ne
rcuprer que lessence des
documents.

Les moteurs de recherche web

Le systme dindexation (suite)

Les techniques dindexation :

Au dbut, seulement les titres des


documents,

Puis, tous les mots du premier paragraphe,

Aujourdhui : les mta-donnes (ou


metatags), ex: balise HTML <META>.
Les moteurs de recherche web

Module de recherche ( searcher )

Le searcher est le frontal de l'utilisateur.


Grce son interface graphique, on peut
poser une question, slectionner les
options disponibles, et lancer une
recherche.
Un script faisant alors appel au systme
d'indexation pour quil excute la requte
sur la base de donnes.
Les rsultats affichs sous forme de page
Web intgrant gnralement les rponses
sous forme de liste.
Les moteurs de recherche web

Module de recherche modes dinterro.

Boolen : utilisation des oprateurs


logiques (AND, OR, NOT, NEAR, etc.),

Liste de mots : requte retranscrite en


une expression boolenne,

En langage naturel (exprimental).


Les moteurs de recherche web

Module de recherche - techniques

Documentaire classique : utilisant des


fichiers d'index de type mots-cls (mots ou
expressions normaliss).
Textuelle : cherchant retrouver les
documents " ressemblant " le plus la
question pose.
Pour cela, on utilise des techniques
linguistiques (question pose en langue
naturelle) ou statistiques (pondration des
valeurs des mots et des documents)
Floue : autorisant les erreurs (OCR)
Les moteurs de recherche web

Architecture

Les moteurs de recherche web

Architecture Gnrale
Pages Web

Moteur de recherche
Robots

Navigateur
Client

Indexation

BD
Recherche
Recherche
Serveur Web

Les moteurs de recherche web

Conclusion

Accroissement important de la quantit


dinformations disponible sur le rseau.

Progression notable (mais pas encore


suffisante) des performances des outils de
recherche.

Nouvelles technologies intelligentes


prometteuses : agents, recherche en
langage naturel.
Les moteurs de recherche web