Vous êtes sur la page 1sur 25

Recherche d’information

Chapitre 4 :

Recherche d'information sur le web

LSI-A2 2021-2022
Différences entre la RI classique et la RI sur le web

Taille : très grand nombre de documents. Estimation à 60 000 000

000 000 documents.

Hétérogénéité : très grande variété de documents.

Répartition : documents répartis sur Internet.

Structure du Web : documents interconnectés par des hyperliens.

2
Moteurs de RI sur le web

Les moteurs de recherche sont des applications qui parcourent le Web de façon
automatique et collectent les pages Web visitées (Crawling).

ØAnalysent le contenu des pages collectées.


ØConstruisent des structures d’accès efficaces, basées sur les mots contenus dans les pages
(Indexing).
ØTraitent les requêtes des utilisateurs (saisie de mots clefs) :
— À travers l’index, récupèrent les pages contenant les mots clefs contenus dans la requête.
— Classent les résultats de la recherche sur la base de leur pertinence à la requête
et de leur importance (Ranking).
Les plus connus des moteurs de recherche : Google, Bing, Yahoo ! Search.

3
Architecture d’un moteur de RI sur le web

4
Processus de crawling
Effectuée par un robot (en anglais crawler ou spider) qui est un programme qui explore

automatiquement le Web pour permettre au moteur de recherche de les indexer.

Le crawler

ØCommence l’exploration à partir d’une url donnée

ØLit la page correspondante et sauvegarde son code html dans une structure “repository”,

ØDétecte les liens contenus dans la page.

ØPour chaque lien, le crawler se rend à la page correspondante, stocke son contenu,

détecte ses liens etc.

Parmi les crawlers plus connus: GoogleBot, Yahoo ! Slurp, MSNBot

5
Processus d’indexation

1. Tokenization : Les termes sont individualisés et associés à leur position dans le document.
Dans cette phase la ponctuation est supprimée et la casse uniformisée
2. Stemming : les inflexions des mots sont supprimées (pluriels, genres, temps des verbes, etc.)
3. Suppression des mots vides

Ensuite il construit trois structures :


— Un index des pages stockées, qui consiste à associer un id à chaque page et stocke
avec l’id, l’url et des informations statistiques sur le document.
— Un index inverse (mots-clé :page1,page2,...), qui permet la recherche des pages par
mot clé (les occurrences du mot, son emplacement, titre du page, dans une url, un lien, …).
Permettre la recherche des pages dans lesquelles se trouve un mot clé donné.
— Une bases de données des liens, qui mémorise quelle page (id) pointe vers quelle
autre page (id)
6
Processus de recherche (Searcher)

Ce processus a pour objectifs la recherche et le classement des pages pertinentes pour une

requête comportant un ensemble de mots clefs.

Approche : soit une requête à plusieurs mot clefs, l’approche consiste à

— Chercher dans l’index inverse tous les mots clefs qui correspondent à ceux de la requête.

— Récupérer les pages qui figurent dans la liste (hitlist) de chaque mot clef.

— Classe (ranking) les pages obtenues selon un algorithme de classement :

• Calculer un indice de pertinence de chaque page pour la requête

• Calcule un indice d’autorité de chaque page (Link analysis : PageRank pourGoogle)

• Combine les deux dans un seul indice (rank), et classe les pages résultat par rank

7
Algorithme PageRank

PageRank et Google ont été conçus (1998) par Sergey Brin et Larry Page alors qu’ils
étaient étudiants en informatique à l’université de Stanford.
Les pages web peuvent être vues comme un graphe dirigé G(V,E) où les sommets V sont les
pages web (ou d’autres documents ou services) et les arcs E sont les hyperliens (liens) entre
les pages.

L’idée derrière l’algorithme PageRank est que la présence d’un lien vers une page constitue
un « vote » en faveur de cette page.

Basé sur la structure des liens, l’algorithme PageRank mesure l’importance relative
d’une page sur le web.
8
Algorithme PageRank

Définition de PageRank : La pertinence d’une page est mesurée par rapport au nombre de
liens entrants.
Étant donné une page web pi,
E(pi) est la liste des pages web pointant vers pi;
S(pi) est la liste des pages web vers lesquelles pi pointe,
alors le rang (ou pertinence) PageRank, noté P(pi) de pi, est :

où |S(pj)| est la cardinalité de l’ensemble S(pj) ou le nombre total de liens sortant de pj

9
Algorithme PageRank
L’algorithme

Exemple :

10
Algorithme PageRank
L’algorithme

Inconvénients de l'idée initiale:


Les pages qui se référencent entre elles et qui sont référencées par d’autres pages
seront privilégiées car elles “absorbent” tout le Pagerank et conduisent à une
voie sans issue.
11
Algorithme PageRank
PageRank corrigé

Considérons que PageRank des pages se calcule de manière itérative. Et si q est

un coefficient de calibrage (q = 0.85) et N est le nombre total de pages web,

alors la version corrigée de PageRank prend la forme suivante :

où initialement P (pi) =1/N.

12
Algorithme PageRank
PageRank corrigé

Soient trois pages représentées. Au début toutes les pages ont le même P
Ensuite la formule est appliquée pour calculer les nouveaux P :
P(A)=0.15/3 + 0.85 (1/3 × 1/2) = 0.168
P(B)=0.15/3 + 0.85 (1/3 + 1/3) = 0.663
P(C)=0.15/3 + 0.85 (1/3 × 1/2) = 0.168
Ensuite et par calcul itératif :
– Les P des pages sont mis-à-jour
– La formule du PageRank est appliquée sur les nouvelles valeurs
P(A)=0.15/3 + 0.85 (0.663 × 1/2) = 0.331
P(B)=0.15/3 + 0.85 (0.168 + 0.168) = 0.335
P(C)=0.15/3 + 0.85 (0.663 × 1/2) = 0.331

Le calcul s’arrête quand les valeurs "convergent" ie que les nouveaux PageRank P ne
diffèrent pas significativement des valeurs courantes.

13
Chapitre :4 Les Stratégies de recherche

Une stratégie de recherche

Pour qu’une recherche sur le Web soit fructueuse, nous devons établir une stratégie
de recherche, un itinéraire qui nous permettra de nous rendre à destination, c’est-à-
dire à l’information recherchée.

Une bonne stratégie de recherche commence avant même d’avoir tapé quoi que ce
soit dans la barre de recherche et se termine avec l’obtention des résultats. Voici les
sept étapes fondamentales à suivre pour établir une stratégie efficace de recherche
sur le Web.

14
Chapitre :4 Les Stratégies de recherche

Les sept étapes

Étape 1 : Définir votre sujet

Étape 2 : Analyser votre sujet de recherche

Étape 3 : Établir une stratégie de recherche

Étape 4 : Déterminer où vous voulez chercher

Étape 5 : Rechercher

Étape 6 : Examiner et évaluer vos résultats

Étape 7 : Revoir votre stratégie et effectuer une nouvelle recherche

15
Chapitre :4 Les Stratégies de recherche

Étape 1 : Définir votre sujet


Déterminez ce que vous voulez savoir exactement. Consiste à analyser
précisément son besoin d'information. Écrivez-le de façon concise (abrégé, bref).
Idéalement, votre sujet de recherche devrait tenir en une seule phrase.

Exemple : je veux en savoir plus sur le système de gestion de base de données
(SGBD).

16
Chapitre :4 Les Stratégies de recherche

Étape 2 : Analyser votre sujet de recherche


Vous pouvez maintenant décomposer votre sujet de recherche en plusieurs parties
ou mots clés. C'est à dire déterminer tous les termes qui sont à utiliser lorsque
vous vous servirez des outils de recherche.

La partie centrale de votre recherche est la SGBD, mais comme il existe différents
types de SGBD (hiérarchique, relationnels, orienté objet, objet-relationnel,
XML/RDF, embarqué ou spatial).

17
Chapitre :4 Les Stratégies de recherche

Étape 2 : Analyser votre sujet de recherche


Et, comme on veut en savoir plus sur, on peut ajouter le mot clé « documents ».

Vous devez fournir des précisions aux moteurs de recherche en indiquant que
votre recherche porte sur le SGBD relationnels.

Termes de recherches : documents SGBD relationnels

18
Chapitre :4 Les Stratégies de recherche

Étape 3 : Établir une stratégie de recherche

Maintenant que vous avez établi vos principaux termes de recherche, vous devez

les regrouper en un syntagme de recherche (une chaîne de mots); ce qu’on

appelle plus communément une requête.

Vous voulez trouver toutes les pages et tous les documents diffusés sur le Web qui
traitent de SGBD, de relationnels et de documentations

 Pour obtenir le plus grand nombre possible de résultats pertinents, suivez les
conseils présentés dans le tableau suivant:

19
Chapitre :4 Les Stratégies de recherche

Étape 3 : Établir une stratégie de recherche


Conseil de recherche Exemple
" " Mettez votre syntagme de recherche entre "documents sgbd relationnels"
guillemets pour trouver tous les mots recherchés
dans le même ordre que vous les avez tapés.
~ Utilisez le tilde pour trouver des synonymes ou ~ sgbd
des mots associés à vos termes de recherche. (Vous obtiendrez les pages ou
documents qui contiennent des
termes associés à sgbd
* d o c u m e n t *
Utilisez l’astérisque pour trouver toutes les (Vous obtiendrez les pages ou
déclinaisons d’un mot. documents contenant le terme
documents, mais également
documenter, documentation, ...)
20
Chapitre :4 Les Stratégies de recherche

Étape 3 : Établir une stratégie de recherche

Conseil de recherche Exemple


OU VIH OU « prophylaxie pré-exposition »
Utilisez OU pour indiquer que vous recherchez soit un soit (Vous obtiendrez les pages ou documents
plusieurs des mots que vous avez tapés. Vous obtiendrez ainsi traitant du VIH ou de la prophylaxie pré-
un plus grand nombre de résultats. exposition ou des deux.)
- VIH - « prophylaxie pré-exposition »
Utilisez le signe moins pour exclure un terme de votre (Vous obtiendrez les pages ou documents
recherche. traitant du VIH, mais ne contenant pas le
terme prophylaxie pré-exposition.)
() (PPrE OU « prophylaxie pré-
Utilisez les parenthèses pour rechercher des termes (ou exposition ») VIH
concepts) qui font partie d’une recherche plus large. (Vous obtiendrez les pages ou documents
contenant PPrE ou prophylaxie pré-
exposition ou les deux, ainsi que VIH.)

21
Chapitre :4 Les Stratégies de recherche

Étape 4 : Déterminer où vous voulez chercher

Bien qu’il soit important de savoir comment établir une stratégie de recherche,

savoir où chercher l’est encore plus, car en cherchant au bon endroit vous

augmentez considérablement vos chances de trouver ce que vous cherchez.

Moteurs de recherche généraux


Google : http://www.google.com
Yahoo : http://search.yahoo.com/web
Moteurs de recherche spécialisés en sciences
Google Scholar : http://scholar.google.com
Microsoft Academic Search : http://academic.research.microsoft.com
Scopus : http://www.elsevier.com/online-tools/scopus
Wayback Machine d'Internet Archive : http://www.archive.org/web/web.php
22
Chapitre :4 Les Stratégies de recherche

Étape 5 : Rechercher

Maintenant que vous avez déterminé ce que vous voulez savoir, que vous avez

transposé vos mots clés en une requête compréhensible pour un moteur de

recherche et que vous avez choisi de chercher dans Google, vous pouvez passer à la

recherche proprement dite.

23
Chapitre :4 Les Stratégies de recherche

Étape 6 : Examiner et évaluer vos résultats

Examinez les résultats de votre recherche.

Avez-vous obtenu l’information que vous cherchiez?

Cette information est-elle fiable?

Si vous n’êtes pas satisfait des résultats, passez à la dernière étape.

24
Chapitre :4 Les Stratégies de recherche

Étape 7 : Revoir votre stratégie et effectuer une nouvelle recherche

Si votre recherche n’a pas donné les résultats escomptés, peut-être devriez-vous
vous y prendre différemment.

Tentez de déterminer ce qui n’a pas fonctionné la première fois et modifiez votre
stratégie en conséquence.

Rappelez-vous qu’effectuer une recherche, c’est comme partir en voyage – parfois


vous devez modifier votre itinéraire en cours de route.

25

Vous aimerez peut-être aussi