Académique Documents
Professionnel Documents
Culture Documents
Chapitre 4 :
LSI-A2 2021-2022
Différences entre la RI classique et la RI sur le web
2
Moteurs de RI sur le web
Les moteurs de recherche sont des applications qui parcourent le Web de façon
automatique et collectent les pages Web visitées (Crawling).
3
Architecture d’un moteur de RI sur le web
4
Processus de crawling
Effectuée par un robot (en anglais crawler ou spider) qui est un programme qui explore
Le crawler
ØLit la page correspondante et sauvegarde son code html dans une structure “repository”,
ØPour chaque lien, le crawler se rend à la page correspondante, stocke son contenu,
5
Processus d’indexation
1. Tokenization : Les termes sont individualisés et associés à leur position dans le document.
Dans cette phase la ponctuation est supprimée et la casse uniformisée
2. Stemming : les inflexions des mots sont supprimées (pluriels, genres, temps des verbes, etc.)
3. Suppression des mots vides
Ce processus a pour objectifs la recherche et le classement des pages pertinentes pour une
— Chercher dans l’index inverse tous les mots clefs qui correspondent à ceux de la requête.
— Récupérer les pages qui figurent dans la liste (hitlist) de chaque mot clef.
• Combine les deux dans un seul indice (rank), et classe les pages résultat par rank
7
Algorithme PageRank
PageRank et Google ont été conçus (1998) par Sergey Brin et Larry Page alors qu’ils
étaient étudiants en informatique à l’université de Stanford.
Les pages web peuvent être vues comme un graphe dirigé G(V,E) où les sommets V sont les
pages web (ou d’autres documents ou services) et les arcs E sont les hyperliens (liens) entre
les pages.
L’idée derrière l’algorithme PageRank est que la présence d’un lien vers une page constitue
un « vote » en faveur de cette page.
Basé sur la structure des liens, l’algorithme PageRank mesure l’importance relative
d’une page sur le web.
8
Algorithme PageRank
Définition de PageRank : La pertinence d’une page est mesurée par rapport au nombre de
liens entrants.
Étant donné une page web pi,
E(pi) est la liste des pages web pointant vers pi;
S(pi) est la liste des pages web vers lesquelles pi pointe,
alors le rang (ou pertinence) PageRank, noté P(pi) de pi, est :
9
Algorithme PageRank
L’algorithme
Exemple :
10
Algorithme PageRank
L’algorithme
12
Algorithme PageRank
PageRank corrigé
Soient trois pages représentées. Au début toutes les pages ont le même P
Ensuite la formule est appliquée pour calculer les nouveaux P :
P(A)=0.15/3 + 0.85 (1/3 × 1/2) = 0.168
P(B)=0.15/3 + 0.85 (1/3 + 1/3) = 0.663
P(C)=0.15/3 + 0.85 (1/3 × 1/2) = 0.168
Ensuite et par calcul itératif :
– Les P des pages sont mis-à-jour
– La formule du PageRank est appliquée sur les nouvelles valeurs
P(A)=0.15/3 + 0.85 (0.663 × 1/2) = 0.331
P(B)=0.15/3 + 0.85 (0.168 + 0.168) = 0.335
P(C)=0.15/3 + 0.85 (0.663 × 1/2) = 0.331
Le calcul s’arrête quand les valeurs "convergent" ie que les nouveaux PageRank P ne
diffèrent pas significativement des valeurs courantes.
13
Chapitre :4 Les Stratégies de recherche
Pour qu’une recherche sur le Web soit fructueuse, nous devons établir une stratégie
de recherche, un itinéraire qui nous permettra de nous rendre à destination, c’est-à-
dire à l’information recherchée.
Une bonne stratégie de recherche commence avant même d’avoir tapé quoi que ce
soit dans la barre de recherche et se termine avec l’obtention des résultats. Voici les
sept étapes fondamentales à suivre pour établir une stratégie efficace de recherche
sur le Web.
14
Chapitre :4 Les Stratégies de recherche
Étape 5 : Rechercher
15
Chapitre :4 Les Stratégies de recherche
Exemple : je veux en savoir plus sur le système de gestion de base de données
(SGBD).
16
Chapitre :4 Les Stratégies de recherche
La partie centrale de votre recherche est la SGBD, mais comme il existe différents
types de SGBD (hiérarchique, relationnels, orienté objet, objet-relationnel,
XML/RDF, embarqué ou spatial).
17
Chapitre :4 Les Stratégies de recherche
Vous devez fournir des précisions aux moteurs de recherche en indiquant que
votre recherche porte sur le SGBD relationnels.
18
Chapitre :4 Les Stratégies de recherche
Maintenant que vous avez établi vos principaux termes de recherche, vous devez
Vous voulez trouver toutes les pages et tous les documents diffusés sur le Web qui
traitent de SGBD, de relationnels et de documentations
Pour obtenir le plus grand nombre possible de résultats pertinents, suivez les
conseils présentés dans le tableau suivant:
19
Chapitre :4 Les Stratégies de recherche
21
Chapitre :4 Les Stratégies de recherche
Bien qu’il soit important de savoir comment établir une stratégie de recherche,
savoir où chercher l’est encore plus, car en cherchant au bon endroit vous
Étape 5 : Rechercher
Maintenant que vous avez déterminé ce que vous voulez savoir, que vous avez
recherche et que vous avez choisi de chercher dans Google, vous pouvez passer à la
23
Chapitre :4 Les Stratégies de recherche
24
Chapitre :4 Les Stratégies de recherche
Si votre recherche n’a pas donné les résultats escomptés, peut-être devriez-vous
vous y prendre différemment.
Tentez de déterminer ce qui n’a pas fonctionné la première fois et modifiez votre
stratégie en conséquence.
25