Vous êtes sur la page 1sur 8

19/04/2024

Recherche
d’information

1ère Année IAG

A.U. : 2023/2024

CHAPITRE 4 : RECHERCHE D’INFORMATIONS SUR LE WEB

1. Introduction

2. Algorithme PageRank

1
19/04/2024

Introduction

 La recherche d’informations sur Internet est devenue une


tâche quotidienne établie par tous.
 Fouiller le Web est la façon primordiale pour l’extraction des
informations.
 Les bases de données ont d’une structure prédéfinie qui
permet d’en extraire des informations.
 Le contenu des pages Web est dynamique (des sites
nouvelles, blogs, forums) qui évoluent très vite et dont les
pages sont très nombreuses.

Introduction
 Internet est représenté par un graphe orienté dont les nœuds
et les liens sont respectivement représentés par les
documents de contenu textuel, les URLs des liens hypertextes
qui relient un document à un autre.

Haut niveau : plusieurs Bas niveau : à l’intérieur


nœuds de communication de chaque nœud, plusieurs
s’entre-connectent serveurs de données sont
fortement reliés entre eux.

2
19/04/2024

CHAPITRE 4 : RECHERCHE

D’INFORMATIONS SUR LE WEB


1. Introduction

2. Algorithme PageRank

Algorithme PageRank

 Le « PageRank ou PR » est l'algorithme d'analyse des


liens participant au système de classement des pages
Web utilisé par le moteur de recherche Google

 Il mesure quantitativement la popularité d'une page web.

 Il a été inventé par « Larry Page », cofondateur de Google.

3
19/04/2024

Algorithme PageRank

 L’approche « PageRank » repose sur la notion de


propagation de popularité. En fait, son principe consiste à
évaluer l’importance d’une page en fonction de chacune
des pages pointant vers elle.
 La propagation met en avant les pages qui jouent un rôle
particulier dans le graphe des liens, avec l’hypothèse
suivante :
"une page est importante quand elle est beaucoup citée ou
citée par une page très importante".

Algorithme PageRank

 La mesure de « PageRank (PR) » est une distribution de


probabilité sur les pages.
 Elle mesure la probabilité PR, pour un utilisateur navigant
au hasard, d’atteindre une page donnée.
 Elle repose sur un concept très simple : un lien émis par
une page A vers une page B est assimilé à un vote de A
pour B.
Plus une page reçoit de votes, plus cette page est considérée
comme importante.

4
19/04/2024

Algorithme PageRank

 PR(pj)t : représente la valeur du PageRank à l’itération t


pour la page pj
 C(pi) : est défini comme le nombre de liens sortants de la
page pi
 Le paramètre d prend ses valeurs dans l’intervalle [0−1] et
est généralement 0.85
 N : nombre de pages

Algorithme PageRank

 C'est-à-dire si nous assumons qu’une page A reçoit


des liens (ou votes) émis par les pages T1..Tn, le
paramètre d est un facteur d’amortissement
pouvant être ajusté entre 0 et 1. Nous donnons
généralement à d la valeur 0,85.

 C(A) est défini comme le nombre de liens émis par


la page A ( liens sortants ).

5
19/04/2024

Algorithme PageRank

Cette équation peut s’écrire autrement:

PR(A) = (1-d)/N + d [ PR(T1) / C(T1) +…+ PR(Tn)/C(Tn) ]

 PR(A) le PageRank de la page A

 PR(Tn) le PageRank de la page Tn (qui a voté vers la page A)

 C(Tn) le nombre de liens émis par la page Tn (lien sortant)

Algorithme PageRank

PR(A) = (1-d)/N + d [ PR(T1) / C(T1) +…+ PR(Tn)/C(Tn) ]

Exemple 1
 Soit un graphe qui comporte 4 pages, A, B, C et D,
avec les liens indiqués, et 4 équations donnent
le PageRank de ces pages :

 Pr(A) = 0,15/4 + (0,85) [Pr(B)+ Pr(C)+ Pr(D)/2]


 Pr(B) = 0,15/4 + (0,85) Pr(A)
 Pr(C) = 0,15/4 + (0,85) Pr(D)/2
 Pr(D) = 0,15/4

6
19/04/2024

Algorithme PageRank

 Les solutions de ce système d'équations sont :

 Pr(A) = 0,4711

 Pr(B) = 0,4379

 Pr(C) = 0,0534

 Pr(D) = 0,0375

 ce qui signifie que le surfeur aléatoire passera 47 % de


son temps sur la page A, 43,7 % sur B, 5,34 % sur C et
3,75 % sur D.

Algorithme PageRank
PR(A) = (1-d)/N + d [ PR(T1) / C(T1) +…+ PR(Tn)/C(Tn) ]

Exemple 2
On s’intéresse au graphe orienté ci-dessous, représentant un ensemble
de 4 pages internet et de leurs liens hypertexte

 Classer les pages par ordre de pertinence (si possible) en


appliquant la démarche de l’algorithme PageRank

7
19/04/2024

Algorithme PageRank
PR(A) = (1-d)/N + d [ PR(T1) / C(T1) +…+ PR(Tn)/C(Tn) ]

Exemple 2
On s’intéresse au graphe orienté ci-dessous, représentant un ensemble
de 4 pages internet et de leurs liens hypertexte

 Pr(P1) = 0,06
 Pr(P2) = 0,127
 Pr(P3) = 0,0534
 Pr(P4) = 0,0375

ce qui signifie que le surfeur aléatoire passera 6 % de son temps


sur la page P1, 12,7 % sur P2, 5,34 % sur P3 et 3,75 % sur P4.

Vous aimerez peut-être aussi