Vous êtes sur la page 1sur 31

PageRank : un aperçu

Fabien Mathieu

Séminaire UCL - 22 février 2005 1/31


Plan

 Introduction : graphes du Web


 Principes de PageRank
 Variations
 PageRank amorti
 Convergences quantitatives

Séminaire UCL - 22 février 2005 2/31


Les sites : une réalité structurelle
 Graphe du Web = pages + hyperliens
 Matrice d’adjacence d’un graphe du Web :
(
 i j
M   mi;j  i;j  mi;j 
 

 Visuellement, c’est joli…


 …et les sites apparaissent clairement

Séminaire UCL - 22 février 2005 3/31


Exemple

Séminaire UCL - 22 février 2005 4/31


PageRank

Théorie & pratique

Séminaire UCL - 22 février 2005 5/31


S’orienter dans le Web
 Web : masse « infinie » d’information
 Besoin d’outils de recherche
– Manuels : annuaires
! capacité de traitement limité
– Automatiques : moteurs
! nécessité de trier les données

Séminaire UCL - 22 février 2005 6/31


Méthodes de tri
 Importance sémantique : pertinence
– Indexation
– Basée sur une requête (mots-clés)
– Manipulable (spamming : abus de mots-clés)
 Importance structurelle : PR, HITS…
– Basée sur les hyperliens
– Indépendante du contenu
 Méthodes hybrides : TSPR , OPIC…
 Autres ? Problème du secret industriel

Séminaire UCL - 22 février 2005 7/31


PageRank
 Introduit en 1998 avec Google
 L’importance P d’une page vient de
l’importance des pages qui la réfèrent
 Chaque page doit avoir une importance
 Si G=(V,E) est un graphe du Web
(V : pages Web ; E : hyperliens)
X
P  w
8v 2 V  P  v 
w! v  w

Séminaire UCL - 22 février 2005 8/31


Une double interprétation
 Distribution d’importance (flot)
– Chaque page possède une certaine
importance P(v)
– L’importance est diffusée par les hyperliens
 Modèle du surfeur aléatoire
t
A P P
–PageRank
Le surfeur aléatoire
des parcourt sansPageRank
cesse le Web
en cliquant au hasard d’une page v
pages qui
– En choisissant kP k   , P est la probabilité de
pointent sur v
présence asymptotique (si elle existe)

Séminaire UCL - 22 février 2005 9/31


Cas de convergence : théorème de
Perron-Frobenius (1912)
 On suppose G fortement connexe apériodique
 Soit A la matrice stochastique associée
8
>
<

i ! j
A   ai;j  i;j 2V  ai;j   i
>
:
 

 Alors 1 est valeur propre maximale simple et unique


 P est solution de P  A tP
 Convergence vers le point fixe P par itérations successives :
P n   A tP n
 Interprétation : chaîne de Markov

Séminaire UCL - 22 février 2005 10/31


Modèle idéal et
graphe réel
 Il existe plusieurs composantes fortement
connexes (cfc) dont des pages sans lien

Séminaire UCL - 22 février 2005 11/31


Réduction de A
 On regroupe les sommets par cfc
 On respecte l’ordre partiel sur les cfc
 A est alors triangulaire par bloc
0 1
T E
B C
B
B
R  ¢¢¢  C
C
A B         C
B  C
B         C
@ A
 ¢¢¢  Rd

Séminaire UCL - 22 février 2005 12/31


Convergence du processus itératif
 Les cfc récurrentes (hors feuilles) sont :
– Stables
– Stochastiques
– Irréductibles
 Les feuilles sont nulles
 Les cfc transitoires sont strictement sous-
stochastiques
 On va donc observer une projection sur les
cfc récurrentes
Séminaire UCL - 22 février 2005 13/31
Trouver un PageRank unique
et strictement positif
Rendre la matrice A irréductible

Séminaire UCL - 22 février 2005 14/31


Renormalisation
(méthode de la puissance)
A tP n
 Qu’apporte P n   ?
t
kA P nk

 Rien s’il existe des cfc récurrentes

 Le filtre des cfc transitoires maximales sinon

 Pas intéressant

Séminaire UCL - 22 février 2005 15/31


Complétion stochastique
 À cause des feuilles, il existe un défaut
stochastique s   n ¡ A : n
 Ce défaut peut être redirigé A  A  s:Z t
 Z : distribution recouvrante
 Si pas de cfc récurrente, c’est gagné
 Sinon, c’est perdu !!!

Séminaire UCL - 22 février 2005 16/31


Choix de Z
 Interprétation : comportement par défaut
 Importance du caractère recouvrant
 Nombreuses possibilités :
– Distribution uniforme (standard)
– Distribution sur les pages d’accueil
– Personnalisation sémantique
– Personnalisation commerciale

Séminaire UCL - 22 février 2005 17/31


Facteur d’amortissement

Séminaire UCL - 22 février 2005 18/31


Principe
 Introduire de l’amortissement dans les
transitions
 Ainsi, même les cfc récurrentes possèdent
un défaut stochastique
 On peut donc réaliser une complétion
stochastique qui marche

Séminaire UCL - 22 février 2005 19/31


PR µ-compensé
(Perron-Frobenius)
 P n   dA tP n  ¹ nZ 
° °
° t °
¹n   ¡ ° dA P n°

 On est dans le cas idéal, avec
A  dA  s dA  :Z t
 Interprétation stochastique :
– Suivre un lien avec prob. d (s’il en existe)
– Sinon, zapper selon Z

Séminaire UCL - 22 février 2005 20/31


Choix de d
 Compromis convergence/dénaturation :
– d amortit les valeurs propres secondaires
– Atténuation des cfc récurrentes
– Classement selon A ou selon Z ?
 Modèle du surfeur aléatoire :
– Le zap suit une loi géométrique
d
– Distance moyenne entre 2 zaps :
 ¡ d
 Empiriquement : d=0,85
Séminaire UCL - 22 février 2005 21/31
PR non-compensé
(point fixe)
 P n   f d;Z  P n 
f d;Z  X ! dA tX    ¡ d Z
 f d;Z est d-lipschitzienne :
– Convergence
– Unicité
 Plus besoin de Perron-Frobenius
 Interprétation : flot

Séminaire UCL - 22 février 2005 22/31


Équivalence des PR
1
X
 Perron-Frobenius : P 1  ¹ 1 t k
 dA  Z
k 
X1
 Point fixe : P 1    ¡ d  dA t kZ
k 

 On pourrait aussi bien prendre


f d;Z  X ! dA tX  Z (Bianchini)

Séminaire UCL - 22 février 2005 23/31


Convergences

Séminaire UCL - 22 février 2005 24/31


Mieux que d ?
 L’amortissement garantit d.
 Après, cela dépend du spectre de A.
 En pratique, A est « saturé » de valeurs
propres proches ou égales de 1 :
– Cfc récurrentes
– Cfc transitoires quasi-récurrentes
 Conclusion : guère mieux que d

Séminaire UCL - 22 février 2005 25/31


Les pages sans lien :
problème du « remplumage »
 Les feuilles ne servent à rien
 On les enlève donc pour le calcul…
 … et on les remet après convergence
 Problème :
PageRank sur le graphe effeuillé

PageRank sur le graphe entier

Séminaire UCL - 22 février 2005 26/31


Vitesse de convergence

Séminaire UCL - 22 février 2005 27/31


Nombre d’itérations
 Dépend de ce que l’on veut :
– Donner une note de 1 à 10
– Avoir pour chaque page une importance précise
– Avoir un classement stable
 Il est possible d’avoir des profils statistiques
de densités et de vitesses empiriques
 On a ainsi des « formules » empiriques

Séminaire UCL - 22 février 2005 28/31


Exemples de profils de densité

Séminaire UCL - 22 février 2005 29/31


Exemple de profil de vitesses

Séminaire UCL - 22 février 2005 30/31


Convergence du classement

Séminaire UCL - 22 février 2005 31/31