Vous êtes sur la page 1sur 28

Internet

DOI 10.1007 / s11280-016-0388-y

approche unifiée ensembliste pour un graphique


d'summarization multi-attribué

Kifayat Ullah Khan 1 · Waqas Nawaz 1,2 ·


Young-Koo Lee 1

Reçues: 18 Août ici à 2015 / révisée 6 Mars 2016 / Accepted 18 Mars 2016 © Springer Science +
Business Media de New York 2016

Abstrait disponibilité riche de connaissances du monde réel dans un graphique en fonction des attributs de chaque sommet et ses
interactions, est une source d'information précieuse. Cependant, il est difficile de tirer cette connaissance utile, car soit les graphiques
de l'époque actuelle ne correspondent pas à la mémoire principale ou ne peuvent pas être traitées efficacement. À cet égard, il est
préférable de créer un graphique de synthèse significatif qui est compact et conserves propriétés intrinsèques de son graphique
sous-jacent. Dans cet article, nous proposons une approche pour un grand résumé graphique, où chaque noeud est attaché avec
plusieurs attributs. intuition principale derrière notre approche est basée sur un concept de la vie réelle qui indique « amis d'amis ont
beaucoup d'amis communs et ont également goûts et préférences similaires ». Nous utilisons ce phénomène comme base dans notre
document pour identifier les ensembles de noeuds ayant voisinage commun et attributs similaires, pour summarization. sur la base
d'agrégation existants utilisent des méthodes de récapitulation heuristique de paires de trouver des paires de noeuds similaires pour la
compression. Considérant que, les calculs de similarité de paires peuvent vérifier à la fois quartier ainsi que les similitudes attributs,
cependant, il est impossible de résumer un grand graphique. A cet effet, nous proposons une approche ensembliste pour
summarization efficace. Pour identifier chaque ensemble, nous adoptons Localité sensible Hashage (LSH) pour limiter les calculs de
similarité au sein des noeuds candidats similaires seulement. Depuis, les techniques de LSH considèrent existantes seule similitude de
voisinage dans un graphique, nous vous proposons donc une approche unifiée LSH à considérer simultanément les attributs et les
similitudes de quartier. Plus loin, en utilisant le principe Longueur Description minimum (MDL), nous présentons une nouvelle
technique pour effectuer sans perte de chaque summarization ensemble en créant un nœud super ou l'ajout d'un nouveau nœud
virtuel dans le graphique de synthèse. nous évaluons

Young-Koo Lee
yklee@khu.ac.kr

1 Département des sciences informatiques et en génie, Université Kyung Hee, Seocheon-dong,

Giheung-gu, Yongin-si, Gyeonggi-do 446-701, République de Corée

2 Adresse actuelle: Institut des systèmes d'information, Université Innopolis, Universitetskaya St. 1,

Innopolis, République du Tatarstan 420500, Russie


Internet

notre approche proposée avec l'état des méthodes d'art sur les graphiques du monde réel de synthèse et accessibles au public et

d'observer de meilleurs résultats en termes de temps d'exécution, taux de compression, et le nombre de corrections pour restructurer le

graphique d'origine.

Mots clés Lossless graphique summarization · graphique multi-attribué · Localité hash sensible · Principe de longueur
de description minimale

1. Introduction

Les graphiques tels que les réseaux sociaux, World Wide Web, la citation et les réseaux co-auteur sont des entrepôts de
connaissances. Fascination de ces entrepôts est élevé depuis l'entrée provient d'interactions réelles entre les personnes qui sont
géographiquement dispersés partout dans le monde. Une telle caractéristique de ces dépôts merveilleux ouvre de nombreux
fronts pour la communauté de recherche. Cependant, avec chaque clignement de l'oeil d'un être humain 1, la taille de ces
graphiques grossit, donc leur traitement efficace est très difficile en raison de stockage limité en mémoire. Dans ce cas, le
graphique est une méthode summarization précieuse pour le traitement en mémoire d'un grand graphique. Il compresse un grand
graphique de taille dans un résumé compact qui maintient les propriétés structurelles de son graphique sous-jacent. Une telle
version compacte facilite le traitement efficace des différents phénomènes de la vie réelle comme les communautés et
l'identification influent nœuds, la propagation de l'information, et la visualisation.

Graphique objectifs de trouver des nœuds de récapitulation avoir des voisins communs afin de réduire la redondance dans
les structures de liaison par compression. Les travaux en cours sont classés en deux courants principaux pour trouver ces
nœuds, soit à base de compression et à base d'agrégation. Objectif des méthodes basées sur compression est de trouver un
ordre intrinsèque des noeuds d'un graphe, de sorte que l'algorithme de compression peut exploiter des propriétés naturellement
comme lieu de référence et similitude de voisinage [ 1 , 4 , 11 , 21 , 22 ]. Ces méthodes donnent une représentation sommaire très
comprimé, ne nécessitant que quelques bits par bord pour le stockage. D'autre part, les méthodes basées sur l'agrégation
exercent une synthèse par paire pour replier une paire de noeuds dans un noeud de super et leurs bords correspondants dans
les bords des super [ 18 , 25 , 34 , 45 , 46 ]. Ainsi, un graphique de synthèse est créé en regroupant les deux noeuds et les arêtes du
graphe sous-jacent. Nous observons que les deux régimes offrent un taux de compression important, mais il est intéressant
d'explorer leur comportement d'autres propriétés du sous-jacent graphique ainsi.

Nous considérons une analyse essentielle de compression graphique des approches par rapport à la distribution degré et les
attributs noeud, étant donné que ces deux paramètres ont un rôle clé dans la conception d'un nouvel algorithme de compression
graphique [ 2 , 28 , 29 , 43 , 48 ]. Alors que les faits saillants de distribution degré à quel point les noeuds sont reliés entre eux. De même,
les attributs de noeud illustrent divers cas d'utilisation comme des collaborations académiques au sein même des groupes de recherche
et des relations d'amitié entre les membres des mêmes institutions. Résumé d'un graphique attribué peut être utilisé pour révéler de
nombreuses applications du monde réel comme la visualisation concise d'une ville pour trouver des personnes ayant une même
profession, l'emplacement sur le marché un nouveau produit. De même, il peut également être utilisé pour analyser la transmission de la
maladie chez les patients ayant même sexe, groupe d'âge et d'avoir des amis communs et ainsi de suite. On observe que les méthodes
basées sur compression sont hautement évolutives, mais ne prend pas en charge graphique traversal, l'interrogation directe et la
visualisation depuis leur résumé est stocké dans une structure de données compacte. En outre, le faible degré

1 Nombre total de minutes passées sur Facebook chaque mois: 640 millions. http://www.statisticbrain.com/ facebook-statistiques / .

Dernier accès le 07/03/2016


Internet

noeuds dégrader également leur taux de compression spécialement dans les réseaux sociaux [ 4 ].
Cependant, super technique par paires création de noeuds de méthodes basées sur l'agrégation, est
insensible à la distribution degré de nœuds et de créer un graphique de synthèse qui prend en charge
directement l'interrogation et l'analyse. Cependant, ces méthodes ne sont pas pratiques pour résumer un
grand graphique puisque chaque itération agrège une paire de noeuds seulement. D'autre part, ils peuvent
regrouper un graphe attribué puisque chaque fusion-sage paire peut enquêter sur les similitudes de
voisinage et d'attribut. Ainsi, en fournissant un avantage sur les méthodes basées sur compression dont
l'approche la commande de nœuds ne peut pas considérer les attributs similitude entre les noeuds dans un
graphe attribué. Compte tenu de ces faits,

Dans cet article, notre objectif est de présenter une approche basée agrégation summarization efficace pour créer un grand
résumé graphique. Notre motivation vient de la nature flexible de fusion-sage paire, car il peut en même temps enquêter sur les
similitudes de voisinage et les attributs entre les nœuds. Nous croyons que comprimant ensembles plutôt que des paires de noeuds
peuvent accélérer considérablement le temps d'exécution des méthodes basées sur l'agrégation. Cependant, étant donné
l'agrégation directement ensemble de noeuds dans un noeud de super est moins optimale car les attributs de ses noeuds membres
peuvent être différents. Compte tenu de cette complexité, nous présentons une nouvelle stratégie qui adopte une autre approche
pour chaque ensemble obtenu de nœuds. À titre d'illustration, considérons la figure 1 où après avoir localisé ensemble {1, 2, 3, 4} en
(a), on comprime directement dans un super nœud en (b). De même, s'il y a une homogénéité moindre attributs dans l'ensemble,
comme représenté en (c), on agrège leurs bords uniquement par l'ajout d'un nouveau noeud virtuel, tel qu'il apparaît dans (d).
Cependant, la localisation de ces ensembles dans un grand graphique est défi majeur depuis la fusion-sage paire et l'ordre
lexicographique des noeuds sont en vigueur. A cet effet, nous utilisons une solution approchée pour localiser efficacement des
nœuds similaires sous forme d'ensembles. Dans cette situation, LSH est une technique appropriée qui peut se rapprocher des
nœuds similaires à partir d'un aspect de similarité donnée. Toutefois, compte tenu simultanément plusieurs critères de similarité (de
voisinage et les similitudes entre les attributs) noeuds dans LSH, est encore un autre défi.

Nous résumons les contributions de notre papier comme ci-dessous:

- Nous proposons une approche basé sur un ensemble pour créer le résumé d'un grand graphique, où chaque noeud est attaché
avec plusieurs attributs. Pour résumé, nous utilisons une information de principe MDL théorétique, a expliqué à la section 2.1 , Qui
produit un graphique de synthèse compact avec des corrections. Les corrections sont nécessaires pour reconstruire le graphique
original, si nécessaire.

Figure 1 approche ensembliste pour compresser Graphique G (V, E, A) une Ensemble de noeuds avec les mêmes caractéristiques b La compression à l'aide d'un
super noeud c Ensemble de noeuds ayant des attributs uniques pour chaque nœud ré Compression par un noeud virtuel
Internet

- Une localité unifiée approche sensible de hashage est présentée à considérer simultanément voisinage et attribue des
similitudes entre les nœuds dans un graphique, a expliqué à la section
3 . A cet effet, on introduit un système de hachage pour existant LSH pour trouver des ensembles de noeuds ayant
quartier ainsi que les similitudes d'attributs.
- Nous présentons une nouvelle technique de graphique summarization, Unified Graph Summarization, qui fournit à la fois la
compression en utilisant nœud super et concepts nœud virtuel, expliqué dans la section 4 . Notre approche se confond un
ensemble de noeuds ayant les voisins communs dans un super nœud si les attributs de la totalité ou la majorité des noeuds
sont identiques. D'autre part, il comprime les bords d'un jeu par l'ajout d'un nouveau nœud virtuel si la majorité de ses noeuds
membres ont des attributs différents.

- Nous comparons notre proposition, dans la section 5 , Avec l'état des méthodes d'art, sur quatre graphiques du monde réel de synthèse

et accessibles au public et observer des résultats très encourageants.

Ce document est l'extension de notre version de conférence publiée dans [ 14 ], Qui ne présente pas de divers détails en raison de la

restriction de l'espace. Cette version présente donc les détails de certains concepts existants et ajoute de nouveaux contenus pour

l'exhaustivité. Tout d'abord, nous définissons formellement le concept de candidats nœuds similaires et un ensemble de nœuds similaires

pour la compression pour une meilleure compréhension. En second lieu, nous présentons deux stratégies différentes, ainsi que leurs

algorithmes pour identifier un ensemble de nœuds similaires pour la compression. Enfin, nous présentons une vaste évaluation expérimentale

sur quatre dans le monde réel et des graphiques de synthèse pour l'évaluation des temps d'exécution, l'analyse de la compression, la

comparaison entre le nombre de super et nœuds virtuels générés, et des corrections d'attributs. Le contenu de chaque section sont ajoutées

avec des explications supplémentaires, le cas échéant, et des schémas pour la présentation de la solution proposée est également inclus.

2 Préliminaires

Dans cette section, nous présentons tenus préliminaires et notre énoncé de problème.

2.1 MDL représentation d'un graphe attribué à plusieurs

LDM est une information principe théorique utilisé pour réduire au minimum la somme de la taille d'une théorie et ses données associées à

exprimer des connaissances utiles [ 35 ]. Dans le cas des graphiques, la théorie est réduite au minimum un graphique sommaire et liste des

corrections est ses données associées à reconstituer le graphique d'origine, le cas échéant. Nous utilisons pour le graphique LDM pour créer un

résumé graphique de synthèse compact avec moins corrections. Notre explication LDM présente une ressemblance avec celle de dans [ 25 ]

Pour un graphique nonattributed, mais nous l'enrichissons pour gérer un graphe attribué, les nœuds virtuels et graphique de synthèse avec les

moins corrections de pointe.

Un graphe non orienté et attribué G (V, E, A) est constitué de noeuds V et les arêtes E où chaque v ∈ V est attaché à un
ensemble d'attributs A = {a 1, une 2, ..., une k}. représentation de LDM g est officiellement représentée comme g MDL = ( S G, C r) où S g
est un graphique sommaire,
S G( V s, E s, UNE s), et C r est une liste interminable de corrections. chaque noeud v s ∈ V s est soit un super-noeud ou virtuel. Un noeud
super-ensemble correspond à UNE v où ∀ v ∈ UNE v est v ∈ V dans G. Un noeud virtuel vl est un nouveau noeud ajouté à S g pour agréger ses

bords super seulement. De même, chaque bord

(UNE u, UNE v) ∈ E s est un bord super et est fixée de toutes les arêtes entre les membres de UNE u et UNE v dans G,

l'exception d'un bord ( UNE u, UNE vl) ∈ E s à cause du noeud nouvellement ajouté. En chiffres 1 b et d, nous montrons la
représentation des graphiques de LDM (a) et (c) après compression à l'aide de super et nœud virtuel, ainsi que les corrections.
Internet

Règles pour créer des arêtes des super et des corrections sont basées sur des super-nœuds et nœuds virtuels. Pour les corrections Edge à

l'aide super nœud, nous définissons π comme un ensemble de toutes les arêtes possibles entre

(UNE u, UNE v) ∈ V s et UNE uv que les bords réels entre les membres du UNE u et UNE v. Un super bord est créé entre UNE u et UNE v si UNE uv ≥ (| π

| + 1) / 2 ainsi que des corrections de bordure négatives pour π - UNE uv bords, le cas échéant. Sinon, seules des corrections marginales

positives sont créées entre leurs membres. Depuis, nous sommes intéressés par un résumé compact avec moins corrections, donc nous

préférons l'option ayant des besoins en mémoire minimum à savoir, soit créer des super bords avec des corrections négatives ou seulement

bord des corrections marginales positives. Pour les attributs pour un ensemble super noeud, on choisit des valeurs d'attributs ayant une

distribution plus élevée dans le jeu de noeuds donné. Restant valeurs d'attributs non alloués, le cas échéant, sont conservés en tant que

corrections d'attribut. Dans le cas de noeuds virtuels, sont possibles étant donné que seuls les bords sont agrégés que des corrections de bord.

Dans cette situation, nous créons des corrections de pointe négatives pour une paire de noeuds qui apparaissent comme connecté par

l'intermédiaire d'un nœud virtuel.

Le coût d'un graphique sommaire dépend de son coût de stockage (super-noeuds et de super-bords) et des corrections. Étant
donné que chaque super nœud en S g préserve l'identité de ses noeuds membres de G, ainsi leur est pas un gain d'espace de nœuds.
Par conséquent, nous nous référons coût de graphique de synthèse comme coût (G MDL) = | E s | + | C r |, où le coût est moins objectif
d'utiliser le principe LDM.

2.2 Application LSH sur un graphique non attribué

équivalence structurelle, similitude de voisinage entre les nœuds, est un concept bien connu dans les graphiques [ 23 ] Pour identifier les
noeuds similaires pour diverses opérations telles que le regroupement [ 38 ], La détection de la communauté [ 6 , dix ] Et summarization [ 1 ,
4 ]. Pour la recherche de similarité rapide, LSH est une solution précieuse qui peut efficacement trouver candidats nœuds similaires à
base de co-efficace Jaccard, tout en évitant des calculs de similarité inutiles avec des noeuds non similaires.

Il y a deux étapes pour trouver des noeuds candidats similaires dans un graphique à l'aide LSH: générer m

signatures et minhash b codes de hachage pour chaque v je ∈ V. signatures Minhash sont générés pour créer une matrice de minhash

résident en mémoire puisque dans certains cas, un grand graphique ne peut pas tenir dans la mémoire. De même, b codes de hachage

sont créés pour les produits candidats noeuds similaires. Candidats noeuds similaires sont ceux qui sont probablement semblables les

uns aux autres, donc les calculs de similarité sont limités entre eux seulement. Nous illustrons processus de LSH trouver candidats

nœuds similaires dans un graphique de la figure 2 , Où (a) à (c) montrent la première étape et (d) à (f) affiche la deuxième étape [ 15 ].

Nous montrons un graphique de jouet ayant 6 noeuds avec leurs listes de contiguïté dans la figure 2 une. Figure 2 b présente matrice

d'adjacence du graphe avec quatre fonctions de hachage de permutations aléatoires { π 1, ..., π 4}, sur la base des identifiants de nœuds.

En utilisant un algorithme de minhash rapide [ 3 ], Nous appliquons les fonctions de hachage pour créer une matrice de signature
minhash du graphe, dont chaque colonne est la signature de chaque nœud, comme le montre la figure 2 c. Dans cette matrice, pour
chaque noeud donné v j avec son quartier nbrs j, valeur m je est la valeur minimum dans π je . En outre, étant donné une paire de noeuds ( v je
, v j) et une permutation π k, premier élément de v je est égal à premier élément de v j avec une probabilité égale à leur similitude Jaccard,
affiché dans ( 1 ), Où Nbrs montrent contiguïté liste de chaque nœud.

( vj )))
Pr (min (π k ( v i)) = min (π k = nbrs v je ∩ nbrs v j (1)
nbrs v je ∪ nbrs v j
Maintenant, nous expliquons la deuxième étape pour générer des noeuds candidats similaires. On observe que une paire de noeuds

ayant exactement le même ensemble de voisins, de produire des colonnes de signature mêmes comme les noeuds 1 et 6 de la figure 2 c. Au

contraire, il existe de nombreux noeuds ayant ensemble partiellement même des voisins, comme les noeuds 2, 3 et 4. Pour directement ces

noeuds partiellement similaires,


Internet

Figure 2 L'utilisation LSH dans un graphique une Graphique G (V, E, A) b Adjacence représentation matricielle de g ainsi que des fonctions de hachage c matrice
de Minhash g ré Division de la Matrice en bandes pour générer des codes de hachage e codes de hachage combinée pour chaque partie de la colonne F tables de
hachage contenant des seaux de candidats noeuds similaires ensembles

on divise la matrice de signature en b bandes de r lignes chacune. Ici, chaque bande forme une table de hachage contenant des seaux de

candidats noeuds similaires, où des seaux sont égaux au total à nombre unique de codes de hachage obtenus à partir d'une bande. Pour

générer candidats noeuds similaires, on applique une fonction de hachage sur chaque bande qui mappe chaque identifiant de nœud dans un

seau. De cette façon, tous les noeuds ayant même code de hachage pour chaque de la bande, tombent dans même seau. Pour notre graphique

de jouets, on divise sa matrice de signature en 2 bandes de 2 rangées chacune dans la figure 2 d, et de calculer les codes de hachage pour

chaque portion de colonnes sur la figure 2 e. Enfin, chaque code de hachage unique est défini comme l'identifiant du seau qui contient

uniquement les noeuds ayant les mêmes codes de hachage, comme représenté sur la Figure 2 F. Ceci conclut l'étape 2 qui se traduit par la

génération des candidats nœuds similaires.

Lorsque nœuds dans un graphe d'entrée sont fixés avec des attributs tels que notre graphique de jouets à la figure 2 une,

nous observons que l'algorithme ci-dessus ne tient aucun compte des attributs similitudes. Il est donc très probable qu'il rassemble des
noeuds ayant des similitudes élevées de voisinage mais en faisant varier les attributs d'homogénéité. Pour remédier à cette limitation, il
est souhaitable d'envisager deux types d'informations pour générer des candidats nœuds similaires. Cependant, la liste de contiguïté et
attributs définis pour chaque nœud sont deux entités complètement différentes. Dans la section 3 , Nous vous présentons notre solution
à considérer simultanément les deux types d'informations dans LSH.

2.3 Mercerie

Chaque seau de chaque table de hachage contient un ensemble de noeuds. Nous observons que la fusion directement un tel ensemble,

peut produire un grand nombre d'erreurs de pointe ainsi que des erreurs dues à la différence des valeurs d'attributs. Par conséquent, il est

nécessaire d'évaluer le quartier, ainsi que les similitudes d'attributs pour chaque paire de noeuds de chaque ensemble.

Pour une paire donnée de noeuds ( u, v) ∈ V, nous vérifions leurs similitudes de quartier en utilisant ( 2 ) de [ 25 ], où s est
super noeud potentiel de fusion u et v, et c est le nombre de voisins de chaque noeud. De même, leurs similitudes d'attribut
sont évalués en comparant chaque valeur de u avec celle de v. Nous déclarons ( u, v) comme fusionnables les uns aux
autres, si leur coût de compression ou des similitudes d'attributs satisfont leurs seuils respectifs. Depuis, directement
Internet

trouver de tels ensembles de nœuds est difficile, par conséquent, nous rapprochons les ensembles de candidats qui sont définis dans Définition

1.

Nous illustrons maintenant le calcul des coûts de compression pour la paire de noeuds (3, 5) de la figure 1 une.

Nous constatons que les valeurs de c 3 et c 5 sont trois et un, respectivement. De même c s de leur super noeud de potentiel s est trois
car il y aura un bord avec des super noeud 9 et deux erreurs de bords manquants avec des noeuds 7 et 8. L'utilisation de ces
valeurs dans ( 2 ), Le coût de compression de cette paire est de 0,25.

CompressionCost (u, v) = c u + c v - c s (2)


cu+cv

Définition 1 [ CandidateSimilarNodesSet] Étant donné un ensemble de noeuds S c =


{ v 1, .., v je , v j, .., v m} ∈ V, seuils pour le coût de compression t et la similitude des attributs pr, nous appelons S c l'ensemble des nœuds
similaires candidat (SNSC) si le coût de la compression et la similitude d'attributs entre une paire ( v je , v j) ∈ S c ci-dessous t et pr respectivement.

Laissez-nous illustrons un CSNS en utilisant la figure 1 une. seuils donnés pour les coûts de compression et

similitude d'attributs 0,3 et 100% respectivement, nous constatons que ensemble de noeuds {1, ..., 5} est un CSNS depuis coût de

compression du nœud 5 avec tous les autres noeuds, à l'exception noeud 4 est inférieur au seuil. De même, la valeur de l'attribut de noeud 5

est également différent de celui du reste des noeuds membres. Nous trouvons cet ensemble {1, ..., 5} dans la figure 1 c est aussi un CSNS à la

fois en raison de son coût de compression plus faible, en raison de noeud 5, et la différence de valeurs d'attributs. Nous définissons

maintenant l'ensemble des noeuds qui peuvent être fusionnés.

Définition 2 [ SimilarNodesSet] Étant donné un ensemble de noeuds S c = { v 1, .., v je , v j, .., v m}


∈ V, seuils pour le coût de compression t et la similitude des attributs pr, nous appelons le plus grand sous-ensemble de S c comme nœuds

similaires Set (SNS) lorsque la compression similitude des coûts ou un attribut entre une paire ( v je , v j) ∈ S c est au-dessus t ou pr respectivement.

Étant donné le même ensemble de nœuds, de la figure 1 un, et des seuils pour les coûts de compression et

similitude des attributs de l'explication de la définition 1, nous constatons que sous-ensemble {1, ..., 4} est SNS. Un tel SNS est directement

fusionné en un super noeud avec moins des corrections, comme indiqué dans la figure 1 b. De même, même sous-ensemble de noeuds à

partir de la figure 1 c est aussi un coût de SNS comme la compression pour chaque paire satisfait le seuil donné. Cependant, l'agrégation de

cet ensemble dans un super nœud génère de grandes erreurs en raison de la différence des valeurs d'attribut, par conséquent, nous

regroupons leurs bords en ajoutant un nouveau nœud virtuel dans le graphique comme le montre la figure 1 ré. Section 4.4

explique la procédure formelle de sélection soit super ou nœud virtuel pour la compression.

2.4 Problématique

Compte tenu de statique et graphe non orienté G (V, E, A), notre objectif est de calculer le moindre coût représentation LDM g MDL =
( S G, C r) dans le temps linéaire, en résumant chaque ensemble des nœuds similaires, SNS, filtré d'un ensemble candidat nœuds
similaires, CSNS.
Ici S g est un graphique sommaire, S G ( V S, E S, UNE S), où ∀ v s ∈ V S est soit un noeud super ou un noeud virtuel. Quand v s est
un super nœud, il est soit v s = v ∈ V ou v s = { v 1, v 2, ..., v k} ∈ V.
Au contraire, lorsque v s = v / ∈ V il est un noeud virtuel. C s est la liste des positifs et négatifs
les arêtes et les corrections d'attribut. Depuis, LSH est un algorithme sous-linéaire pour les calculs de similarité, par conséquent,
notre temps d'exécution de l'approche proposée est limitée par le temps linéaire.
Internet

3 localité unifiée hachage sensible, Ulsh

Dans cette section, nous présentons notre approche proposée pour le quartier Unify et les attributs d'information dans LSH. Nous
affichons diagramme pile de Ulsh comme une illustration de la figure 3 une. Considérer simultanément les informations contenues
dans LSH, une approche naïve consiste à appliquer séparément LSH sur le quartier ainsi que des informations d'attributs. Enfin,
l'intersection de leurs résultats récupère CSNSs. Cependant, cette solution double les exigences de mémoire d'origine de LSH, à
savoir, deux fois Sur * b), où n est total dans les nœuds G. Dans cette situation, une solution unifiée est plus préférable d'aligner les
nœuds similaires des deux aspects. Il est un fait que la liste de contiguïté, nbrs, et les attributs définis, A tribs, de chaque noeud sont
sémantiquement deux entités différentes. Considérant que, contiguïté liste de chaque nœud tient ses informations de structure, de
même ensemble d'attributs décrivent ses propriétés ou de l'identité. En dehors de leurs différences sémantiques, généralement
contiguïté liste de chaque noeud a une taille beaucoup plus grande par rapport à ses attributs définis, | nbrs | >> | À tribs |, due à
l'augmentation à la fois de la densité et le diamètre des graphiques [ 19 ]. D'autre part, les graphiques des biens de loi de puissance
ont un grand nombre de nœuds de bas degré et, menant à | nbrs | <| A tribs |. Ces deux informations peuvent être considérées
comme deux dimensions de chaque nœud et question est de savoir comment unifier ou de les réduire de telle sorte que leur
production préserve les propriétés intrinsèques des deux aspects. Nous appelons ce problème comme « malédiction de la
dimensionnalité » dans Ulsh. Normalement, les techniques de réduction de la dimension sont utilisés pour les problèmes impliquant
malédiction de dimensionnalité. Nous comprenons que les dimensions de ces problèmes ont l'homogénéité sémantique. Par
exemple, les dimensions sont de type spatial à la recherche du plus proche voisin dans l'espace euclidien, où une fonction de
distance calcule la différence entre les valeurs de dimension correspondante. Dans notre cas, il existe des différences sémantiques
entre les deux dimensions de chaque noeud. , Il faut donc une attention particulière à identifier les nœuds similaires des deux
aspects. Pour résoudre ce problème, nous projetons les deux dimensions de chaque noeud dans un niveau de granularité unifié.
D'un point de vue de la mise en œuvre, nous union attributs définis de chaque nœud avec sa liste de contiguïté et effectuer LSH
sur la liste unifiée. Par une telle unification, les signatures de minhash ultérieures de chaque noeud contient une représentation des
deux aspects. Il en est ainsi depuis toute valeur dans la liste combinée peut être sélectionné comme minimum contre une fonction
de hachage donnée π k. Cette unification augmente la probabilité de nœuds candidats d'avoir élevé le quartier, ainsi que des
similitudes d'attributs.

Unifier les attributs setlist et contiguïté pour chaque nœud, il est nécessaire qu'ils devraient avoir même type. Habituellement, les

attributs de nœud dans un graphe sont de divers types comme texte, nominale, ordinale ou numérique, tandis que les listes de contiguïté

sont numériques. A cet effet, la première étape consiste à aligner

Candidats Noeuds similaires basés sur Voisinage


Appliquer
et attributs similarité Graphe G Rechercher candidat Set
Uni fi é LSH
(V, E, A) nœuds similaires
sur G
Bi-Minhashing

Aggregate par
Voisinage équilibré et des informations d'attributs Le jeu de filtre
Super ou nœud
nœuds similaires
virtuel
Voisins-attributs
Les fonctions de hachage
liste
évaluer la
G (V, EA) compression
Ra? O

figure 3 Projet de point de vue des yeux d'oiseaux de solution une Localité unifiée sensible Hashage Stack Schéma b Graphique unifié cadre
Summarization
Internet

leurs types. En Ulsh, nous transformons des attributs définis de chaque noeud numérique, puis l'intégrer dans sa liste de contiguïté
correspondante. Nous informations combinées maintenant définir une proposition officielle dans la définition 3.

Définition 3 [ NeighborsAt tributesList] Compte tenu d'un noeud v je ∈ V avec ses voisins
nbrs v je et attributs définis A tribs v je , Liste des attributs voisins (NAL) est une liste unifiée qui est concaténation nbrs
v je et A tribs v je .

Pour créer NAL pour chaque nœud, nous montrons la cartographie de toutes les valeurs d'attribut de la figure 2 un en valeurs
numériques de la figure 4 une. Figure 4 b illustre NAL pour les noeuds 1 et 6 pour la compréhension claire. Pour effectuer l'affectation
numérique, nous initions plage de valeurs d'attributs dans NAL du plus grand identifiant de noeud G.

Avec l'unification des informations d'attributs et de voisinage, on peut calculer les valeurs minhash en utilisant des fonctions de

hachage données. Depuis maintenant, nous considérons à la fois les informations pour le calcul minhash, il est souhaitable que leur

représentation doit être préservée dans les fonctions de hachage ainsi. Nous définissons maintenant officiellement les fonctions de hachage

requises Définition 4.

Définition 4 [ ions unif iedHashFunct] Les permutations aléatoires { π 1, π 2, ..., π m} est un ensemble de fonctions de hachage
où π je est une permutation de valeurs {1, 2, ..., n, n + 1, ..., k}. Les valeurs {1, 2, ..., n} sont les noeuds totaux dans g et { n + 1, ..., k}
est l'union de toutes les valeurs cardinales de chaque attribut.

Nous illustrons les fonctions de hachage échantillon dans la figure 4 c. Ici, chaque fonction est aléatoire permutations

tion de noeuds totaux dans le graphique et les valeurs d'attributs possibles à partir de tous les attributs, après cartographie.

3.1 L'équilibre entre le quartier et l'information d'attribut

En raison du déséquilibre entre la taille du voisinage et des informations d'attributs, en utilisant NAL pour chaque nœud et les fonctions
de hachage unifié dans LSH de la section 2.2 , Peut toujours pas trouver des nœuds similaires des deux aspects. La raison en est que,
pour une donnée NAL je de nœud v je , nous constatons que chaque élément NAL je a une probabilité égale d'être minimale contre une
fonction de hachage étant donné, comme le montre la ( 3 ). Toutefois, en raison de la question du déséquilibre, les attributs de v je ont une
faible probabilité d'être au moins l'une quelconque de la fonction de hachage par rapport à celle de leurs voisins, comme indiqué dans ( 4
). Cela se traduit par la création de colonnes de signature minhash ne conservant que des informations de voisinage, minimisant ainsi
l'influence des attributs. Par exemple, le nœud 1 considérer la figure 4 b. En utilisant ( 3 ), La probabilité de chaque élément dans son NAL
1 être considéré comme minimum est de 0,2. Cependant, la probabilité d'un voisin NAL 1 au minimum devenir est plus grande que celle
de toute sa valeur d'attribut, 0,6 et 0,4 respectivement. Dans le pire des cas, une paire de noeuds

(U, v) ∈ V ayant un chevauchement complet des voisins, mais pas d'attributs similitude ou vice versa,

1 23478
π1 sept 2 3 9 5 6 4 8 10 1 π 2

6 2 3 4 9 10 5 8 1 10 7 2 9 6 3 4

Figure 4 Illustrant LSH unifié sur le graphique de la figure 2 . une attributs cartographie b nœuds exemples de graphique avec leurs listes Neighbour-attributs c
fonctions de hachage combinée basée sur le noeud ids et les valeurs d'attribut
Internet

peut produire exactement les mêmes signatures de minhash. Tenez compte des nœuds 1, 6 comme le pire des cas à la figure 4 b,
où les deux partagent tous leurs voisins, mais ont pas d'attribut en commun. En conclusion, leur similitude Jaccard ne représente
pas la situation réelle et peut produire de grandes corrections d'attributs sur l'agrégation en un super noeud.

Pr (min (π (NAL i)) = ∀ X ∈ NAL i) = 1 (3)


| NAL i |

Pr (min (π (NAL i)) = ∀ X ∈ nbrs je ) Pr (min (π (NAL i)) = ∀ y ∈ A tribs je ) (4)

Idéalement, les signatures minhash de chaque nœud doit avoir une représentation de ses voisins ainsi que des attributs.
A cet effet, nous vous proposons de faire respecter la représentation des deux dimensions dans les signatures minhash afin
que le biais vers ou l'autre aspect est réduit au minimum. En Ulsh, nous présentons MinhashWeight ingParameterp pour
préserver le quartier et les attributs d'information dans les signatures minhash pour chaque nœud. En précisant p garantit que
certaine proportion de valeurs de minhash sont calculées à partir de chaque composant, limitant ainsi grand pourcentage de
minhashes de chaque aspect. En utilisant p, ( 5 ) et ( 6 ) Indique la fraction de valeurs de minhash de chacun des deux
composants NAL je pour chaque v je . Nous comprenons que bon choix de p joue un rôle clé pour affecter certains poids à
chacun des deux composants NAL je .

Par exemple, si p = 15 et les fonctions de hachage au total, k, sont 30 ensuite à l'aide ( 5 ) et ( 6 ), La colonne de signature minhash pour le

noeud 1 de la figure 4 b, contient 50% des valeurs de minhash de chacun des composants, comme le montre la ( sept ). Par conséquent,

nous constatons que l'inclusion de p, la probabilité d'avoir des valeurs minhash d'attributs peuvent être augmentés.

Minhash nbrsv je =k-p (5)


k

Minhash A tribs
v je
=p (6)
k

) )
Pr (min (π k ( NAL i)) = ∀ X ∈ nbrs v je = Pr (min (π k ( NAL i)) = ∀ y ∈ A tribs v je (sept)

Problème avec une représentation équilibrée On constate que l'inclusion forcée des informations de voisinage et
l'attribut dans les signatures minhash, peut encore produire des résultats erronés lorsque CSNSs sont générés. Figure 2 d
affiche l'étape quand on partage matrice minhash en
b bandes de r chacune des rangées, afin de générer CSNSs. Le problème apparaît quand une bande donnée reçoit une partie de la
colonne minhash où toutes les valeurs de minhash sont soit des voisins ou des attributs uniquement. Dans ce cas, des seaux
correspondants contiennent des nœuds similaires à partir soit seul aspect. Il y a une plus grande probabilité de cette situation dans le
cas où nous utilisons un grand nombre de fonctions de hachage, étant donné que la longueur de la colonne résultant de minhash pour
chaque v je est aussi grande. Cette situation est possible à la fois la sélection aléatoire et séquentielle des valeurs minhash pour chaque
bande. Pour contourner cette limitation, nous vous proposons un concept appelé Bi - Minhashing qui randomise complètement la
génération de valeurs de minhash à la fois les aspects de NAL je de chaque v je .

3.2 Bi-Minhashing

L'objectif de bi-minhashing est de calculer les signatures minhash de chaque v je où ses deux dimensions (voisinage ou
attributs) a la même probabilité d'être choisi comme minimum contre toute fonction de hachage. Avec cet objectif, les objectifs
bi-minhashing randomiser complètement le processus de génération de minhash pour chaque noeud, de sorte que toute valeur
de p dans ( 5 ) et ( 6 ) Est-ce que
Internet

pas déplacer le focus ou l'autre aspect de similarité. A cet effet, nous avons d'abord calculer les signatures minhash M NAL de chaque
noeud. Ensuite, nous appliquons à nouveau sur minhasing M NAL pour créer ses signatures de minhash M /

NAL. Ce second hashing niveau randomizes complètement le minhash


La représentation des aspects de NAL je de chaque v je , étant donné que toute valeur minimale peut en outre être choisi comme
minimum contre fonction de hachage donnée. Le second hachage de niveau rend les signatures minhash d'un noeud,
indépendamment de l'un de ses aspects de similitude. Ainsi, ses codes de hachage de chaque bande ont une grande probabilité
d'être représentative de similitudes de voisinage et les attributs.

Nous trouvons l'importance de bi-minhashing est double. Tout d'abord, il crée un équilibre entre le quartier et l'information
d'attribut, à savoir, lorsque | nbrs | >> | Au tribs | ou vice versa. Depuis, l'établissement p à 50%, le hachage initial crée des
signatures minhash de taille k où chacun des deux composants est une représentation équilibrée. En second lieu, une
représentation égale minhash fournit un indice pour sélectionner une valeur appropriée de p. Néanmoins, une valeur optimale
de p
peut être basée sur le problème de graphique donné un résumé, où l'accent sur l'importance relative de la structure graphique et des
valeurs d'attribut est géré par les utilisateurs. Nous illustrons pseudocode explicite de bi-minhashing dans l'algorithme 1.

4 récapitulation graphique unifiée, UGS

Dans cette section, nous présentons notre cadre graphique et ses composants summarization nécessaires.

Cadre de référence 4.1 UGS

L'idée dans notre cadre est de parcourir summarization graphique toute sorte que chaque noeud obtient au-moins une chance
pour l'agrégation. Pour résumé, nous vous proposons deux alternatives pour identifier un SNS de chaque CSNS dans la
section 4.3 . Nous montrons aperçu de notre cadre de la figure summarization 3 b, où l'on applique d'abord sur chaque Ulsh v je ∈ V
pour générer CSNS. Nous résumerons ensuite itérativement graphique complet, où chaque itération agrège un SNS d'un
CSNS. Summarization du graphique continue jusqu'à ce que tous ses nœuds ont été visités. Nous présentons le pseudo-code
de notre cadre de projet dans l'algorithme summarization 2.
Internet

Dans notre approche summarization, nous regroupons chaque ensemble de noeuds en utilisant soit un super-nœud ou un nœud
virtuel, basé sur l'option permet une meilleure compression avec moins corrections. Lorsqu'un SNS est obtenu à partir d'un CSNS,
un super noeud fusionne en un seul noeud et leurs bords correspondants dans les bords des super. D'autre part, le nœud virtuel
agrège les bords par l'ajout d'un nouveau nœud dans le graphique. Étant donné que de nombreux graphiques du monde réel sont
rares en raison de la distribution des degrés de loi de puissance, donc il existe une forte proportion de noeuds avec des degrés
faibles. En particulier, il existe de nombreux noeuds ayant un seul voisin comme indiqué dans la distribution degré de graphiques à la
figure 5 . Application directe Ulsh sur ces nœuds, les besoins en mémoire pour stocker inutilement augmenter CSNSs du graphe
entier et nécessite plus de temps de calcul. Par conséquent, nous considérons 2 bonds voisinage de chaque noeud comme SNSC et
l'extrait de sns
Internet

il. Il est intéressant de résumer ces noeuds dans un noeud super offre toujours une compression de bord supérieur à celui en
ajoutant un nouveau nœud virtuel. Nous montrons ce fait en utilisant le théorème 1.

théorème 1 Étant donné un ensemble contenant des nœuds similaires que deux nœuds avec un maximum de deux communes
voisines, son agrégation en utilisant un super nœud fournit toujours une compression de bord supérieur à celui en ajoutant un nouveau
nœud virtuel.

Preuve Considérons un ensemble de nœuds similaires SNS = {v je , v j}, où v je et v j partager à la fois de leurs voisins, MCN, avec
l'un l'autre. Résumant ce SNS dans un super nœud comprime ses bords de | SNS | × | MCN | à | MCN | tout en ajoutant des
sorties de nœuds virtuels | SNS | + | MCN |
bords.

4.2 théorie derrière super et nœuds virtuels

Nous avons l'intention de résumer sites de réseautage personnel, par super combiné et nœuds virtuels approche, est d'exploiter la
structure communautaire existante dans un grand graphique. La compression directe de ces structures communautaires réduit
rapidement la taille d'un graphique. Lorsqu'un SNS est récupéré, nous choisissons soit super nœud ou nœud virtuel qui donne une
meilleure compression tout en produisant des corrections moindres. Pour un noeud super SNS ensemble réduit en un seul noeud et
ses bords correspondants forment un bord de super. De même, si SNS est un bi-clique, un nœud virtuel réduit ses bords communs
de | s × c | à | s + c |, fourni ensemble complet a chevauchement complet des voisins. Ici

s désigne des noeuds dans un SNS et c désigne leurs voisins communs. Depuis, Ulsh est basée sur une solution approximative (LSH),
de sorte qu'il peut délivrer en sortie des ensembles où les attributs homogénéité parmi leurs membres des noeuds est moins. Dans ce
cas, la compression en utilisant des noeuds virtuels offre une performance supérieure en termes d'aucune correction d'attribut depuis
que les bords de l'ensemble sont agrégés.

Nous comprenons que la densité d'un graphique a un impact majeur sur la création de super-nœuds et nœuds virtuels. Dans un
graphique dense, les nœuds partagent de nombreux voisins communs en raison de la connectivité haute entre ses nœuds membres.
Cela conduit à de nombreux noeuds sous la forme cliques, bi-clique et denses. Sous-graphes Dans cette situation, nous pouvons
créer soit super nœud ou nœud virtuel pour la compression. D'autre part, normalement le degré et la connectivité entre les nœuds
graphiques rares est faible. Ainsi, il existe moins de cliques et bi-cliques si compression par des noeuds virtuels est toujours moindre.
Dans de telles circonstances, un super nœud fusionne un ensemble ou même une paire de noeuds si elles ont un seul voisin
commun.

4.3 Récupération d'un SNS à partir d'un CSNS

Dans chaque itération d'UGS, nous récupérons un CSNS et le filtre pour produire une agrégation pour SNS. nœuds membres de chaque

CSNS ont différentes similitudes entre eux, il est donc nécessaire d'obtenir son sous-ensemble. Il peut y avoir de nombreux

sous-ensembles de chaque SNSC, mais nous avons l'intention de filtrer un grand sous-ensemble de taille qui regroupe de nombreux

nœuds, mais produit moins corrections. Dans cette section, nous vous proposons deux alternatives pour récupérer un SNS d'un CSNS.

4.3.1 SNS récupération en utilisant l'approche basée sur Bucket

La motivation de cette approche est de compter sur une collision de code de hachage dans le traitement LSH. Étant donné que chaque

code de hachage collision Aligne noeuds dans un seau, donc nous noeuds terme dans chaque godet CSNS et les utiliser comme point de

référence pour filtrer un SNS. Nœuds dans chaque CSNS


Internet

présentent des similitudes variables entre eux en raison de la collision de code de hachage unique, de sorte que leur agrégation directe ne

fournit pas au moins sommaire des coûts de LDM. Il est donc nécessaire de processus plus pour créer les sites de réseautage personnel. Dans

cette approche, nos critères traversal graphique est de visiter tous les seaux de toutes les tables de hachage.

Pour obtenir un SNS, nous choisissons le seau bk ayant la plus grande taille de toutes les tables de hachage. Un tel seau a
une probabilité plus élevée de taille pour produire un grand SNS, ainsi graphique peut être résumée en peu de temps. Motivée par
le fait que les noeuds ayant de multiples collisions de codes de hachage, ont élevé des similitudes entre eux. Par conséquent, nous
récupérons reste b - 1 seaux de chaque noeud membre sélectionné du bk d'identifier le seau avec nombre d'occurrences maximal,

bk max. Il y a une forte probabilité que les noeuds membre bk max sont très semblables les uns aux autres, car il montre plusieurs
collisions de code de hachage. Si le total des noeuds en cours bk sont ré, puis le total des seaux récupérés sont | b × d | dans le pire
des cas. Un pire des cas se produit lorsque les nœuds dans ces seaux ont simple collision code de hachage. Bien que, la probabilité
d'occurrence de pire des cas est rare, néanmoins résultant CSNS contient de nombreux nœuds, ce qui peut produire une grande
taille SNS.

Avec un SNS, chaque bk max contient encore des noeuds moins similaires aussi. Pour élaguer ces nœuds, nous nœuds du groupe
en bk max en utilisant leurs attributs et obtenir un sous-ensemble ayant des similitudes plus d'attributs et de voisinage. Ce
sous-ensemble est le SNS requis. Nous en cours de suppression
bk max de sa table de hachage, de sorte que nous avons un nouvel ensemble de noeuds pour chaque itération. Nous présentons pseudo-code de

cette approche dans l'algorithme 3 d'illustrer son étape par le traitement de l'étape.

4.3.2 SNS récupération en utilisant la requête approche par nœud

Dans cette approche, nous utilisons des noeuds de requête comme point de référence pour récupérer les SRS. Un grand point de référence

de taille approche par godet est associé à un espace de recherche plus large en termes de grands seaux pour compter les produits bk max. Ainsi,

en utilisant une approche basée sur une requête, nous visons à réduire la taille du point de référence et d'approche par randomisation seau.

Avec cette réduction, nous visons tenus à l'amélioration du temps sites de réseautage personnel d'exécution et une plus grande précision.

Nos critères traversal graphique de cette approche est de visiter tous les noeuds du graphe, où un nœud devient visité quand il est soit

sélectionné en tant que noeud de requête ou fait partie d'un SNS.

Dans chaque itération de cette approche, nous choisissons au hasard un noeud de requête q du graphique et de récupérer des
nœuds candidats similaires de tous les seaux à b tables de hachage, où il existe. Nous l'union de ces noeuds pour supprimer les
doublons et d'obtenir un CSNS. En utilisant q, nous taillons des noeuds ayant moins de similitudes attributs et voisinage pour filtrer un
SNS. noeuds ayant moins émondage similitudes d'attributs est considérablement tout droit maintenant, puisque nous avons besoin
Internet

Coauteur Blog politique


1000
1000

100
100

nœuds
nœuds

10 10

1 1
0 20 40 60 80 100 0 20 40 60 80 100

Degré Degré

Email Glisser

1000

1000000

100000
100
nœuds

nœuds
10000

10 1000

10 100

1 1
0 20 40 60 80 100 0 200 400 600 800 1000

Degré Degré

Figure 5 Répartition degré de graphiques utilisés pour des expériences

pour comparer les attributs de q avec chaque candidat noeud similaire. De même, nous utilisons ( 2 ) À des noeuds ayant des pruneaux

moins une similarité de voisinage avec q. Nous illustrons les détails de cette approche en utilisant l'algorithme 4, dans lequel les noeuds

ayant des coûts de compression positive et la plus grande de l'attribut que le seuil requis, sont agrégés comme un ensemble.

4.4 Évaluation de compression

Pour un SNS donné, nous adoptons un noeud super ou un nœud virtuel basé sur une compression plus élevée avec moins
corrections. On calcule le taux de compression pour chaque type de noeud en utilisant ( 8 ) et ( 9 ), Respectivement, qui
généraliser ( 2 ), Où SN et VN désignent des super noeud et le noeud virtuel, respectivement. Ici, E g et E S g désignent des bords g avant
et après l'agrégation. Cr Atribs
désigne des corrections d'attributs associés au super noeud potentiel. Il est une valeur normalisée
Internet

entre 0 et 1, qui est obtenu en utilisant la normalisation du min-max et soustrait de 1 à ajuster l'effet des
corrections d'attribut.
Par souci d'illustration, nous maintenant le calcul de la valeur actuelle de compression pour les deux types de noeuds à l'aide de la
figure 1 . En chiffres 1 a, nous affichons un {1 SNS, 2, 3, 4}, où les attributs de tous ses noeuds membres sont les mêmes. E g 12 est à la
fois pour le noeud et le noeud de super virtuel. Dans le cas d'un super nœud, on obtient 3 arêtes après compression, comme le montre
(b). Il y a 2 corrections de bord depuis une arête entre (1, 2) est interrompue et une paire (4, 7) apparaissent comme connecté, d'où

E S g est égal à 5. Pour min-max normalisation, la valeur maximale est de 4 et la valeur de min est égal à 0. Il n'y a pas de correction
d'attribut, la valeur normalisée d'où des corrections d'attribut est égal à 0 et la soustraction de 1 résultats en 1. L'insertion de ces valeurs

dans ( 8 ), Obtenu par compression de super noeud est 0,58. En cas de noeud virtuel par exemple dans (a), E S g 8 est puisqu'il y a 7 arêtes

après compression et une correction de bord en tant que noeuds 4 et 7 apparaissent sous la forme connectée. Ainsi, la compression à

l'aide nœud virtuel est 0,33. De même, envisager graphique échantillon dans (c) où chaque membre du jeu {1, 2, 3, 4} a une valeur

d'attribut unique. Dans cet exemple, la compression en utilisant des super noeud est de 0,14 alors que celle due au noeud virtuel est de

0,33, d'où un noeud virtuel est ajouté et affiché dans (d).

)
Compression (SN) = (| E G | - | E S G | × Cr Atribs (8)
|EG|

Compression (VN) = | E G | - | E S G | (9)


|EG|

5 expériences

Dans cette section, nous présentons une évaluation empirique de notre cadre proposé. Notre objectif à l'aide de ces
évaluations est d'analyser le rapport temps d'exécution et la compression par notre stratégie basé sur un ensemble
summarization. De même, nous voulons étudier l'efficacité de notre système Ulsh proposé. Tous les algorithmes sont mis en
œuvre en Java et sont testés sur Intel Core i7-3960X avec un processeur 3.30GHz et 36 Go de mémoire principale, ayant
édition d'entreprise 64 bits de Windows 7. Dans cet article, nous utilisons 10 bandes et 30 fonctions de hachage pour générer
des noeuds candidats similaires à Ulsh. Ces paramètres produisent un seuil de similarité de 0,464 en utilisant la formule (1 / b)
( 1/ r) [ 33 ]. Nous avons fixé ce seuil à faible similitude dans le présent document pour obtenir la majorité des candidats nœuds
similaires, tout en manquant seulement des nœuds ayant des similitudes très faibles. Nous fournissons des comparaisons
expérimentales entre les algorithmes suivants.

- BB-Ulsh: Ceci est notre approche de récupération à base SNS seau proposé qui est expliqué dans la section 4.3.1 . Le
facteur d'approximation de cette approche est bi-plié en raison de (i) Ulsh et (ii) Dependance sur un plus grand seau de
taille pour chaque SNS.
- QB-Ulsh: Ceci est notre approche proposée summarization à base de noeud de requête, présentée dans la section 4.3.2 .
niveau d'approximation dans cette approche est inférieure à celle de BB-Ulsh, donc nous nous attendons à montrer de
meilleures performances en termes de temps d'exécution et le taux de compression.

- répartition aléatoire [ 25 ]: Ce graphique est par paires méthode pour résumer un résumé graphique non attribué.
Nous comparons avec cet algorithme pour évaluer l'évolutivité de notre approche setbased. De plus, nous voulons
enquêter sur ce rapport, nous pouvons résumer un
Internet

attribué graphique de notre approche, par rapport à un graphique d'un résumé de non-attribué par répartition
aléatoire. Ainsi, Randomized sert une approche de base pour notre approche proposée.

- SA Cluster [ 53 ], CSM-IGS [ 28 ]: Ce sont des algorithmes de classification graphique qui tiennent compte des similitudes et
des attributs de quartier sur la base marche aléatoire itérative et plus court chemin entre les noeuds respectivement. Pour
chaque approche de regroupement graphique, nous générons des grappes égal au nombre de super-noeuds dans
QB-Ulsh. Nous résumons ces groupes en super noeuds et super bords pour comparer les corrections d'attributs ainsi que
le taux de compression du graphique de synthèse résultant. Nous comparons ces deux approches depuis le graphique en
fonction des similitudes summarization de voisinage et d'attribut, a une grande ressemblance avec la détection de la
communauté et le regroupement graphique. Nous avons choisi SA-Cluster pour la comparaison, car il est l'œuvre de
pionnier dans le regroupement graphique en fonction des similitudes structurelles et attributs. De même, l'IGS-CSM est
l'un des travaux récents dans ce domaine.

- Basic-LSH: Nous comparons avec base-LSH, expliqué à la section 2.2 , L'approche pour évaluer l'efficacité de Ulsh. Nous
utilisons l'approche de compression basée sur une requête de base noeud pour-LSH.

5.1 datasets

Nous utilisons des ensembles de données suivants pour les comparaisons, dont la distribution est le degré affiché dans la figure 5 .

- Co-auteur [ 28 ]: Ceci est un graphique de co-auteur de DBLP ayant 10,000 65,734 noeuds et des arêtes de quatre zones
de recherche, y compris l'extraction de données (DM), la recherche d'informations (IR), l'intelligence artificielle (AI), et la
base de données (DB). Il existe deux attributs descriptifs de chaque noeud: prolifique et le sujet principal. Attributs
prolifiques peut avoir 3 valeurs possibles en fonction du nombre de publications; élevé, moyen et faible. De même,
l'attribut principal sujet peut avoir 100 valeurs possibles.

- Blog politique [ 53 ]: Ce réseau contient 1490 blogs Web sur la politique des Etats-Unis, ayant 19,090
bords entre les blogs. Il y a un attribut associé à chaque Web-blog (noeud), se référant l'inclinaison
politique soit libéral ou conservateur.
- Email [ 26 ]: Il est le réseau de communication par courrier électronique d'Enron [50], où chaque personne est un noeud et un email

entre deux personnes est un bord. Il y a 4256 au total nœuds et 10630 bords. Chaque nœud est attaché avec 5 attributs basés sur la

longueur du sujet, temps d'envoi, taille de courrier électronique, la taille du texte électronique et taille des pièces jointes.

- Skitter [ 19 ]: Skitter est un graphique de la topologie Internet. Nous effectuons des expériences en utilisant son

1,1 million de noeuds et 7 millions bords. Il n'y a pas d'attributs attachés à chaque noeud, donc nous créons 3
attributs et générer aléatoirement leurs valeurs, où chacun a cardinalité de 100.

5.2 Analyse des temps d'exécution

Nous proposons la comparaison du temps d'exécution des algorithmes de la figure 6 . Nous montrons des comparaisons avec
répartition aléatoire que depuis IGS-CSM et SA-Cluster a du second degré et plus complexes de temps de l'ordre respectivement [ 28 ],
D'où leur exécution n'est pas terminé à temps comparable.
Internet

Coauteur Blog politique

0,25 1
10
Temps (Sec)

Temps (Sec)
0,0625

0,1 1

0.015625

0,01 0.0039063
1 2 3 4 5 6 sept 8 9 dix 2 4 6 8 dix 12 14

Nœuds (en milliers) Noeuds (centaines)

QB-Ulsh BB-Ulsh Randomized QB-Ulsh BB-Ulsh Randomized

Email Glisser
100000

0,5 1
10000

0,25 1000

Temps (Sec)
Temps (Sec)

0,125 100

0,0625 10

0,03125 1
5 dix 15 20 25 30 35 40 1 2 3 4 5 6 sept

Noeuds (centaines) Edges (en millions)

QB-Ulsh BB-Ulsh Randomized QB-Ulsh BB-Ulsh Randomized

Figure 6 Comparaison des temps d'exécution: un algorithme prend beaucoup de temps d'exécution plus faible, montre une meilleure performance

Nous comprenons que la distribution des degrés de chaque graphique a un effet essentiel sur le temps d'exécution des
algorithmes. Ce fait est évident car il y a une dégradation constante dans le temps d'exécution de répartition aléatoire avec la
diminution de la faible densité des graphiques, comme le montre la distribution de leur degré de la figure 5 a à d. Lorsqu'un graphique
est rare, super-sage paire noeud stratégie de création de répartition aléatoire efficace identifie nécessaire paires de noeuds pour la
compression. D'autre part, notre approche ensembliste proposée montre toujours une meilleure performance dans tous les
graphiques, quel que soit leur taux de maigreur. En cas de petit graphique de taille, de la figure 6 a à c, la différence de performance
entre les approches proposées et répartition aléatoire est plus petit, mais il devient ordre de grandeur Skitter qui est le plus grand
graphique, comme le montre la figure 6 ré. Randomized ne peut pas effectuer mieux dans les grands graphes et denses puisque
chaque noeud a un grand nombre de 2 bonds loin voisins. Alors, traversant 2-houblon liste des voisins de chaque noeud de requête
pour identifier les meilleurs consomme noeuds compressibles en cours d'exécution proportionnel de temps à leur taille. De plus, la
stratégie de l'agrégation des paires agrégats seulement une paire de noeuds dans chaque itération. Il est intéressant de noter qu'il
peut y avoir plusieurs paires de noeuds qui fournissent même rapport le plus élevé de compression. Cependant, une seule paire est
sélectionnée pour la compression, donc beaucoup de temps de calcul est gaspillée par répartition aléatoire.

En comparant le temps d'exécution de QB-Ulsh et BB-Ulsh, on trouve QB-Ulsh montre de meilleures performances dans
chaque expérience. BB-Ulsh consomme plus de calculs que son homologue en raison de seaux de tri et leur exploration
rigoureuse pour identifier un SNS de chaque SNSC, comme le montre la figure 6 a à c. En outre, la distribution degré de ces
graphiques est clairsemée qui à son tour produit un grand nombre de seaux dans chaque table de hachage. Dans une
grande table de hachage de taille, il y a beaucoup de seaux contenant moins nombre de candidats noeuds similaires. Par
conséquent, un grand temps de calcul est consommé en traversant les seaux et d'identifier
Internet

requis sites de réseautage personnel. La preuve de cette affirmation est évidente par contradiction en utilisant Skitter, ayant une distribution

degré plus denses, où les deux algorithmes consomment du temps d'exécution similaire.

5.3 Analyse de compression

Nous maintenant l'évaluation actuelle du taux de compression par les algorithmes, et le montrer à la figure sept . Rappelons que
Randomized est évaluée sur les graphes non attribuées, alors que Basic-LSH considère que la similarité de voisinage entre les
nœuds pour summarization. Nous ne pouvions pas exécuter SA-Cluster et IGS-CSM sur Skitter depuis SA-Cluster produit sur
une erreur de mémoire et IGS-CSM ne pouvait pas produire la sortie dans un délai raisonnable. Le taux de compression est
pourcentage du coût sommaire et coût initial du graphique avant summarization, où le coût est la somme des bords super et
corrections de pointe.

Nous observons que QB-Ulsh fournit un taux de compression comparable à celle par répartition aléatoire dans tous
les cas. Considérant que, il ne peut pas de meilleurs résultats que Randomized depuis répartition aléatoire est libre de
la contrainte d'attributs. De plus, le nœud de super-sage paire stratégie de création d'agrégats Randomized chaque
paire qui fournit un taux de compression le plus élevé. Par conséquent, il offre une meilleure compression que tous ses
algorithmes concurrents. En comparaison avec SACluster et IGS-CSM, QB-Ulsh fournit une compression similaire par
des noeuds. Compression par agrégation des nœuds est similaire par ces trois approches puisque nombre de grappes,
dans les deux représentants du regroupement graphique, sont égal au nombre de super-noeuds dans QB-Ulsh. D'autre
part, QB-Ulsh offre nettement meilleur taux de compression de bord de SA-Cluster et IGS-CSM dans toutes les
évaluations. k

groupes ayant des attributs élevés et les similitudes de quartier. Sur la mise en valeur très grande
k, égal au nombre de super-noeuds dans QB-Ulsh qui sont des milliers, les deux SA-Cluster et IGS-CSM produisent des
grappes de qualité inférieure, dont le produit d'agrégation de grandes corrections de pointe. Création de clusters ayant moins
de similitude de voisinage, génère des corrections de pointe pour tous les voisins non partagés, donc moins la compression de
bord est réalisé. En comparaison avec base-LSH, nous l'observons fournit un taux de compression similaire à celle par
QB-Ulsh puisque les deux approches ont la même identification SNS fondé sur une requête et nœud approche summarization.

Une comparaison des taux de compression par QB-Ulsh et BB-Ulsh révèlent que l'identification de chaque SNS contre un
noeud d'interrogation permet une meilleure compression que de trouver une des seaux exploration. Dans chaque itération de
BB-Ulsh, nous comptons sur un seau ayant le nombre le plus grand d'occurrence d'identifier les noeuds ayant voisinage élevé et
attributs similitudes. Cependant, en outre souligne groupe par opération attributs similitude entre son sous-ensemble de noeuds
dans donné

Taux de compression par Edges Taux de compression par des nœuds

Coauteur Blog politique Email Glisser Coauteur Blog politique Email Glisser
100% 100%

90% 90%

80% 80%

70% 70%
Ratio de compression
Ratio de compression

60% 60%

50% 50%

40% 40%

30% 30%

20% 20%

10% 10%

0% 0%
QB-Ulsh BB-Ulsh Randomized de base-LSH SA-Cluster CSM-IGS QB-Ulsh BB-Ulsh Randomized de base-LSH SA-Cluster CSM-IGS

Figure 7 l'évaluation du taux de compression: un algorithme produisant graphique de synthèse ayant un rapport de compression le plus bas, a une meilleure
performance
Internet

seau, donc similitude de voisinage est compromise. D'autre part, en BB-Ulsh, nous ne pouvons pas omettre le groupe par
opération puisque dans ce baquet entier sera déclaré comme SNS. Cette omission est moins optimale car chaque seau
contient toujours des noeuds moins similaires. Ceci est la raison pour laquelle dans les données Blog politique où chaque
noeud n'a qu'un seul attribut, BB-Ulsh fournit des noeuds plus élevés par compression par rapport à celui par QB-Ulsh
puisque les attributs de chaque similarité est maximale SNS. Cependant, ce faisant, BB-Ulsh a à bord de compromis taux
de compression par rapport à son homologue.

En conclusion, nous constatons que la fourniture d'un taux de compression comparable à la stratégie exhaustive
d'agrégation de répartition aléatoire par paires, est une meilleure approche summarization QB-Ulsh pour un graphique
multi-attribué.

5.4 Efficacité de Ulsh

Nous évaluons maintenant l'efficacité de notre approche Ulsh. Nous mesurons l'efficacité (i) en comparant le nombre de
super-nœuds et nœuds virtuels, et (ii) par le nombre de corrections d'attributs dans un graphique sommaire. Lorsque les noeuds
membres d'un SNS a moins homogénéité des attributs, un noeud virtuel est créé de telle sorte que le graphique de synthèse a moins
corrections d'attribut. Par conséquent, le graphique de synthèse résultant est associé à nombre moins de corrections d'attributs.
Nous lançons un appel Ulsh pour être efficace quand on obtient un graphique de synthèse ayant des noeuds moins virtuels et moins
corrections d'attributs.

Super et 5.4.1 Comparaison des noeuds virtuels

Nous proposons la comparaison des super-noeuds et des noeuds virtuels dans la figure 8 . On observe que les deux approches
proposées produisent des noeuds virtuels moins dans Coauteur, Blog politique et Skitter que Basic-LSH. Fait intéressant, il n'y a pas
de nœuds virtuels dans les données Email. Nous comprenons que le flux de messagerie est normalement parmi les personnes à
même hiérarchie organisationnelle, qui ont des modèles de communication similaires et les goûts (attributs). Par conséquent, les
attributs similitude est déjà élevé ainsi, même de base-LSH crée des super noeuds plutôt que les nœuds virtuels. Il n'y a pas de nœuds
virtuels par BB-Ulsh dans les données Blog politique. Dans ce graphique, chaque noeud est attaché

Super noeuds virtuels contre les nœuds

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

0%
SN VN SN VN SN VN SN VN

Coauteur Blog politique Email Glisser

QB-Ulsh BB-Ulsh Basic-LSH

Figure 8 Comparaison entre les super-noeuds (SN) et noeuds virtuels (VN): un algorithme avec moins nœuds virtuels a de meilleures
performances
Internet

avec seulement attribut de noeud. Par conséquent, le groupe par l'exploitation de BB-Ulsh crée toujours un SNS ayant la même
valeur d'attribut pour tous ses nœuds membres. Dans Skitter, chaque noeud possède des attributs généré de façon aléatoire, donc il
n'y a pas d'harmonie entre les valeurs d'attribut et de voisinage. Toutefois, les deux approches proposées produisent encore des
noeuds virtuels moins que Basic-LSH. Dans ce graphique, la différence entre le nombre de nœuds virtuels par des approches
proposées et BasicLSH est relativement plus faible que dans d'autres graphiques, mais, Ulsh assure encore récupérer chaque SNS
ayant une hétérogénéité moindre des attributs.

5.4.2 Comparaison des corrections d'attributs

Nous évaluons maintenant l'efficacité de l'aide Ulsh corrections d'attributs d'un graphique sommaire. Il convient de noter qu'un
graphique de synthèse hautement compressé contient moins nombre de noeuds super. Un tel résumé graphique peut avoir de
grandes corrections d'attributs depuis les noeuds même moins similaires sont agrégés en super-nœuds. Dans une situation idéale,
les corrections d'attributs d'un graphique sommaire devrait être minime, ainsi que des super noeuds. De plus, les corrections
d'attributs devraient être en baisse sur le pourcentage croissant de minhashes d'attributs (minhash paramètre de pondération
introduit dans la section 3.1 ) Dans Ulsh. Nous affichons des corrections d'attributs ainsi que des super noeuds du graphe de
résumé de chaque jeu de données, avec plus ou moins le pourcentage de minhashes d'attributs dans la figure 9 . Les résultats des
attributs corrections ainsi que super-nœuds sont constants dans toutes les évaluations pour Basic-LSH, SA-Cluster et IGS-CSM,
car ils ne nécessitent pas minhashes d'attribut.

Nous observons que SA-Cluster et IGS-CSM produits graphiques de synthèse avec les plus grands corrections
d'attributs dans chaque comparaison. Tant le regroupement graphique représentant

Coauteur Blog politique 0 17 33 50 67

17 33 50 0 67 83 100 83 100
100% 100%

90% 90%

80% 80%

70% 70%

60% 60%

50% 50%

40% 40%

30% 30%

20% 20%

10% 10%

0% 0%
SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes
AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr
AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

QB-Ulsh BB-Ulsh 50% BB-Ulsh 100% Basic-LSH SA-Cluster CSM-IGS QB-Ulsh BB-Ulsh 100% de base-LSH SA-Cluster CSM-IGS

Email Glisser

17 33 50 0 67 83 100 17 33 50 0 67 83 100

100% 100%

90% 90%

80% 80%

70% 70%

60% 60%

50% 50%

40% 40%

30% 30%

20% 20%

10% 10%

0% 0%
SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes

SuperNodes
SuperNodes

SuperNodes

SuperNodes

SuperNodes
AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

AttribCorr

QB-Ulsh BB-Ulsh 17% BB-Ulsh 33% Basic-LSH SA-Cluster CSM-IGS QB-Ulsh BB-Ulsh 33% BB-Ulsh 67% Basic-LSH

Figure 9 Évaluation de l'efficacité de l'aide Ulsh corrections d'attributs: un algorithme moins des corrections d'attribut a de meilleures
performances
Internet

approches tiennent compte des similitudes de voisinage et les attributs pour chaque cluster. Cependant, leurs stratégies de marche
aléatoire et plus court chemin respectif soulignent fortement la similarité structurelle entre les nœuds de chaque groupe, ce qui
entraîne moins tendance vers similitude des attributs. Un tel déséquilibre de mise au point, génère plus de corrections d'attributs pour
chaque nœud super. Au cours d'expériences, nous avons observé un comportement surprenant tant par les algorithmes de
regroupement graphique. Mettre en place k pour le nombre de grappes égal à compter des super noeuds dans QB-Ulsh, les deux
SA-Cluster et IGS-CSM générer un groupe très important et de garder tous les autres noeuds comme un groupe d'une taille. Un tel
grand groupe de taille est incapable d'attributs d'équilibre et les similitudes de quartier, d'où les résultats dans un grand nombre de
corrections lorsqu'ils sont regroupés en un super noeud. Cela indique que les approches existantes de mise en cluster graphique ne
créent pas des clusters équilibrés lorsque la taille de k est un très grand nombre.

En comparaison avec base-LSH, nous trouvons produit également plus de corrections d'attributs que les approches
proposées. Aligne base-LSH nœuds en fonction de leur similitude de voisinage que pour chaque jeu, ce qui ont donc moins
SRS attributs d'homogénéité. D'autre part, nos approches proposées produisent des corrections d'attributs moins dans toutes
les comparaisons, car Ulsh considère également les deux types de similitudes.

Pour effectuer une auto-comparaison entre les approches proposées, nous analysons BB-Ulsh avec pourcentage variable d'attributs de

similarité dans son groupe par l'article, pour montrer ses effets sur les corrections d'attributs. Il y a deux cas où les approches proposées ne

produisent pas de corrections d'attributs: (i) 100% attributs similitude BB-Ulsh, et (ii) minhashes d'attributs 100% dans les deux BB-Ulsh et

QB-Ulsh. Cela se produit parce que maintenant se concentrer ensemble est sur la similitude des attributs entre les nœuds dans chaque série.

Avec ces paramètres, la compression en utilisant des super noeuds est moins car il existe moins des noeuds avec 100% de similarité des

attributs dans un graphique. Dans chaque comparaison, nous constatons que BB-Ulsh génère des corrections d'attributs ou moins similaires que

son homologue. BB-Ulsh tire parti de son groupe par article qui impose d'avoir une grande similarité des attributs de chaque SNS. cependant, il

montre une augmentation des corrections d'attributs de co-auteur et graphiques Email, avec une augmentation de minhashes d'attributs. Cela se

produit parce que avec un pourcentage élevé de minhashes d'attributs, nous obtenons de grande taille contenant des noeuds SRS attributs

compatibles. Cependant, 100% des attributs similitude est toujours pas garanti pour chaque grande taille SNS, qui se traduit par plus de

corrections d'attributs. De plus, un des noeuds plus compression par BB-Ulsh est également une raison de plus des corrections d'attributs. Nous

observons que les deux QB-Ulsh et BB-Ulsh avec 50% des attributs de similarité dans son groupe par clause, génèrent le même nombre de

corrections d'attributs quand il y a 50% des attributs minhashes dans Ulsh, qui montrent un équilibre entre le quartier et les attributs des

similitudes. Cela se produit parce que avec un pourcentage élevé de minhashes d'attributs, nous obtenons de grande taille contenant des

noeuds SRS attributs compatibles. Cependant, 100% des attributs similitude est toujours pas garanti pour chaque grande taille SNS, qui se

traduit par plus de corrections d'attributs. De plus, un des noeuds plus compression par BB-Ulsh est également une raison de plus des

corrections d'attributs. Nous observons que les deux QB-Ulsh et BB-Ulsh avec 50% des attributs de similarité dans son groupe par clause,

génèrent le même nombre de corrections d'attributs quand il y a 50% des attributs minhashes dans Ulsh, qui montrent un équilibre entre le

quartier et les attributs des similitudes. Cela se produit parce que avec un pourcentage élevé de minhashes d'attributs, nous obtenons de grande taille contenant des

En Skitter, nous observons un schéma similaire de diminution des corrections d'attributs avec une augmentation de minhashes
d'attributs pour nos méthodes proposées. Cependant, la pente de la compression par super-nœuds est différente de celle des trois
autres graphiques. Nous trouvons que les attributs générés aléatoirement pour chaque noeud à la raison primordiale. Une
génération aléatoire d'attribut ne produit aucune homogénéité entre les attributs et les similitudes de voisinage. Une augmentation
de minhashes d'attributs dans ce cas, les sorties attributs compatibles uniquement SRS. Ainsi, la compression en utilisant des
nœuds super-tombe. Nous constatons que Basic-LSH fournit un graphique sommaire avec moins super-noeuds. Cependant, il
produit beaucoup de grandes corrections d'attributs par rapport aux approches proposées.

En conclusion, nous constatons que BB-Ulsh fournit plus de contrôle sur les corrections d'attributs qui peuvent être utiles pour
les applications ayant davantage l'accent sur les attributs de similitude que celle de similitude de voisinage.
Internet

6 Travaux connexes

Dans cette section, nous présentons un aperçu des études pertinentes à nos recherches dans ce document.

graphique à base d'agrégation summarization Dans ces méthodes, les noeuds ayant voisinage commun sont effondrés en
super noeuds et leurs bords correspondants sont compressés en bords super. Le résumé qui en résulte est un graphique
compressé qui soutiennent directement l'interrogation et l'analyse. Ces méthodes utilisent des calculs de similarité par paire
technique pour créer des super noeuds [ 18 , 25 , 34 , 46 ]. technique par paires assure taux de compression élevé puisque chaque
fusion regroupe une paire de noeuds ayant un rapport de compression plus élevé que le reste des noeuds dans le graphe.
Cependant, cette recherche exhaustive est inefficace pour pairwise un grand graphique de taille. Koutra et al. [ 16 , 17 ] Présenter un
procédé de compression extensible en utilisant la multiplication matrice-vecteur [ 22 ] Sur la plateforme Hadoop. Leur objectif est
d'identifier les structures sous-graphes comme des cliques, des chaînes, des graphiques linéaires, et les étoiles pour la
visualisation, puisque ceux-ci sont répandues dans de nombreux graphiques du monde réel. Les auteurs utilisent aussi le principe
LDM pour créer un résumé sans perte d'un graphique, avec les exigences d'espace de stockage minimum. Considérant, l'efficacité
de leur approche, ils étendent leur travail pour résumer un graphique dynamique [ 40 ]. Nous constatons que leur solution de
multiplication matrice-vecteur en utilisant [ 22 ] Est évolutive, cependant, il ne peut pas prendre les attributs de sommet en
considération. Tian et al. [ 45 ] Résumer un graphe attribué en fonction des attributs et des types de relation entre noeuds similitudes.
Cependant, leur méthode est pas non plus évolutive en raison de leur technique de compression par paires. De plus, ils se
détendent contrainte de similarité type de relation pour une meilleure compression. Ainsi, ils se fondent uniquement sur des nœuds
similitudes attributs entre les nœuds. Contrairement aux études existantes, l'unicité de notre approche proposée est l'agrégation
basé sur un ensemble comme une alternative à la fusion par paires. De plus, nous offrons une nouvelle stratégie en utilisant des
super noeuds summarization et nœuds virtuels qui correspond mieux à la présentation d'un résumé d'un graphique attribué.
Compte tenu de l'utilité du graphique résumé, récemment, il a également été utilisé pour la diffusion de l'information [ 32 ] Et flux
d'influence [ 41 ].

Nous observons que les phénomènes terrestres de notre approche proposée peut être liée à SimRank [ 13 ], Une mesure bien
connue de similarité contexte structurel dans un graphique. SimRank déclare une paire de noeuds similaires si elles ont en liaisons de
nœuds similaires. Il est basé sur le modèle de calcul de similarité inefficace récursive, d'où de nombreuses versions existent
accélérées dans la littérature [ 20 , 50 ]. Notre méthode proposée, d'autre part, est une approche locale qui déclare une paire ou un
ensemble de nœuds comme similaires, si elles ont quartier similaires. Par conséquent, chaque agrégation à l'aide d'un super noeud
virtuel ou est localement optimale, contrairement objectifs SimRank pour solution global optimum. De même, fréquente des stratégies
minières [sous-graphes sept , 54 ] Peuvent être adoptées pour identifier les modèles de noeuds pour la compression. Une contrainte
comme [ 54 ] Peut être appliqué pour obtenir des noeuds ayant des attributs d'homogénéité ainsi que la similarité de voisinage, de
sorte que résumé résultante introduit nombre minimum de corrections. Nous observons que ces techniques d'extraction ne visent qu'à
trouver certains types de modèles dans chaque itération, donc tout autre sous-graphes appropriés pour la compression ne peuvent
pas être pris en compte.

graphique OLAP OLAP Exécution (Online Analytical Processing) sur un graphique a gagné beaucoup d'attention dans le passé
récent [ 12 , 49 , 51 , 52 ]. Dans le graphique OLAP, la mesure est un graphique agrégé qui est analysée le long de dimensions
topologiques (noeud ou attributs bord, les types de noeuds). Graphique OLAP fournit des statistiques quantitatives sur les
interactions entre les nœuds, qui
Internet

est utile pour analyser les tendances et les tendances générales dans un grand graphique. Cependant, ils éclipser la similarité de
voisinage entre les nœuds, à la différence [ 31 ] Qui considère centralité de noeuds, en tant que mesure de l'agrégation. Notre
système de compression proposé, à cet égard, fournit une plate-forme enrichie pour analyser des informations structurelles, ainsi
que les attributs de corrélation.

Graphique regroupement et la détection de communautés But du regroupement graphique et des techniques de détection
de la communauté est de trouver denses régions homogènes dans un graphique afin d'identifier les noeuds ayant des relations solides
entre eux. Les premières études dans cette ligne de travail considèrent que le graphique non attribué [ 6 , dix ], Mais de nombreuses
études récentes fonctionnent sur des graphiques attribués [ 30 , 36 , 48 , 53 ]. Nous observons que nos recherches proposées dans ce
document a une grande ressemblance avec ces méthodes. Base de nos deux ouvrages existants et est de trouver des sous-structures
denses, cependant, nous trouvons spécifiques qui ont des sous-graphes nombre minimal d'arêtes non communes. Depuis une
structure de sous-graphe donné peut avoir une connectivité dense entre ses nœuds membres, mais ils peuvent aussi avoir un certain
nombre de voisins non communs. L'agrégation de ces sous-graphes résultats dans un grand nombre d'erreurs de pointe, qui ne produit
pas un graphique de synthèse très compact. Par exemple, à la fois locale [ 5 ] Et mondial [ 44 ] Les techniques de détection
communautaire visent à trouver un sous-graphe dense en utilisant la mesure de degré minimum [ 39 ]. Cependant, un sous-graphe
résultant est dense sous-graphe induit dont les bords non communs ne sont pas considérés.

Contrairement aux nœuds globaux similaires trouver des stratégies [ 27 , 44 ], Nous utilisons une politique de recherche de sous-graphe

locale comme [ 5 ] Pour éviter de traverser le graphique entier pour chaque sous-graphe. Dans notre cas, nos critères de terminaison est

également traversal du graphe entier, mais chaque itération localement les calculs des noeuds de produit avec dans certains voisinage.

recherche efficace de similarité en utilisant LSH LSH est une technique approximative pour trouver des objets similaires dans
l'espace de grande dimension [ 9 ]. Il vise à réduire l'espace de recherche pour la détection d'objets similaires en effectuant des
comparaisons de similarité entre les objets uniquement avec les mêmes codes de hachage. Considérant que, principal de LSH est sur
la recherche du plus proche voisin rapide pour la distance euclidienne, la distance de Hamming et la similitude cosinus [ 47 ]. Dans ces
derniers temps, LSH minhash sage a été utilisé avec succès pour trouver des structures denses de sous-graphes [ 8 , 11 , 24 , 36 , 37 ]
Pour la classification graphique et la détection de la communauté. Avec l'objectif de trouver des noeuds avec une structure de voisinage
similaire, LSH se rapproche efficacement similitude Jaccard entre les nœuds afin d'éviter des calculs explicites de similarité. Dans cet
article, nous bénéficions également de la recherche de similarité efficace par LSH pour trouver des nœuds similaires dans un
graphique. Cependant, en utilisant directement LSH sur un graphe attribué ignore la similitude des attributs entre les nœuds. Nous
avons donc mis en place un système de hachage pour LSH minhash-sage de considérer les attributs ainsi que les similitudes de
quartier.

La complexité et l'examen conception de la solution Nous maintenant la complexité actuelle, ainsi que des comparaisons de
conception de solutions avec des approches représentatives dans le domaine des techniques de partitionnement de graphe. Nous utilisons

maintenant de façon interchangeable le groupe de mot et de la communauté pour un souci de concision.

Nous observons que objectif de regroupement des graphes et des approches de détection de la communauté est de partitionner un

graphique de telle sorte que les bords intra-cluster sont maximales et les bords inter-clusters sont au minimum. Une clique ayant des grappes

comme la structure est hautement souhaitable pour ces techniques. Considérant que, ces structures sous-graphes sont également utiles pour

nos approches proposées pour créer un graphique de synthèse très compact. Cependant, avec une augmentation de la taille d'un cluster, le

nombre de
Internet

voisins non communs entre ses nœuds membres augmentent également. Par conséquent, un grand nombre d'erreurs de pointe de

chaque groupe sont attendus. De plus, les attributs d'homogénéité dans les grandes grappes de taille réduit aussi, par conséquent, des

erreurs d'attributs augmentent également. Au contraire, le graphique localise de petite taille summarization cliques, bi-cliques et

sous-graphes bipartites. En règle générale, de nombreuses relations réelles existent dans ce format sous-graphes, d'où sont facilement

localisables et compressé avec moins nombre de corrections. Par conséquent, nous constatons que les solutions de clustering graphique

ne peuvent pas être adoptées spécifiquement pour créer le graphique de résumé concis avec nombre minimum d'erreurs.

Perozzi et al. [ 30 ] Présent algorithme FocusCo pour obtenir les clusters et les valeurs extrêmes en fonction des attributs de noeuds

fournies par l'utilisateur. FocusCo est un algorithme en temps linéaire où la sous-noeuds membres de chaque groupe ont des valeurs

pour les attributs donnés. Alors, les auteurs solution proposée est évolutive, cependant, il ne vise pas à créer des clusters où les valeurs

de tous les attributs des nœuds membres sont les mêmes. Par conséquent, FocusCo peut produire un grand nombre de corrections

d'attributs. De même, Zhou et al. [ 53 ] Proposent également une solution pour générer k les grappes d'un grand graphique attribué. Leur

solution nécessite n 2 aléatoires comparaisons de distance en fonction de marche-en utilisant la multiplication de matrices pour un graphe

présentant n nœuds, ne peuvent donc pas être appliqué sur un grand graphique, comme on l'observe dans la section 5.2 . Fournir une

solution évolutive, Yang et al. [ 48 ] Présenter un algorithme en temps linéaire pour identifier des groupes qui se chevauchent dans un

graphe attribué. Récemment, Lei Shi et al. [ 41 , 42 ] Flux actuel d'influence graphique à base technique de compression. Les auteurs ont

proposé des utilisations de technique matrice non négative factorisation à base de solution de compression. Ils prouvent encore à être

équivalent à noyau k-means clustering. Leur solution identifie efficacement les grappes avec une forte ressemblance de voisinage,

cependant, il est limité à générer uniquement

k grappes nœuds. Cette application aligne dans le sens des solutions évoquées ci-dessus, d'où mêmes problèmes de grandes
corrections est prévu. En outre, solution factorisation-matricielle nécessite la complexité de l'espace quadratique et ne peut pas
être appliquée à un grand graphique de taille. D'autre part, nos objectifs de solution proposée pour générer un nombre minimum
de corrections un graphique de synthèse en comprimant sous-graphes plus petits. Base de notre solution est basée sur LSH qui
est un algorithme de recherche de similarité du temps sous-linéaire, d'où notre complexité temporelle est limitée par le temps
linéaire.

7. Conclusion

Dans cet article, nous ciblons un véritable phénomène de la vie des réseaux sociaux, à savoir, les personnes présentant des

caractéristiques similaires ont généralement des amis communs. Sur la base de ce concept, nous avons proposé une technique de

compression graphique sans perte en utilisant LSH de sorte qu'un grand graphique peut être efficacement compressé pour le traitement en

mémoire. Étant donné que les techniques de LSH existantes dans les graphes considèrent donc que la similarité de voisinage entre les

nœuds, nous avons proposé un schéma de hachage pour LSH afin qu'il puisse également des attributs incorporer similitude. De plus, nous

avons présenté une nouvelle approche graphique par summarization unifiant super nœud et le concept de nœud virtuel. Les résultats

expérimentaux sur des graphiques réels et synthétiques, nous ont fourni des résultats supérieurs qui prouvent l'efficacité de notre solution

proposée. À l'avenir, nous prévoyons d'étendre notre approche du temps pour summarization l'évolution des graphiques hétérogènes.

Reconnaissance Ce travail a été soutenu par la subvention de la Fondation nationale de recherche de Corée (NRF), financé par le gouvernement
de Corée (MEST) (No.2015R1A2A2A01008209).
Internet

Les références

1. Boldi, P., Vigna, S .: Le cadre webgraph i: les techniques de compression. Dans: Actes de la 13e conférence internationale sur
le World Wide Web, pp 595-602.. ACM (2004)
2. Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Rajagopalan, S., Stata, R., Tomkins, A., Wiener, la structure J .: Graphique dans le
Web. Comput. Netw. 33 ( 1), 309-320 (2000)
3. Broder, AZ, Glassman, Caroline du Sud, Manasse, MS, Zweig, G .: regroupement Syntactic du Web. Réseaux informatiques et systèmes
RNIS 29 ( 8), 1157-1166 (1997)
4. Chierichetti, F., Kumar, R., Lattanzi, S., Mitzenmacher, M., Panconesi, A., Raghavan, P .: Sur la compression des réseaux sociaux. Dans:
Actes du 15 SIGKDD conférence internationale sur la découverte des connaissances et l'exploration de données, pp 219-228.. ACM
(2009)
5. Cui, W., Xiao, Y., Wang, H., Wang, W .: Actes de la conférence internationale ACMSIGMOD 2014 sur la gestion des données.
ACM (991)
6. Dourisboure, Y., Geraci, F., Pellegrini, M .: Extraction et classification des communautés implicites denses dans le graphique Web. ACM
Trans. Web (TWEB) 3 ( 2), 7 (2009)
7. Elseidy, M., Abdelhamid, E., Skiadopoulos, S., Kalnis, P .: Grami: sous-graphe fréquentes et extraction de motifs dans un seul grand
graphique. Compte rendu de la dotation VLDB sept( 7), 517-528 (2014)
8. Gibson, D., Kumar, R., Tomkins, A .: Découverte de grands sous-graphes denses dans les graphiques massifs. Dans:. Actes de la 31ème Conférence
internationale sur des bases de données très volumineux, VLDB Endowment, pp 721-732 (2005)

9. Gionis, A., Indyk, P., Motwani, R., et al .: similarité de recherche dans les hautes dimensions via le hachage. Dans: VLDB, vol 99, pp, 518-529
(1999)
10. Girvan, M., Newman, ME: structure communautaire dans les réseaux sociaux et biologiques. Proc. Natl. Acad. Sci. 99 ( 12), 7821-7826
(2002)
11. Hern' Andez, C., Navarro, G .: représentations compressés pour le Web et les graphiques sociaux. Knowl. Inf. Syst.
40 ( 2), 279-313 (2014)
12. Jakawat, W., Favre, C., Loudcher, S .: Olap sur les réseaux d'information: Un nouveau cadre pour traiter les données bibliographiques. Dans: nouvelles
tendances dans les bases de données et des systèmes d'information, pp 361-370.. Springer (2014)
13. Jeh, G., Widom, J .: Actes de la huitième conférence internationale SIGKDD sur la découverte des connaissances et l'exploration de
données, p. 538-543. ACM (2002)
14. Khan, KU, Nawaz, W., Lee, YK: approche unifiée basée sur Set pour le graphique attribué summarization. Dans: Proceedings of Big Data
et Cloud Computing (BdCloud), 2014 IEEE Quatrième Conférence internationale sur l'informatique sociale et réseautage (SocialCom).
IEEE (2014)
15. Khan, KU, Nawaz, W., Lee, YK: approche approximative Set base pour summarization graphique sans perte. L'informatique 97 ( 12),
1185-1207 (2015)
16. Koutra, D., Kang, U., Vreeken, J., Faloutsos, C .: VOG: résumé et graphiques grand compréhension. Dans: Actes de la Conférence
internationale sur le SIAM Data Mining 2014, Philadelphie, pp 91-99 (2014).. est ce que je: 10,1137 / 1.9781611973440.11

17. Koutra, D., Kang, U., Vreeken, J., Faloutsos, C .: Résumer et graphiques grande compréhension. Analyse statistique et Data
Mining: La science des données ASA Journal 8 ( 3), 183-202 (2015). est ce que je: 10.1002 / sam.11267

18. LEFEVRE, K., Terzi, E .: Herbe: Graphique Structure summarization. Dans: Actes de la SIAM Conférence internationale sur l'exploration de
données, SDM 2010, Columbus, pp 454-465 (2010).
19. Leskovec, J., Kleinberg, J., Faloutsos, C .: Graphiques au fil du temps: les lois de densification, des diamètres et des explications rétrécissement
possibles. Dans: Actes de la onzième conférence internationale SIGKDD sur la découverte des connaissances dans l'exploration de données, pp
177-187.. ACM (2005)
20. Li, Z., Fang, Y., Liu, Q., Cheng, J., Cheng, R., Lui, JCS: marche dans le nuage: simrank parallèle à l'échelle. Proc. VLDB Endow 9 ( 1),
24-35 (2015). est ce que je: 10,14778 / 2.850.469,2850472
21. Liakos, P., Papakonstantinopoulou, K., Sioutis, M .: Pousser l'enveloppe en compression graphique. Dans: Actes du 23 ACM
Conférence internationale sur la Conférence sur l'information et la gestion des connaissances, pp 1549-1558.. ACM (2014)

22. Lim, Y., Kang, U., Faloutsos, C .: Slashburn: Graphique compression et l'exploitation minière au-delà des communautés homme des cavernes. IEEE Trans.
Knowl. Les données Eng. 26 ( 12), 3077-3089 (2014)

23. Lorrain, F., blanc, HC: équivalence structurelle des individus dans les réseaux sociaux. J. Math. Sociol. 1( 1), 49-80 (1971)

24. Macropol, K., Singh, A .: 1-2. Compte rendu de la dotation VLDB 3, 693-702 (2010)
25. Navlakha, S., Rastogi, R., Shrivastava, N .: graphique de synthèse avec erreur bornée. Dans:. Actes de la conférence
internationale SIGMOD 2008 sur la gestion des données, pp 419-432. ACM (2008)
Internet

26. Nawaz, W., Han, Y., Khan, KU, Lee, YK: détection de la communauté e-mail personnalisé en utilisant la mesure de similarité de collaboration. arXiv: 13061300
(2013)
27. Nawaz, W., Khan, KU, Lee, YK: Spore: chemin chevauchaient régions et traversals confinés le plus court vers le regroupement graphique.
Appl. Intell., 25.01 (2014A)
28. Nawaz, W., Khan, KU, Lee, YK, Lee, S .: intra cluster graphique en utilisant la mesure de similarité de collaboration. Bases de données distribuées et
parallèles, 21.01 (2014b)
29. Newman, ME, Strogatz, SH, Watts, DJ: graphes aléatoires avec des distributions de degré arbitraire et de leurs applications. Phys. tour. E 64
( 2), 026118 (2001)
30. Perozzi, B., Akoğlu, L., Iglesias S' anchez, P., M Uller, E .: groupement ciblé et détection des valeurs aberrantes dans une large
graphiques attribués. Dans: Actes du 20e SIGKDD conférence internationale sur la découverte des connaissances et l'exploration de
données, pp 1346-1355.. ACM (2014)
31. Qu, Q., Zhu, F., Yan, X., Han, J., Philip, SY, Li, H .: efficace olap topologique sur les réseaux d'information. Dans: Base de données des systèmes
pour les applications avancées, pp 389-403.. Springer (2011)
32. Qu, Q., Liu, S., Jensen, CS, Zhu, F., Faloutsos, C .: processus de diffusion Interestingness entraîné par synthèse dans des réseaux dynamiques.
In: Springer, pages 597-613 (2014).
33. Rajaraman, A., Ullman, JD, Ullman, JD, Ullman, JD: Exploitation des ensembles de données massifs, vol, 77. Cambridge University Press,
Cambridge (2012)
34. Riondato, M., Garcia-Soriano, D., bonchi, F .: Graphique avec des garanties de summarization qualité. En: 2014 IEEE Conférence
internationale sur l'exploitation minière de données (CISM), pp 947-952.. IEEE (2014)

35. Rissanen, J .: Modélisation par la plus courte description des données. Automatica 14 ( 5), 465-471 (1978)
36. Ruan, Y., Fuhry, D., Parthasarathy, S .: efficace détection communautaire dans les grands réseaux en utilisant le contenu et les liens.
Dans: Actes de la conférence internationale du 22 au world wide web, Comité large Webconférences directeur international du monde,
pp, 1089-1098 (2013)
37. Satuluri, V., Parthasarathy, S., Ruan, Y .: graphique local sparsification pour la classification évolutive. Dans: Actes du 2011
SIGMOD Conférence internationale sur la gestion des données, pp 721-732.. ACM (2011)

38. Schaeffer, SE: regroupement graphique. Computer Science Review 1( 1), 27-64 (2007)
39. Seidman, SB: Structure du réseau et le degré minimum. Soc. réseaux 5 ( 3), 269-287 (1983)
40. Shah, N., Koutra, D., Zou, T., Gallagher, B., Faloutsos, C .: Timecrunch: graphique dynamique interprétable summarization. Dans:
Actes du SIGKDD Conférence 21th internationale sur la découverte de connaissances et d'exploration de données, pp 1055-1064..
ACM (2015)
41. Shi, L., Tong, H., Tang, J., Lin, C .: influence basée sur les flux graphique visuel summarization. En: 2014 IEEE Conférence internationale sur
l'exploitation minière de données (CISM), pp 983-988.. IEEE (2014)
42. Shi, L., Tong, H., Tang, J., Lin, C .: Vegas: graphique influence visuelle sur les réseaux de summarization citation. Dans: IEEE Transactions sur les
connaissances et l'ingénierie des données, vol. 27, pp. 3417-3431 (2015)
43. Silva, A., Meira, W. Jr., Zaki, MJ: attribut structure d'exploration en corrélation des motifs dans les grands graphiques attribués. Compte
rendu de la dotation VLDB 5 ( 5), 466-477 (2012)
44. Sozio, M., Gionis, A .: Le problème recherche communautaire et la façon de planifier un cocktail réussi. Dans: Actes du 16e SIGKDD
conférence internationale sur la découverte des connaissances et l'exploration de données, pp 939-948.. ACM (2010)

45. Tian, ​Y., Hankins, RA, Patel, JM: agrégation efficace pour le graphique compression. Dans:. Actes de la conférence
internationale SIGMOD 2008 sur la gestion des données, pp 567-580. ACM (2008)

46. ​Toivonen, H., Zhou, F., Hartikainen, A., Hinkka, A .: Compression des graphes pondérés. Dans: Actes de la 17e conférence internationale
SIGKDD sur la découverte des connaissances et l'exploration de données, pp 965-.
973. ACM (2011)
47. Wang, J., Shen, HT, Song, J., Ji, J .: Hashage pour la recherche de similarité: Une étude. arXiv: 14082927
(2014)
48. Yang, J., McAuley, J., Leskovec, J .: détection communautaire dans des réseaux avec des attributs de noeuds. En: 2013 IEEE 13e conférence
internationale sur les mines de données (CISM), pp 1151-1156.. IEEE (2013)
49. Yin, M., Wu, B., Zeng, Z .: Hmgraph olap: un cadre nouveau pour l'analyse de réseau hétérogène à plusieurs dimensions. Dans:
Actes du quinzième atelier international sur l'entreposage de données et OLAP, pp 137-144.. ACM (2012)

50. Yu, W., Lin, X., Zhang, W., McCann, JA: rapide évaluation simrank toutes les paires sur les grands graphes et domaines bipartites. IEEE Trans. Knowl.
Les données Eng. 27 ( 7), 1810-1823 (2015). est ce que je: 10,1109 / TKDE.2014.2339828
51. Zhang, J., Hong, X., Peng, Z., Li, Q .: Nestedcube: Vers un traitement analytique en ligne sur le réseau multidimensionnel
informationenhanced. Dans: Web-âge gestion de l'information, pp 128-139.. Springer (2012)
Internet

52. Zhao, P., Li, X., Xin, D., Han, J .: Graphique cube: sur l'entreposage et Olap réseaux multidimensionnels. Dans: Actes de la Conférence
internationale ACMSIGMOD OnManagement des données 2011, pp 853-864.. ACM (2011)

53. Zhou, Y., Cheng, H., Yu, JX: graphique mise en grappes en fonction des similitudes structurelles / d'attribut. Compte rendu de la dotation VLDB 2
( 1), 718-729 (2009)
54. Zhu, F., Zhang, Z., Qu, Q .: Une approche d'extraction directe à la découverte de motif graphique contrainte efficace. Dans:. Proceedings of
the 2013 SIGMOD Conférence internationale sur la gestion des données, pp 821-
832. ACM (2013)