01 Chapiter Prom Cor v.4.0

TABLE DES MATIÈRES
CHAPITRE I : Communautés et graphes...............................................................................2

I.1. Introduction............................................................................................................................2
I.2. Graphes : définitions et concepts de base..............................................................................2
I.2.1. Graphe : définition..........................................................................................................2
I.2.2. Graphe non orienté........................................................................................................3
I.2.3. Graphe simple.................................................................................................................3
I.2.4. Sous graphe....................................................................................................................3
I.2.5. Graphes augmentés........................................................................................................3
I.3. Réseau d’information.............................................................................................................4
I.3.1. Définition........................................................................................................................4
I.3.2. Applications....................................................................................................................4
I.3.3. Types des réseaux...........................................................................................................5
I.3.4. Analyse des réseaux........................................................................................................5
I.4. Modélisation de réseau d’information par des graphes attribues aux sommets....................5
I.5. Communauté..........................................................................................................................6
I.5.1. Communauté locale........................................................................................................7
I.5.2. Communauté dans un graphe attribué aux sommets.....................................................7
I.5.3. Communauté globale vs. Communauté locale...............................................................8
I.6. Détection de communautés...................................................................................................8
I.6.1. Définitions......................................................................................................................8
I.6.2. L’intérêt de détection des communautés dans un graphe attribue aux sommets..........8
I.6.3. Avantage de la détection de communauté locale..........................................................8
I.7. Algorithmes de détection de communauté............................................................................9
I.7.1. Structure conceptuelle d’algorithme de détection de communauté locale....................9
I.8. Evaluation des communautés détectées..............................................................................10
I.8.1. Évaluation avec réseau de terrain:................................................................................10
I.8.2. Évaluation sans réseau de terrain.................................................................................12
I.9. Conclusion............................................................................................................................13
CHAPITRE I : COMMUNAUTÉS ET GRAPHES
I.1. Introduction
Dans ce chapitre, nous définissons les réseaux ainsi que leur modélisation en utilisant les
graphesd’attribué.
Après cela, nous présenterons la définition terminologique des communautés, leurs
caractéristiques, l'importance de les étudier, les domaines qui s'intéressent à les étudier, et comment
la structure communautaire est définie.
En raison de la grande taille des réseaux d'information, on faire appel à la détection du
communauté locale aux est la méthode la plus efficace, et parfois la seule dans de nombreux cas
d’étude. Nous comparons deux types de communautés ; globale et locale.
Après avoir connu les communautés locales et les points positifs qu'elles apportent, nous
mentionnerons comment ces communautés locales sont détectées et quels sont les défis auxquels
elles sont confrontées afin de les découvrir.
Après avoir établi l'efficacité de la méthode locale, nous expliquerons comment fonctionne les
algorithmes de détection locale et comment ces algorithmes traitent les défis et les exigences de la
détection des communautés locale.
Puisqu'il n'y a pas d'accord complet entre les chercheurs/scientifiques du domaine sur une
définition unique des communautés locales, nous présenterons quelques mesures pour évaluer les
résultats des algorithmes, dont certaines que nous utiliserons dans le chapitre expérimental de
l'algorithme que nous avons développé.
I.2. Graphes : définitions et concepts de base
I.2.1. Graphe : définition
Un graphe G est constitué d'un ensemble d'objets V = {v1, v2, v3, ......} appelés sommets
(également appelés points ou nœuds) et autre ensemble E = {e1, e2, e3, .......} dont les éléments sont
appelés arêtes (également appelées lignes ou arcs).
L'ensemble V(G) est appelé l'ensemble des sommets de G et E(G) est l'ensemble des arêtes.
Habituellement, le graphique est noté G = (V, E)
Soit G un graphe et {u, v} une arête de G. Puisque {u, v} est un ensemble à 2 éléments, on
peut écrire {u, v}. Il est souvent plus pratique de représenter cette arête par uv.
Si e = uv est une arête d'un graphe G, alors on dit que u et v sont adjacents dans G et que e
rejoint u et v. (On peut aussi dire que chacun celui de u et v est adjacent à ou avec l’autre).
Par exemple : Un graphe G est défini par les ensembles
V(G) = {u, v, w, x, y, z} et E(G) = {uv, uw, uy, wx, wv, xy, xz}.
En considérant ces ensembles Nous avons maintenant le graphe suivant.[1]
2
Figure : Un graphe avec 6 sommes et 7 arêtes
I.2.2. Graphe non orienté
Un graphe non orienté G est constitué d'un ensemble V de sommets et d'un ensemble E
d'arêtes telles que chaque arête e ∈ E est associé à une paire non ordonnée de sommets. En d'autres
termes, si chaque arête du graphe G n'a pas de direction alors le graphe est dit non orienté [2].
(a) Graphe orienté (b) Graphe non orienté
I.2.3. Graphe simple

Un graphe est dit graphe simple si qui n'a ni boucles ni arêtes multiples. c'est-à-dire que
chaque arête relie deux sommets distincts et qu'aucune arête ne relie la même paire de sommets est
appelée un graphe simple.
Les figures 1.1(a) et (b) représentent des graphes non orientés et orientés simples car les
graphes ne contiennent pas de boucles et les arêtes sont toutes distinctes [3].
(a) Graphe pseudo (b) Graphe simple
I.2.4. Sous graphe

Un sous graphe est un graphe dont les sommets et les arêtes sont des sous-ensembles d'un
autre graphe .formellement : Un graphe G'=(V', E') est un sous-graphe d'un autre graphe G=(V, E)
ssi :
V ' ⊆ V , et
E ' ⊆ E ∧(v 1 , v 2)∈ E ' → v1 , v 2 ∈V ' ¿ .
3
I.2.5. Graphes augmentés
Dans de nombreux jeux de données, la forme simple des graphes G = (V,E) peut être enrichie
par des informations supplémentaires sur les sommets, les arêtes, la structure du graphe, etc. Cela
conduit à la définition de classes de graphes plus complexes, dont la fouille de données permet de
fournir plus d'informations sur l'ensemble de données étudié, mais pose des défis supplémentaires.
Dans ce qui suit, nous présentons des graphes pondérés sur les sommets et sur les arrêtes.
Il est à noter que dans ce travail nous nous basons nos tests sur ce type de graphes.
I.2.5.1. Graphes pondérés sur les sommets
Un graphe G=(V , E , ^A)est défini par un ensemble des sommets V , un ensemble d'arêtes
E ⊆ V ×V , et un ensemble d'attributs ^A sur les sommets (formellement, les fonctions mappant un
sommet sur une valeur de l'attribut), avec a^ (v )∈ Dom(a) désignant la valeur de l'attribut a^ ∈ ^
A sur
v∈V .[4]
On utilise des chapeaux dans a^ et A pour signifier les valeurs empiriques 1des attributs
observés sur le graphe G. Les notations a et A représentent l'ensemble des attributs de manière plus
générique, elles sont utilisées pour désigner des variables (éventuellement aléatoires) sur le même
domaine et pour désigner la syntaxe du modèle.
I.2.5.2. Graphes pondérés sur les arrêtes
Un graphe G dans lequel chaque arête est affectée d'un nombre réel est appelé un graphe
pondéré. Le nombre réel associé à une arête est appelé son poids, et la somme des poids des arêtes
de G est appelé le poids de G.
Figure 2.2 : Exemple d’un graphe pondéré sur les arêtes

I.3. Réseau de communication
I.3.1. Définitions
Avec l’émergence du Web 2.0 et des réseaux numériques, la notion de réseau social a dû être
généralisée pour tenir compte de caractéristiques décrivant les acteurs du réseau et leurs relations.
Ceci a conduit à la définition de la notion de réseau d’information homogène ou hétérogène par
Han[5], celle de graphe d’information par Moser et al.[6]ou encore de graphe attributs par Zhou[7].
Nous appellerons réseau d’information un réseau où chaque sommet est décrit par des
données (attribues) qui peuvent être structurées ou non structurées. Il peut s’agir de données
numériques, sous la forme d’un ensemble ou plus communément d’un vecteur, de données
textuelles, ou plus généralement de données de n’importe quel type. Un exemple d’un tel réseau est
1
Les valeurs empiriques : qui ne s’appuient que sur l'expérience, l'observation, non sur une théorie ou le raisonnement.
4
celui d’un site de micro-blogs où chaque utilisateur peut se lier d’amitié avec d’autres et où il se
décrit par le biais d’une courte biographie (contenu textuel), de son âge et de sa taille (vecteur
numérique), ou encore de ses centres d’intérêt à choisir dans une liste (étiquettes).
Les informations contenues dans les réseaux d'information peuvent être le produit d'une
collecte d'informations issues du réel (Réseau de terrain), telles que des informations issues des
réseaux sociaux, des réseaux d'édition de documents ou de tout autre type de réseaux d'information,
ces réseaux pouvant également être produits artificiellement à des fins d'étude, et nous allons définir
ces deux types ci-dessous.
I.3.2. Intérêt d’utilisation
Les réseaux permettent de modéliser de nombreux phénomènes qui proviennent d’horizons
très variés. Nous allons d’abord présenter quelques exemplesdans lesquels les réseaux sont utilisés
comme outil de modélisation de phénomènes complexes, pour lesquels. Ceci illustrera la diversité
des domaines d'applications possibles. Pour chaque cas, nous identifierons les acteurs du
phénomène, et les interactions entre eux.Aussi appelés nœuds et liens en informatique, sites et liens
en physique, et acteurs et liens en sociologie. Le tableau 1.1 donne quelques exemples des graphes
présentant des réseaux particuliers[8].
Tableau 1.1 : Acteurs et interactions dans les réseaux. Quelques exemples ans des réseaux
particuliers.
Réseaux Acteur Interactions
Réseau Internet Ordinateur Ou Routeur Connexion De Données Par câble
ou Sans Fil
Internet (WWW) Page Web Hyperlien
Réseau De Citations Article, Brevet Ou Cas Juridique Citation
Réseau Electrique Centrale Ou Sous-Station Ligne De Transmission
Réseau D'amitié Personne Personne Amitié
Réseau Métabolique Métabolite Réaction Métabolique
Réseau Neuronal Neurone Synapse
Chaîne Alimentaire Espèces Prédation
I.3.3. Types des réseaux

I.3.3.1. Réseau de terrain
Un réseau de terrain est définipar opposition à un réseauartificiel, ou réseau généré. Unréseau
de terrain est un réseauconstituéà partir de donnéescollectées, et qui correspond à une réalité de
terrain. Par opposition, les réseaux générés ne correspondent à aucune donnée dumonde réel.
I.3.3.2. Réseaux artificiel (benchmark network)
En mathématiques, un réseau artificiel est un réseau qui est généré par un processus aléatoire.
Le premier modèle de réseau artificiel a été introduit par Paul Erdös et Alfréd Rényi [9].
Sommairement, un réseau artificiel de taille n est un graphe de n sommets dont on a choisi
aléatoirement les arêtes, en fixant la probabilité d’avoir une arête entre les paires de sommets
(probabilité identique pour chaque paire de sommets).
Les graphes artificiels sont utilisés pour évaluer la complexité en moyenne d'algorithmes
utilisant les graphes ou encore pour modéliser de vrais réseaux. Ces graphes ont des distributions de
degrés homogènes et un faible coefficient de clustering [10,11].
5
Ce qui suit nous verrons comment un tel réseau peut être représenté avec un graphe où les
sommets sont associés à a des vecteurs des attribués est appelé le graphe attribués au nœud.
I.3.4. Analyse des réseaux
On distingue deux grandes familles de méthodes d’analyse de ces données réseau : les
méthodes traditionnelles et les méthodes d’extraction des connaissances. Les premières s’appuient
uniquement sur des propriétés structurelles locales ou globales du réseau pour caractériser les
nœuds et la structure alors que les secondes appliquent les principes de la fouille de données pour
découvrir des motifs pertinents. Un cas de cette seconde catégorie est la détection de communautés
qui nous intéresse.
I.4. Modélisation de réseau de communication par des graphes attribues aux

sommets
Les graphes sont une abstraction mathématique puissante qui peut être utilisée pour
représenter une grande variété d'ensembles de données du monde réel où il y a des interactions entre
les entités.
Le graphe attribué aux sommets est une représentation de réseaud’informationest Ce graphe
est représentéen tant que un triple G=(V, E,A), où V={vi} est l'ensemble de sommets de graphe
représentant les entités ou acteurs de réseau, E={eij} l'ensemble des arêtes représentant les
interactions entre les acteurs (eijreprésente l'arête entre les nœuds vi et vj), et A l'ensemble des
vecteurs d'attributs A(vi)={ak(vi)} associé au sommets dans V et contenant information à propos des
acteurs. En outre, |V|=n, |E|=m et la dimension de vecteur attribut est d. Le domaine de (ak), est
l’ensemble de valeurs possible de kieme élément de vecteurs attribut ak(vi), est noté par dom(ak) . Dans
ces termes, le kieme attribut du sommetvi est noté par ak(vi) . La notation introduite ci-dessus est
résumée dans la Figure1.1. Noter que les paires (V,E) et (V,A) sont appelées respectivement la
structure (ou topologie) et les attributs (ou sémantique ) du graphe d’attribués.
Figure 1.1 : Notationde graphe attribué aux sommets

G=(V , E , A),oùV = { v i }, E={ e ij } et A={ A(v i) }.
Un graphe attribué aux sommets est montré dans la Figure. 2.2 est un modélisation d’un
réseau de co-auteur DBLP. Chaque auteur est représenté par un sommet. Chacun d'eux est décrit par
3 attributs, qui sont le nombre de publications dans les conférences suivantes : ICML, NeurIPS,
KDD. Un bord relie deux chercheurs co-auteurs d'un article. Il y a eu un intérêt significatif pour
l'étude des graphes où les sommets sont décrits par des attributs. Ces attributs peuvent être ordinaux
ou non (par exemple, numériques, catégoriels, booléens).
6
Figure 2.2 : Exemple d’un graphe attribué aux sommets : modélisation d’un réseau de co-auteurs
DBLP2.
I.5. Communauté
I.5.1. Définitions de la notion de communauté
Le terme de communauté(s), de par son étymologie (du latin communise, commun, lui-même
issude"cum", avec, ensemble et de "munus", relatif à quelque chose de public) et son origine
(réunion ou association de personnes ayant des intérêts communs), revêt un sens connoté « réseaux
sociaux »,[12,13].On peut même dire qu’il a directement été importé des sciences sociales, où il est
utilisé depuis longtemps.
Depuis quelques années, l’utilisation du mot communauté s’est généralisée àd’autres types de
réseaux et n’est désormais plus réservée aux sciences sociales. Nousretrouvons cette extension
d’usage dans plusieurs disciplines telles que l’informatique[14], la physique[15]ou encore la biologie
[16]
. Eninformatique par exemple, la notion de communauté est devenue dès la fin des années90 très
populaire avec le développement du Web et de la recherche d’informationbasée sur les liens
hypertextes. Des chercheurs comme Kleinberg J et al.[17]ouFlake G.W, et al[18]ont introduit la notion
de communauté web qui désigne unensemble de pages web traitant d’une même thématique ou d’un
même sujet(ou _topic_ en anglais). Ainsi, des structures communautaires sont définies et observées
dans de nombreux réseaux, et jouent un rôle important dans leurorganisation ou leur structuration.
De ce fait, il est fondamental de les définirnettement et de les détecter automatiquement.
En 2002, Girvan et Newman[19] ont montré que la présence au sein de graphes sociaux de
groupes de nœuds fortement connectés entre eux et faiblement avec le reste du graphe est une
caractéristique des réseaux complexes, le nom de communautés a été donné à ces groupes de nœuds
fortement connectés.
2
DBLP (Digital Bibliography & Library Project) :Littéralement «Projet de bibliothèque et de bibliographie numérique»,
est un site web publiant un catalogue de bibliographies en informatique.
7
Figure 1.2 : Un réseau constitué de 3 communautés.
I.5.2. Communauté locale.
La communauté localecomme introduit par [12]n'a aucune connaissance extérieure à la
communauté. Il se compose de nœuds centraux qui sont internes à la communauté, de sorte qu'ils
n'ont aucune connexion avec l'extérieur de la communauté, et de nœuds frontaliers qui connectent
ces nœuds centraux à la partie inconnue du réseau (c'est-à-dire d'autres communautés).
I.5.3. Communauté dans un grapheattribué aux sommets
Dans un graphe d’attribués aux sommetsG=(V , E , A)nous voulons dire par communauté
N
l'ensemble des nœudsV dans N sous-ensemblesC K ⊂ V , avecC={ C K }K , tel queV =∪ NK =1 C K et un
certain balance entre les deux propriétés suivantes :
(a) Proximité structurelle,c'est à direnœudsau sein d’une
communautésontstructurellementprocheles uns desautres,pendant que
nœudsdansdifférentcommunautésne le sontpas[20] ;
L'exigence de proximité structurelle est basée sur les concepts d'une communauté
(structurelle) dans un réseau. Par exemple, les communautés sont considérées par Newman
et Girvan[21] comme des sous-ensembles de nœuds avec des connexions denses au sein des
sous-ensembles et clairsemées entre les deux. À son tour, [...] adopte l'intuition que les
nœuds au sein d'une même communauté devraient être mieux connectés qu'ils ne le
seraient par hasard.
(b) Homogénéité des attributs,c'est à direles nœuds au seind’une communauté ont des attributs
homogènes, tandis que les nœuds dans différentes communautés ne le sont pas[22].
L'exigence d'homogénéité des attributs est basée sur le fondement des sciences
sociales selonlequel les caractéristiques des acteurs peuvent refléter et affecter la structure
communautaire dans les réseaux sociaux. Le principe bien connu de l'homophilie dans les
réseaux sociaux stipule que les acteurs sociaux partageant les mêmes idées ont une plus
grande probabilité d'être connectés [23].
I.5.4. Communauté globale vs. Communauté locale
Une structure communautaire globale est une partition de l’ensemble des sommets : chaque
sommet est affecté et appartient à une communauté (ou plusieurs, pour les communautés
recouvrantes)en revancheUne communauté locale, est une communauté relative à un sommet ou un
ensemble de sommets, identifiée à l’aide d’un processus d’exploration local à partir de ce ou ces
8
sommets. Un point clé de cette exploration est, par exemple, d’identifier la frontièrede la
communauté : les arêtes entre les sommets qui la composent et ceux qui lui sont extérieurs.
Dans les réseaux sociaux notamment, la multiplicité de petites communautés nommées ego
networks(centrées sur un utilisateur), établie depuis longtemps en sociologie [24], a motivé de
nombreux travaux sur les communautés locales [25].
Une différence entre une communauté locale et une communauté globale appartenant à la
partition entière d’un graphe se situe au niveau de l’indépendance de leur existence : en effet on
peut rechercher une communauté locale seule, sans s’intéresser au reste du graphe. Dans ce cas,
seule une partie des sommets et arêtes est considérée. Il existe des méthodes détectant uniquement
des communautés locales, s’arrêtant à la frontière de celles-ci [26], sans explorer entièrement le
graphe. A l’opposé, une communauté « globale » n’existe pas indépendamment des autres, elle
résulte du partitionnement du graphe entier.
I.6. Détection de communautés

I.6.1. Définitions
Lorsque des objets sont connectés via un réseau représente par un graphe, nous parlons des
communautés. Une structure de communauté se compose de plusieurs nœuds qui montrent des
connexions internes denses par rapport au reste du réseau. L’identification des communautés
cachées dans la structure d’un grand réseau est un problème difficile qui a suscité un intérêt
considérable.
I.6.2. L’intérêt de détection des communautés dans un grapheattribue aux sommets
Discutons maintenant l'effet de la fusion de la structure et des attributs. D'un côté, De
nombreuses études ont été menées, parex David et al.[27] et Lisa Getoor et al.[28], suggèrent que la
structure et les attributs d'un réseau attribué au nœud fournissent souvent des informations
complémentaires qui améliorent la qualité de détection de la communauté. Par exemple, les attributs
peuvent compenser la rareté structurelle d'un réseau réel [29,30], tandis que les informations
structurelles peuvent être utiles pour résoudre le problème des attributs manquants [31]. De plus, il est
observé dans [32]que la détection de communauté uniquement par la structure ou par les attributs
n'est souvent pas aussi efficace que lorsque les deux sources d'information sont utilisées.
I.6.3. Avantage de la détection de communauté locale
La plupart des algorithmes développés pour détecter la communauté globale nécessitent que
le graphe soit complètement connu. Cependant, dans un scénario réel, il peut ne pas être possible de
collecter l'intégralité du réseau pour plusieurs raisons, telles que la confidentialité des données,
l'exploration inefficace, le bruit pendant les données curation. Dans de tels cas, au lieu de découvrir
la structure communautaire globale d'un réseau, les gens pourrait être intéressé à explorer la
communauté autour d'un nœud particulier, c'est-à-dire les autres nœuds qui appartiennent à la/aux
même(s) communauté(s) dont fait partie le nœud donné. C'est appelé la structure communautaire
locale[33].
I.7. Algorithmes de détection de communauté
Algorithme de détection de communauté ; Est un algorithme que détecte les composantes
densément connectées des structures communautaires dans un réseau sont connues comme
algorithmes de détection de communauté. Les algorithmes de détection des communautés locales
ont la tendance de découvrir les structures communautaires locales de G. Nous définissons la
9
détection de communauté local comme un algorithme qui associe un niveau de localité dans son
processus d’exploration pour détecter tous les communautés d’un réseau [34].
I.7.1. Structure conceptuelle d’algorithme de détection de communauté locale
Dans le travailde D.Saharnaz et al[35].proposent une Structure pour les algorithmes de
détection de communauté locale illustré à la Figure1.3, ce schéma combine les défis soulevé par les
algorithmesen trois étapes.Nous utiliserons ce schéma pour étudier les divers algorithmes.
Figure 1.3 : Structure conceptuelle des algorithmes de détection de communauté locale. [36]
I.7.1.1. Première étape :(Données d'entrée)
La première étape de tous les algorithmes de détection de communauté est les données
d’entrée (Input data) fournie à l'algorithme. Les algorithmes da détection de communauté globale
dépend de l'ensemble du réseau pour découvrir les communautés. Bien que le flux de détection de
communauté dans les algorithmes locaux ne dépende pas de la structure globale, les données
d'entrée incluent l'ensemble du réseau pour les opérations préliminaires dans plusieurs cas.
I.7.1.2. Deuxième étape (Flux de détection de la communauté)
La procédure est elle-même décomposée en quatre fonctions comme décrit dans laFigure 1.3.
a-Identification du nœud source : L'identification du nœud source est l'une des principales
étapes qui vise à déterminer les nœuds candidats à développer ultérieurement afin de
façonner les communautés. Les performances de l'algorithme dépendent cependant
fortement de cette étape puisque les nœuds sources initient les communautés de sortie.
Chaque contribution a introduit une approche différente pour choisir les nœuds sources.
Outre les algorithmes qui appliquent une stratégie aléatoire ou qui demandent à l'utilisateur
de spécifier le nœud source, d'autres ont tendance à trouver les nœuds importants qui sont
une bonne représentation de sa communauté pour commencer leur approche. Dans cette
étape, un score dédié est d'abord calculé pour un ensemble particulier de nœuds (ou le
réseau entier), puis la liste des scores est triée pour choisir les meilleurs candidats comme
nœuds sources. Nous classons les techniques d'identification des nœuds sources dans les
classes principales suivantes :
Tableau 1.2 : Les classes des techniques d'identification des nœuds sources [ref].
10
b-Communautés préliminaires : Après la détection de nœud source, la communauté initiale
est prédéfinie et la plupart du temps, le nœud source est considéré comme une
communauté préliminaire. Ainsi, cette étape ne peut pas être considérée comme une étape
indépendante du flux de détection de communauté. Dans de nombreuses références,
cependant, cette étape est développée pour étendre les nœuds sources dans la communauté
préliminaire. Il peut être utilisé en prenant simplement le premier voisinage d'un nœud
source comme communauté préliminaire [37], ou en choisissant des voisins en s'appuyant
sur un score de similarité[38,39]. Le niveau de localité dépend de la stratégie adoptée. Par seul
le voisinage local offre un niveau de localité plus élevé par rapport aux autres solutions.
c-Expansion communautaire : Plusieurs références ont effectué un niveau de localité
adéquat uniquement pendant l'expansion de la communauté, quelles que soient les données
d'entrée précédentes. Les stratégies d'expansion de la communauté locale développée dans
la littérature reposent principalement sur des informations locales au niveau de la
communauté : connexion interne et connexions externes d'une communauté [40], ces
stratégies seront abordées au chapitre deux, lors d’explicationdes algorithmes de détection
de communautés.
I.7.1.3. La troisième étape (Communauté de sortie)
Enfin, on identifie la communauté qui peuvent représenter une communauté locale d'un nœud
donné (sous-ensemble de nœuds).
I.8. Evaluation des communautés détectées
Lorsque des communautés sont trouvées, il faut évaluer avec quelle précision la tâche de
détection a été effectuée. En termes d'évaluation des communautés, la tâche est similaire à
l'évaluation des méthodes de clustering dans le data mining. L'évaluation du regroupement est un
défi car la réseau de terrain peut ne pas être disponible[41]. Nous envisageons deux scénarios :
lorsque réseau de terrainest disponible et lorsqu'elle ne l'est pas.
I.8.1. Évaluation avec réseau de terrain:
Lorsque le réseau de terrain) est disponible, nous avons au moins une connaissance partielle
de ce à quoi les communautés devraient ressembler. Ici, nous supposons que nous recevons les
bonnes affectations de communauté (clustering). Nous discutons de quatre mesures : la Précision et
le Rappel, la F-mesure, la pureté et l'information mutuelle normaliséeces mesures sont présentées
dans le livre Social Media Mining an introduction [42]
I.8.1.1. PrécisionetRappel
La détection de communauté peut être considérée comme un problème d'affectation de tous
les nœuds similaires à la même communauté. Dans le cas le plus simple, deux nœuds similaires
11
doivent être considérés comme membres de la même communauté. Selon nos affectations, quatre
cas peuvent se présenter :
1. Vrai Positif (TP True Positive) : lorsque des membres similaires sont affectés à la même
communauté. C'est une bonne décision.
2. Vrai Négatif (TN True Positive) : lorsque des membres dissemblables sont affectés à
différentes communautés. C'est une bonne décision.
3. Faux négatif (FN False Negative) : lorsque des membres similaires sont affectés à
différentes communautés. C'est une mauvaise décision.
4. Faux positifs (FP False Positive) : lorsque des membres dissemblables sont affectés à la
même communauté. C'est une mauvaise décision.
La précision (P) et le rappel (R) sont définis comme suit
TP
P=
TP+ FP
TP
R=
TP+ FN
La précision définit la fraction de paires qui ont été correctement attribuées à la même
communauté. Le rappel définit la fraction de paires que l'algorithme de détection de communauté a
affectées à la même communauté de toutes les paires qui auraient dû se trouver dans la même
communauté.
I.8.1.1. F-mesure
Pour consolider la précision et le rappel en une seule mesure, nous pouvons utiliser la
moyenne harmonique de précision et de rappel :
2∗P∗R
F−mesure=
P+ R
I.8.1.2. Pureté
Soit un grapheG(V , E),Ω={ ω1 , ω2 , … . , ωk } c’est le partitionnement détecté par un algorithme
donné et C={ c 1 , c 2 , … . , c j } c’est le partitionnement correct du réseau de terrain.
La Pureté est définie comme :
1
Pureté ( Ω , C ) = ∑ max|ω k ∩ c j|
N Kj
Si la Pureté prend la valeur 1 veut dire que le partitionnement détecté et lepartitionnement de
réseau de terrain sont identiques. Sinon si la Pureté prend lavaleur 0 les deux partitionnements sont
totalement différents Selon Chakraborty et al.[43].
La Purity peut être facilement manipulée pour générer des valeurs élevées ; considérez quand
les nœuds représentent des communautés singleton (de taille 1) ou quand nous avons de très
grandes communautés pures (Réseau de terrain = étiquette majoritaire). Dans les deux cas, la Purity
n'a pas de sens car elle génère des valeurs élevées.
I.8.1.3. Information mutuelle normalisée (NMI)
Une mesure plus précise pour résoudre les problèmes associés à la Puretéest la mesure de
l'information mutuelle normalisée (NMI), qui trouve son origine dans la théorie de l'information.
12
L'information mutuelle (MI) décrit la quantité d'informations partagées par deux variables
aléatoires.
MI ( Ω , C )
NMI ( Ω , C )=
√ H ( Ω )∗√ H ( C )
Où MI c’est l’information mutuel définie par :
|ωk ∩c j| N∗|ω k ∩c j|
MI ( Ω ,C )=∑ ∑ log
k j N |ωk ∨¿ c j|
H c’est l’entropie définie par :
|ωk| |ωk|
H ( Ω )=−∑ log
k N N
Une valeur NMI proche de 1 indique une forte similarité entre la communauté trouvée et le
réseau de terrain. Une valeur proche de zéro indique une grande distance entre eux.
I.8.2. Évaluation sans réseau de terrain
Lorsqu’aucunréseau de terrain n'est disponible, nous pouvons incorporer des techniques
basées sur la sémantique ou des mesures de qualité de regroupement pour évaluer les algorithmes
de détection de communauté.
Cette approche est couramment utilisée lorsque deux ou plusieurs algorithmes de détection de
communauté sont disponibles. Chaque algorithme est exécuté sur le réseau artificiel de test et la
mesure de qualité est calculée pour les communautés détecte. L'algorithme qui produit une valeur
de mesure de qualité plus souhaitable est considéré comme un meilleur algorithme, parmi ces
mesures de qualité il y a :
I.8.2.1. Séparabilité
Capture l'intuition que les bonnes communautés sont bien séparées du reste du réseau [44,45],
ce qui signifie qu'elles ont relativement peu d'arêtes pointant de l'ensemble C vers le reste du réseau.
La séparabilité mesure le rapport entre le nombre interne et externe d'arêtes de C :
mc
S ( C )=
CC
C C : le nombre d'arêtes sur la frontière de C
mc : est le nombre d'arêtes entre les membres de C.
I.8.2.2. Densité
La densité du communauté mesure la fraction des arêtes existantes sur toutes les arêtes
potentiellement possibles. La densité est un nombre compris entre 0 et 1 inclus. Une communauté
de densité 0 n'a aucune arête(graphe composé de nœuds isolés). Une communauté de densité 1 est
un graphe complet.Ainsi, un graphe est dit dense lorsque le nombre de liens est égal ou proche du
nombre maximal de liens possibles. Pour une communauté de n nœuds et m arêtes, la densité est
définie comme :[46]
2 mc
d ( C )=
nc (nc −1)
13
I.8.2.3. Cohésion
La cohésion caractérise la structure interne de la communauté, c'est-à-direune communauté
cohésive devrait être difficile à diviser. Pour que cela soit possible,les relations doivent lier le
collectif. Dans de tels contextes, les acteurs de communauté aient de nombreux liens avec les autres
et que les liens soient largement distribués (plutôt que de passer par un nœud). Dans les
communautés cohésifs, les acteurs sont généralement proches les unes des autres [47,48].
Alors une bonne communauté devrait avoir une cohésion élevée (conductance interne élevée)
car elle devrait nécessiter la suppression de nombreux arêtes avant que la communauté ne soit
divisée en composants déconnectés.
g ( c )=max C '⊂C ∅ (C ')
❑
C c'
∅ C’est la conductance de C ' :∅ ( C ' ) =
2 mc ' +C c '
I.9. Conclusion
Dans ce chapitre, nous avons abordé la partie théorique de notre thèse, où nous nous sommes
familiarisés avec les réseaux d'information et les outils pour les représenter au moyen de graphe, et
nous avons connu la structure la plus importante dans les réseaux, à savoir les Communautés et plus
particulièrement les Communautésdans le graphe d’attribués, et nous avons parlé des avantages que
les Communautés locales apportent par rapport aux sociétés globales.
Ladétection de communauté locale dans les réseaux d'information est le centre de gravité de
ce chapitre, si cette expression figurative est permise. Et nous avons expliqué l'importance de l'effet
de la fusion de la structure et les attributs d’un réseau dans la détection de communautés, et
pourquoi la détection locale et non global.
Dans le deuxième chapitre, nous mettrons en lumière les approches les plus importantes de la
détection en utilisant les propriétés des réseaux d'information d'ingénierie et les propriétés de la
morue, ainsi que les mécanismes de détection locale.
14
1
- C. Vasudev (2006), GRAPH THEORY WITH APPLICATION, New Age International (P) Limited,
New Delhi, ISBN : 978-81-224-2413-3,p-p1-2.
2
- C. Vasudev (2006), GRAPH THEORY WITH APPLICATION, p3.
3
- C. Vasudev (2006), GRAPH THEORY WITH APPLICATION, p4.
4
- Ahmed Anes BENDIMERAD, (2019), MINING USEFUL PATTERNS IN ATTRIBUTED GRAPHS,
Thèse de doctorat, Universite de LYON; p 15.
5
- Sun, Y. et J. Han (2012). Mining Heterogeneous Information Networks : Principles and
Methodologies. Morgan & Claypool Publishers.
6
- Moser, F.et al. , (2007), JOINT CLUSTER ANALYSIS OF ATTRIBUTE AND RELATIONSHIP DATA
WITHOUT A-PRIORI SPECIFICATION OF THE NUMBER OF CLUSTERS, 13th ACM SIGKDD
international conference on Knowledge discovery and data mining, p-p 510–519.
7
- Zhou, Y., H. Cheng, et J. X. Yu, (2009), GRAPH CLUSTERING BASED ON
STRUCTURAL/ATTRIBUTE SIMILARITIES. Proceedings of the VLDB Endowment 2(1), p-p
718–729.
8
- M.E.J Newman (2010), NETWORKS AN INTRODUCTION , Oxford University Press Inc, New
York, ISBN 978-0-19-920665-0, p-p 99-100 ;
9
- Erdös P, Rényi A, (1959) ON RANDOM GRAPHS, Publicationes Mathematicae, (6), p-p 290–297.
10
- Barabasi A-L and Albert R, (1999). EMERGENCE OF SCALING IN RANDOM NETWORKS.
Science, p-p 286,509.
11
- Guillaume J-L and Latapy M. (2006), BIPARTITE GRAPHS AS MODELS OF COMPLEX
NETWORKS. Physica A, 371 , p-p 795-813.
12
- Moreno, J. L. & Jennings, H. H. (1938), STATISTICS OF SOCIAL CONFIGURATIONS.
SOCIOMETRY,1, p-p 342–374.
13
- Maël Canu, (2018), DÉTECTION DE COMMUNAUTÉS ORIENTÉE SOMMET POUR DES
RÉSEAUX MOBILES OPPORTUNISTES SOCIAUX, Thèse de doctorat, Université Pierre et
Marie Curie, p 25
14
- Dourisboure Y et al. (2007), CLASSIFICATION OF DENSE COMMUNITIES IN THE WEB.
Proceedings of the 16th international conference on World Wide Web, Banff, Alberta, Canada, ACM,
p-p 461-470.
15
- Hastings M.B, (2006), COMMUNITY DETECTION AS AN INFERENCE PROBLEM, Physical
Review E, 74(3):035102.
16
- Bornholdt S and Schuster H.G, (2003), HANDBOOK OF GRAPHS AND NETWORKS: From the
Genome to the Internet. Edition Wiley.
17
- Kleinberg J et al.,(1999), THE WEB AS A GRAPH: MEASUREMENTS, MODELS, AND
METHODS,Computing and Combinatorics. Springer-Verlag, 1627: p-p 1-17.
18
- Flake G.W, et al., (2000), EFFICIENT IDENTIFICATION OF WEB COMMUNITIES.Proceedings of
the 6th ACM SIGKDD international conference on Knowledge discovery and data mining, Boston,
Massachusetts, United States, ACM, p-p 150-160.
19
- Michelle Girvan et Mark EJ Newman (2002), COMMUNITY STRUCTURE IN SOCIAL AND
BIOLOGICAL NETWORKS, DOI:10.1073/pnas.122653799
20
- Petr Chunaev (2020), COMMUNITY DETECTION IN NODE-ATTRIBUTED SOCIAL NETWORKS:
A SURVEY, arXiv:1912.09816v2 [cs.SI], p 3.
21
- Michelle Girvan et Mark EJ Newman (2002), COMMUNITY STRUCTURE IN SOCIAL AND
BIOLOGICAL NETWORKS.
22
- Petr Chunaev (2020), COMMUNITY DETECTION IN NODE-ATTRIBUTED SOCIAL NETWORKS:
A SURVEY, p 3.
23
- Miller McPherson, et al.( 2001) BIRDS OF A FEATHER: HOMOPHILY IN SOCIAL NETWORKS.
Annual Review of Sociology, 27(1):415–444,.
24
- Freeman, L. C. (1982). CENTERED GRAPHS AND THE STRUCTURE OF EGO NETWORKS.
MATHEMATICAL SOCIAL SCIENCES, 3, 291–304.
25
- Leskovec, J. et al.(2008). COMMUNITY STRUCTURE IN LARGE NETWORKS: NATURAL
CLUSTER SIZES AND THE ABSENCE OF LARGE WELL-DEFINED CLUSTERS. arXiv:0810.1355
26
- Clauset, A. (2005). FINDING LOCAL COMMUNITY STRUCTURE IN NETWORKS. Phys. Rev. E,
72,026132.
27
- David A. Cohn et Thomas Hofmann (2001). THE MISSING LINK A PROBABILISTIC MODEL
OF DOCUMENT CONTENT AND HYPERTEXT CONNECTIVITY, p-p 430–436.
28
- Lisa Getoor et al. (2003), LEARNING PROBABILISTIC MODELS OF LINK STRUCTURE, p-p
679–707.
29
- Caiyan Jia et al., (2017), NODE ATTRIBUTE-ENHANCED COMMUNITY DETECTION IN
COMPLEX NETWORKS. Scientific Reports, 7:2626; p-p1–15.
30
- Jaewon Yang etal.,(2013), COMMUNITY DETECTION IN NETWORKS WITH NODE
ATTRIBUTES. 2013 IEEE 13th International Conference on Data Mining, p-p 1151–1156.
31
- Caiyan Jia et al., (2017), NODE ATTRIBUTE-ENHANCED COMMUNITY DETECTION IN
COMPLEX NETWORKS. Scientific Reports, 7:2626, p-p 1–15.
32
- Ying Ding, (2011), COMMUNITY DETECTION: TOPOLOGICAL VS. TOPICAL. Journal of
Informetrics, 5(4), p-p 498–514.
33
- Tanmoy Chakraborty et al., (2017), SUPPLEMENTARY MATERIAL FOR: METRICS FOR
COMMUNITY ANALYSIS: A SURVEY, ACM Computing Surveys, Vol. 50, No. 4, Article 54, p02.
34
- D.Saharnaz et al., (2021), COMMUNITY DETECTION IN COMPLEX NETWORKS: A SURVEY
ON LOCAL APPROACHES, p795.
https://doi.org/10.1007/978-3-030-73280-6_60
35
- D.Saharnaz et al., (2021), p795.
36
- D.Saharnaz et al., (2021), p760.
37
- Berahmand, K., et al. (2018), COMMUNITY DETECTION IN COMPLEX NETWORKS BY
DETECTING AND EXPANDING CORE NODES THROUGH EXTENDED LOCAL SIMILARITY OF
NODES. IEEE Tran. Comput. Soc. Syst. 5(4), p-p 1021–1033.
38
- Cheng, J., et al., (2019), NEIGHBOR SIMILARITY BASED AGGLOMERATIVE METHOD FOR
COMMUNITY DETECTION IN NETWORKS. COMPLEXITY.
39
- Guo, K., et al., (2019), A LOCAL COMMUNITY DETECTION ALGORITHM BASED ON
INTERNAL FORCE BETWEEN NODES. Appl. Intell. 50(2), p-p 328–340
https://doi.org/10.1007/s10489-019-01541-1.
40
- Xie, J et al., (2013), OVERLAPPING COMMUNITY DETECTION IN NETWORKS: THE STATE-
OF-THE-ART AND COMPARATIVE STUDY. Acm Comput. Surv. (csur) 45(4), p-p 1–35.
41
- Reza Zafarani et al., (2014), SOCIAL MEDIA MINING AN INTRODUCTION , Cambridge
University Press, p204
42
- Reza Zafarani et al., (2014), SOCIAL MEDIA MINING AN INTRODUCTION , Cambridge
University Press, p197
43
- Tanmoy Chakraborty et al., (2017), SUPPLEMENTARY MATERIAL FOR: METRICS FOR
COMMUNITY ANALYSIS: A SURVEY, ACM Computing Surveys, Vol. 50, No. 4, Article 54, p02.
44
- J. Shi and J. Malik, (2000). NORMALIZED CUTS AND IMAGE SEGMENTATION, IEEE PAMI,
22(8); p-p 888–905.
45
- S. Fortunato, (2010), COMMUNITY DETECTION IN GRAPHS. Physics Reports, 486(3-5), p-p 75–
174.
46
- Zinoviev.D, 2018, Complex Network Analysis in Python, ISBN-13: 978-1-68050-269-5, p 84.
47
- Moody, J., White, D.R., (2003), STRUCTURAL COHESION AND EMBEDDEDNESS: A
HIERARCHICAL CONCEPT OF SOCIAL GROUPS. American Sociological Review 68 (1), p-p 103–
127.
48
- Friedkin, N.E., (2004), SOCIAL COHESION, Annual Review of Sociology 30, p-p 409–425.

01 Chapiter Prom Cor v.4.0

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

01 Chapiter Prom Cor v.4.0

Transféré par

Droits d'auteur :

Formats disponibles

TABLE DES MATIÈRES

CHAPITRE I : Communautés et graphes...............................................................................2

(a) Graphe orienté (b) Graphe non orienté

I.2.3. Graphe simple

(a) Graphe pseudo (b) Graphe simple

I.2.4. Sous graphe

Figure 2.2 : Exemple d’un graphe pondéré sur les arêtes

I.3.3. Types des réseaux

I.4. Modélisation de réseau de communication par des graphes attribues aux

Figure 1.1 : Notationde graphe attribué aux sommets

I.6. Détection de communautés

Vous aimerez peut-être aussi