Vous êtes sur la page 1sur 116

Atelier 5

Le Web social

Hakim Hacid et Ccile Favre

Le Web Social 2010


En conjonction avec 10me Confrence Internationale Francophone sur l'Extraction et la Gestion des Connaissances (EGC 2010).

Organis par :

Hakim Hacid
Alcatel-Lucent Bell Labs France

Ccile Favre
Laboratoire ERIC Universit Lyon 2 France

Hammamet, Tunisie, 26 Janvier 2010

Atelier Web Social 2010 - En conjonction avec EGC 2010 (Hammamet - Tunisie) H. Hacid (Alcatel-Lucent Bell Labs) et C. Favre (Lab. ERIC, Universit de Lyon II)

Prface Atelier Web Social - EGC 2010


Prambule
Cette premire dition de latelier sur le Web social se droulant dans le cadre dEGC 2010 vise permettre la rencontre des chercheurs et des jeunes chercheurs, la fois du monde acadmique et industriel, autour des problmatiques lies au Web social en gnral et lextraction de connaissances partir du Web social en particulier. Il sagit entre autres de confronter les ides afin davoir une vision plus claire des lments qui entourent ce nouveau phnomne, faire un tat des lieux des avancements dans les diffrentes pistes composant ce nouveau Web et enfin tenter de ressortir les verrous scientifiques et industriels court, moyen et long termes, lever autour du Web social. En effet, avec lavnement du Web 2.0, lutilisateur est au centre des proccupations des diffrentes technologies composant ce nouveau modle comme les mashups, les environnements collaboratifs, les rseaux sociaux, etc. Le principal ingrdient rajout est le social qui consiste mettre en relation les utilisateurs, leur faciliter linteraction et la rendre plus riche et plus productive. Le Web social devient ainsi de plus en plus la partie la plus intressante de tout le Web, au point de dfier de grands acteurs bien tablis sur le Web traditionnel comme le moteur de recherche Google. Ceci constitue une norme avance dun point de vue utilisateur et ouvre aussi de grandes perspectives de recherche dans un environnement qui devient de plus en plus complexe, moins structur et plus hostile compte tenu de la grande masse dinformation gnralement cache lutilisateur. Les rseaux sociaux concentrent certainement la majeure partie des travaux qui sont faits autour du Web social. Les travaux dans ce domaine se focalisent principalement sur les proprits structurelles, e.g. la force des liens sociaux, le key player, etc. Au-del des rseaux sociaux, le social se manifeste sous dautres formes et dans dautres endroits sur le Web : les mdias sociaux tels que Youtube ou Flickr, les news sociales telles que Twitter ou Digg, le bookmarking social comme Delicious (del.icio.us). Toutes ces parties constituent un norme rservoir dinformations sociales qui renferme des connaissances pouvant tre utiles lutilisateur. Ceci peut se manifester ventuellement par la mise en place de nouveaux services valeur ajoute exploitant cette connaissance qui est trs faiblement exploite par les utilisateurs et les fournisseurs de services actuellement. Ainsi, les thmatiques dintrt pour cette atelier incluent : les rseaux sociaux ; les phnomnes sociologiques du Web social ; les fournisseurs de services et Web social ; les rseaux sociaux en entreprise ; le Web smantique et Web social ; lanalyse de donnes sociales et lextraction de connaissances ; lexploitation de lanalyse sociale ; la personnalisation de contenu et de services ; les modles de montisation du Web social ; la recherche sociale dinformation ; lextraction et la structuration de donnes partir de plateformes sociales ; la modlisation des donnes sociales ; linterrogation de donnes sociales ; le Web social et la mobilit ; lextraction et lanalyse de communauts ; la vie prive dans le Web social ; la qualit de linformation dans le Web social ; les mthodes de filtrage de linformation sociale ; la portabilit de linformation dans le Web social ; les techniques de veille numrique. Les soumissions reues ont abord un large ventail de ces thmatiques mais les plus dominantes sont sans doute les aspects smantiques et communautaires dans les environnements sociaux.

A5-1

Nous esprons que cette dition soit le dbut dune longue srie dans le futur afin dinscrire dans le temps la possibilit de runir tous les acteurs qui contribuent cette thmatique. Enfin, il nous semble pertinent de vouloir pousser cet vnement sur la scne internationale qui, nous le souhaitons, sera lavenir de cet atelier.

Remerciements
Les responsables de latelier souhaitent remercier vivement toutes les personnes ayant contribu la tenue de cet atelier. En particulier : - les auteurs pour la qualit de leurs contributions constituant la base essentielle de discussions fructueuses ; - les membres du comit de lecture dont le travail dvaluation tait crucial pour assurer la qualit de latelier ; - Alexandre Passant pour avoir accept de donner un expos sur les thmatiques du Web smantique et des rseaux sociaux ; - les organisateurs dEGC qui ont mis en place lenvironnement et les moyens pour la russite des ateliers.

Comit de lecture
Frdric Amblard, Universit Toulouse 1 Michal Aupetit, CEA LIST Zohra Bellahsene, Universit Montpellier 2 Sonia Ben Mokhtar, Universit Lyon 1 Amel Bouzeghoub, Tlcom & Management SudParis Johann Daigremont, Alcatel-Lucent Bell Labs France Jrme David, INRIA Grenoble Rhne-Alpes Jean-Gabriel Ganascia, Universit Paris 6 Fabien Gandon, INRIA Sophia Antipolis Samir Ghamri-Doudane, Alcatel-Lucent Bell Labs France Fabrice Guillet, Polytech'Nantes Rushed Kanawati, Universit Paris 13 Luigi Lancieri, Orange Lab Christine Largeron, Universit Saint-Etienne Bndicte Le Grand, Universit Paris 6 Nicolas Lumineau, Universit Lyon 1 Linas Maknavicius, Alcatel-Lucent Bell Labs France Pierre Maret, Universit Saint-Etienne Alexandre Passant, DERI-National University of Ireland Nathalie Pernelle, Universit Paris 11 Mathieu Roche, Universit Montpellier 2 Fatiha Sais, Universit Paris 11 Yacine Sam, Universit de Tours Vincent Toubiana, New York University Julien Velcin, Universit Lyon 2 Gilles Venturini, Universit de Tours Emmanuel Viennet, Universit Paris 13

Relecteurs additionnels
- Cdric Lopez, Universit Montpellier 2

- Anna Stavrianou, Universit Lyon 2

Les responsables de latelier Web Social EGC 2010 Hakim Hacid, Alcatel-Lucent Bell Labs France Ccile Favre, Laboratoire ERIC - Universit Lyon 2

A5-2

De lintrt du Web Smantique pour le Web Social, et rciproquement


Alexandre Passant Digital Enterprise Research Institute (DERI) National University of Ireland, Galway IDA Business Park, Lower Dangan Galway, Ireland alexandre.passant@deri.org Rsum. Ces dernires annes ont vu la monte en puissance de deux visions du Web: dun cot le Web Smantique, qui propose des formalismes de reprsentations unifies dans une optique dchange et de comprhension des donnes lchelle du Web; de lautre le Web Social (ou Web 2.0) vision plus pragmatique qui met laccent sur la place centrale de lutilisateur au sein de la dmarche de production de contenus. Si celles-ci ont souvent t opposes, nous montrerons dans cet expos en quoi elles ne sont en ralit pas contradictoires mais au contraire complmentaires et de quelle manire elles peuvent bnficier chacune des apports de lautre. Ainsi, nous prsenterons dune part lintrt des formalismes du Web Smantique (RDF, RDFS, OWL, SPARQL) pour la reprsentation et linterrogation de donnes issues dapplications Web 2.0. Plus spcifiquement, nous dtaillerons le rle jou par des ontologies comme FOAF - Friend Of A Friend - et SIOC - Semantically-Interlinked Online Communities - dans ce contexte, ainsi que diffrentes applications reposant sur les standards prcdents. Dautre part, nous dtaillerons en quoi les paradigmes mis en avant par le Web Social (partage, collaboration, ouverture) permettent la cration grande chelle de connaissances reprsentes selon les formalismes prcdents, notamment au sein linitiative Linking Open Data, que cela se fasse par lintermdiaire dexporteurs pour des applications Web 2.0 existantes ou via de nouveaux systmes comme les wikis smantiques. De plus, tout au long de cet expos, nous prsenterons diffrentes applications actuellement dployes sur le Web ou en entreprise et mettant en avant cette complmentarit entre Web Social et Web Smantique, conduisant a un Web optimis a la fois pour les humains et les machines, au niveau des modes de publication pour le premier et de la modlisation des donnes pour le second.

A5-3

A5-4

Dcouverte de communauts par analyse des usages


Lylia Abrouk, David Gross-Amblard, Damien Leprovost Laboratoire Le2i-CNRS Universit de Bourgogne, France {prnom.nom}@u-bourgogne.fr http://www.u-bourgogne.fr/LE2I Rsum. Dans les sites Web collaboratifs actuels, un effort de saisie important est demand aux utilisateurs an didentier la communaut laquelle ils appartiennent (description du prol personnel, du rseau social, etc.). Dans cet article, nous proposons une mthode de dcouverte de communauts base sur les actions des utilisateurs. Elle repose sur une analyse en composantes principales des usages (ACP) et a t valide sur une base de donnes de prfrences lmographiques de grande taille (MovieLens).

Introduction

Depuis quelques annes, le Web sest transform en une plateforme dchange gnrique, o tout utilisateur devient un fournisseur de contenu par le biais de technologies comme les commentaires, les blogs et les wikis. Ce nouveau Web collaboratif ou participatif (Web 2.0) comprend des sites populaires comme Myspace1 , Facebook2 ou Flickr3 , permettant de construire des rseaux sociaux selon ses relations professionnelles ou ses intrts. Cependant, ces sites exigent de chaque utilisateur une description explicite de son rseau social ou de son prol. De plus, seules les communauts ainsi explicites sont identies. Or un grand nombre de communauts dutilisateurs existent de faon implicite dans de nombreux domaines. Par exemple, tout site de musique gnraliste rassemble une communaut dutilisateurs ayant des gots musicaux varis. Mais cette communaut est en fait compose de sous-communauts potentiellement disjointes, toutes lies la musique (la communaut des amateurs de musique pop, de musique punk, etc.). Dcouvrir et identier prcisment ces communauts implicites est un gain pour de nombreux acteurs : le propritaire du site, les rgies publicitaires en ligne et surtout, les utilisateurs du systme. Dans cet article, nous proposons une mthode de dtection de communauts. La mthode est gnrique car elle ne sappuie que sur un tiquetage des ressources et sur lutilisation de ces ressources par les utilisateurs (par exemple, tel utilisateur consulte tel chier musical, tiquet rock). Le cur de notre mthode est une analyse statistique en composantes principales (ACP (Falissard, 2005)) des tiquettes des ressources manipules par les utilisateurs. Cette mthode permet de reprsenter les donnes originelles (utilisateurs et tiquettes manipules) dans
1 http 2 http

://www.myspace.com ://www.facebook.com 3 http ://www.ickr.com

A5-5

Dcouverte de communauts

un espace de dimension infrieure celle de lespace originel, tout en minimisant la perte dinformation. La reprsentation des donnes dans cet espace de faible dimension en facilite considrablement lanalyse et permet ainsi de regrouper ou dopposer des communauts. Larticle est organis de la faon suivante. La section 2 prsente notre approche de dtection de communauts. Cette approche est valide exprimentalement en section 3 sur une bases de donnes de prfrences lmographiques de grande taille (MovieLens). Ltat de lart est prsent en section 4. Conclusion et perspectives sont prsentes en section 5.

Modle

Premires dnitions On considre un ensemble dutilisateurs U = {u1 , . . . , un } et un ensemble de ressources R sur un site donn (par exemple des chiers de musiques, des vidos, des nouvelles). Nous supposons que les utilisateurs mettent un vote sur un sous-ensemble des ressources du site. Ce vote nest pas ncessairement explicite et peut tre obtenu en se basant sur les usages des utilisateurs (la musique quils slectionnent, les titres quils achtent, les ressources quils annotent ou recommandent). Les votes sont illustrs par une matrice M : |U | |R| dnie comme suit, pour un utilisateur ui U et une ressource rj R : M (ui , rj ) = 1 0 si ui a de lintrt pour rj , sinon. (1)

Cette matrice est mise jour dynamiquement lorsque de nouveaux utilisateurs, de nouvelles ressources ou de nouveaux usages apparaissent sur le site. Nous supposons galement quun ensemble de tags T = {t1 , . . . , tm } est dni (par exemple, musique pop, rock, punk, etc.), et que chaque ressource est annote avec un sous-ensemble de ces tags (sous-ensemble potentiellement vide). Ces annotations proviennent des fournisseurs de ressources, qui peuvent tre les utilisateurs eux-mme, et peuvent senrichir au fur et mesure. tant donns les votes des utilisateurs et ces annotations, nous dnissons lensemble A(ui ) R des ressources intressant lutilisateur ui U et lensemble A(ui , tj ) R, o tj T , lensemble des ressources intressant ui et annotes par le tag tj . Lobjectif principal de lapproche propose est de scinder les utilisateurs en communauts distinctes, en se basant sur les groupes de tags quils apprcient. Nous calculons le degr dappartenance xij dun utilisateur ui un tag tj : xij = |A(ui , tj )| . |A(ui )| (2)

Plus un coefcient xij est proche de 1, plus lutilisateur i manipule des tags de type j. Communauts de tags On cherche ensuite rassembler les tags similaires, de faon statistique. Pour cela, on utilise la technique de lanalyse en composantes principales (ACP). Dans cette section, nous donnons lintuition de cette mthode, les dtails tant explicits en section 3. Dans la suite, lusage dune ressource portant un tag donn est vu comme la ralisation dune variable alatoire reprsentant ce tag. Les intrts de chaque utilisateur sont alors autant de ralisations indpendantes des m variables reprsentant les m tags possibles. Lobjectif de

A5-6

L. Abrouk et al.

lACP est de trouver des combinaisons linaires des variables reprsentant les tags pour expliquer au mieux les intrts des utilisateurs. Ainsi, chaque utilisateur ui , nous associons le vecteur de ses degrs dappartenance chaque tag, Xi = (xi1 , xi2 , ..., xim ). Ce vecteur reprsente le positionnement de lutilisateur dans lespace des tags, et lensemble des vecteurs Xi donne ainsi un nuage de points dans lespace des tags. De la mme manire, on peut associer chaque tag tj le vecteur Vj , correspondant ses degrs dappartenance chez les n utilisateurs : Vj = (x1j , x2j , .., xij ..., xnj ). Ces nuages de points sont difciles analyser, cause des dimensions considres (nombre de tags, nombre dutilisateurs) et de la variabilit des observations. Lanalyse en composantes principales va alors : 1. Permettre une projection du nuage de points utilisateurs (initialement exprims dans un espace de dimension k) sur des plans principaux (de dimension 2) qui reconstituent au mieux la variabilit entre les utilisateurs. 2. Permettre une reprsentation des variables initiales dans ces plans principaux, la contribution des variables dans la construction des axes principaux ntant pas la mme pour toutes les variables. Par exemple, la gure 1 donne une reprsentation compacte des rassemblements de tags selon leurs usages.

F IG . 1 Projection des variables sur deux axes Ainsi, des axes explicatifs sont identis, en minimisant la perte dinformation effectue lors de cette simplication. La gure 1 reprsente les variables originales de nos exprimentations sur deux axes signicatifs, appels composantes principales (dans cette gure, nomms axes 1 et 4). Cette gure prsente la corrlation des variables dorigine avec les composantes principales (une variable est bien reprsente sur laxe si sa corrlation avec la composante principale correspondante est en valeur absolue proche de 1). Selon la composante 1 (Axe 1), on voit que les tags Animation et Enfant sont trs corrls (corrlation suprieure 0,6). De mme, la composante 4 oppose les tags Filmnoir, Guerre aux tags Romance, Comdie.

A5-7

Dcouverte de communauts

Notre mthode de rassemblement de tags est alors la suivante : lACP fournit les composantes principales pertinentes pour lanalyse des usages. Selon chacune de ces composantes, on ignore les tags situs dans la zone de faible corrlation (corrlation entre et +, pour un seuil ]0, 1] x). Les tags restants, situs dans les zones de forte corrlation (infrieure ou suprieure +), sont rassembls dans une mme communaut de tags. Par exemple, Animation et Enfant seront dans une mme communaut. Lalgorithme 1 rsume la mthode. Algorithme 1 : Dcouverte entres : Vecteurs Vj , seuil de dcision sorties : Communauts de tags G1 , . . . , GK 1 dbut 2 identier les composantes principales C = ((c1 , c2 ), (c3 , c4 )...), expliquant la plus grande proportion de la variabilit des donnes 3 tant que (il reste des composantes principales (c, c ) dans C) faire 4 ignorer les tags non corrls (|coordonnes selon c et c| < ) 5 rassembler dans une mme communaut les tags corrls selon c (|coordonnes selon c| > ) 6 rassembler dans une autre communaut les tags corrls selon c (|coordonnes selon c| > ) 7 supprimer ces tags 8 n tant que 9 n

Communauts dutilisateurs Une fois lensemble des tags T dcompos en K communauts de tags G1 , . . . , GK , on en dduit les communauts dutilisateurs. Pour cela, pour un utilisateur ui donn, on calcule son degr dappartenance xij chaque communaut de tag Gj : xij =
tk Gj

xik .

Sa communaut c(ui ) est alors sa communaut de tag majoritaire, cest dire lindice j tel que xij soit maximal. Chaque utilisateur est alors associ ce groupe de tags. Ce groupe aura comme intitul lensemble des tags qui le constituent.

Exprimentation

Contexte Nous avons test la mthode sur la base de lms MovieLens4 . Cette base contient 100 000 votes pour 1 682 lms apprcis par 943 utilisateurs. Les lms sont valus par une note entre 1 et 5. Nous avons remplac ces notes par un vote binaire (les notes suprieures 2 indiquant un intrt pour le lm). Nous avons construit la matrice M avec lensemble des
4 http

://www.grouplens.org/node/73

A5-8

L. Abrouk et al.

utilisateurs U et lensemble des lms R, et calcul le degr dappartenance des utilisateurs aux diffrents tags. Nous prsentons les rsultats de notre approche sur un ensemble de 18 tags (1 : Aventure, 2 : Enfant, 3 : Animation, 4 : Mystre, 5 : Crime, 6 : Drame, 7 : Fiction, 8 : Filmnoir , 9 : Fantasy, 10 : Musical, 11 : Action, 12 : Thriller, 13 : Romance, 14 : Comdie, 15 : Horreur, 16 : Guerre, 17 : Documentaire, 18 : Western). Le seuil de dcision a t x 0,6 de faon empirique (la slection automatique de ce seuil na pas pu tre aborde dans le cadre de ce premier travail.) Matrice de corrlation La premire tape de lanalyse est de vrier que les donnes sont factorisables, cest--dire quelles sont corrles entre elles. Pour cela, on examine la matrice de corrlation : Si les coefcients de corrlation entre variables sont faibles, il est improbable didentier des facteurs communs. On peut ventuellement supprimer les variables qui ont une corrlation faible. Un autre paramtre pouvant aider au choix des variables est la qualit de la reprsentation (Communalities) ; QLTj est le cosinus carr de langle form entre la variable initiale xj et laxe principal c. Le tableau de la gure 2 reprsente la matrice de corrlation entre une partie des variables initiales et les 6 premires composantes principales. Tag Aventure Enfant Animation Mystre Crime Drame Fiction Filmnoir Fantasy Musical Action Thriller Romance Comdie Horreur Guerre Documentaire Western 1 ,777 ,675 ,657 -,657 -,624 -,614 ,535 -,512 ,479 ,422 ,451 -,393 -,139 ,265 -,122 -,032 -,204 ,209 2 ,349 -,231 -,200 ,258 ,265 -,561 ,531 ,066 -,108 -,409 ,746 ,704 -,685 -,592 ,424 -,037 -,263 -,105 3 -,272 ,465 ,391 ,367 ,094 -,230 -,252 ,209 ,197 ,380 -,262 ,314 -,221 ,161 ,360 -,633 -,166 -,262 4 ,081 ,187 ,311 ,173 ,226 ,094 ,080 ,490 -,076 ,372 -,117 -,176 -,395 -,373 -,170 ,425 ,232 ,353 5 ,037 -,145 -,052 -,254 ,237 ,016 ,249 ,083 ,208 -,193 -,128 -,221 -,231 ,225 ,369 -,331 ,639 ,142 6 -,056 -,147 -,218 -,057 -,016 -,112 -,152 ,158 -,022 ,096 ,028 ,011 -,023 ,242 ,179 -,103 -,400 ,780

F IG . 2 Corrlation entre les variables et les composantes La qualit de la reprsentation de la variable Action, par exemple, est obtenue en levant au carr les coefcients de corrlation entre cette variable et les 6 axes principaux, puis en les

A5-9

Dcouverte de communauts

sommant : QLTAction = (0, 451)2 +(0, 746)2 +(0, 262)2 +(0, 117)2 +(0, 128)2 +(0, 028)2 = 0, 859. Ainsi pour chaque variable initiale, nous obtenons la variance prise en compte par lensemble des facteurs extraits. Plus cette valeur est proche de 1, plus lensemble de linformation contenue dans la variable est prise en compte. Il serait par exemple possible de ngliger la variable correspondant au tag Fantasy en raison de sa faible qualit de reprsentation (nous lavons cependant conserve lors de nos exprimentations). Slection des composantes principales La deuxime tape consiste dterminer le nombre de facteurs retenir. On tient compte : des facteurs qui permettent dextraire une quantit dinformation (valeur propre) > 1. Quand on a beaucoup de variables, il y a un grand nombre de facteurs pour lesquels la valeur propre est suprieure 1. Dans ce cas, on retient beaucoup de facteurs et linterprtation devient difcile. de la distribution des valeurs propres : utilisation du graphique des valeurs propres. La gure 3 reprsente la variance explique par chaque composante principale (valeur propre). Pour savoir combien de composantes principales utiliser, on recherche une rupture de pente sur le graphique. Cette rupture signie que lon passe dun facteur reprsentant beaucoup dinformation un facteur en reprsentant moins. On sarrte au facteur prcdant cette rupture de pente. Dans notre exprimentation, on retient les 6 premires composantes dont la valeur propre est suprieure 1. Le pourcentage de variance explique est de 70%.

F IG . 3 Variance explique par chaque composante principale Les composantes obtenues ont la structure suivante :

A5-10

L. Abrouk et al.

La 1re composante principale est la combinaison qui totalise la plus grande quantit de variance, La 2e composante principale est la combinaison qui totalise la 2me plus grande quantit de variance. On peut dterminer autant de composantes principales quil existe de variables. La valeur propre de la 1re composante principale est 4,192 (soit 23,29% de la variance), celle de la 2e composante est 3,264 (soit 18,13% de la variance),etc. Les composantes principales sont indpendantes les unes des autres. partir de la matrice de corrlation, on voit que : La 1re composante principale reprsente essentiellement les variables Aventure, Enfant, Animation, Mystre, Crime et Drame. La 2e composante principale reprsente essentiellement les variables Action, Thriller, Romance et Comdie. La 3e composante principale reprsente essentiellement la variable Guerre et un moindre degr les variables Enfant, Animation, Mystre et Horreur. La 4e composante principale reprsente essentiellement les variables Filmnoir,Guerre dune part, et Romance, Comdie dautre part. La 5e composante principale reprsente essentiellement la variable Documentaire. La 6e composante principale reprsente essentiellement la variable Western.

Interprtation des axes La dernire tape de lexprimentation est linterprtation des axes. on donne un sens un axe partir des coordonnes des variables. Ce sont les valeurs extrmes qui concourent llaboration des axes. Les facteurs avec de larges coefcients (en valeur absolue) pour une variable donne indiquent que ces facteurs sont proches de cette variable. Nous rapprochons les tags par les degrs dappartenance des utilisateurs ces tags en nous basant sur les graphiques gnrs lors de cette tape : Le 1er axe (gure 4) oppose les tags Animation, Enfant et Aventure aux tags Mystre, Crime et Drame. Ceci correspond une interprtation naturelle : les personnes qui aiment le premier groupe de lms naimant en gnral pas le second. Deux communauts sont ainsi cres. Le 2e axe oppose les lms de Romance et de Comdie aux lms Thriller et Action, en crant ainsi deux nouvelles communauts. Le 3e axe (gure 5) oppose les lms de Guerre aux lms tiquets Enfant, dAnimation ou de Mystre. Les axes 4, 5 et 6 nous donnent les rsultats suivants : Le 4e axe oppose les lms Filmnoir et les lms de Guerre aux lms de Romance et de Comdie. Le 5e axe oppose les lms Documentaire aux lms de Guerre. Le 6e axe oppose les lms Western aux lms Documentaire. Cette interprtation nous donne 7 groupes de tags, comme indiqu au tableau 1. Les groupes qui sont disjoints sont 1 et 2, 3 et 4, 4 et 6 et enn 6 et 7. Les utilisateurs sont regroups en fonction de ces communauts de tags. Les tags qui ne sont pas pris en compte par les axes sont expliqus par leur faible occurrence : par exemple le tag Fantasy nest utilis que 22 fois sur toute la collection des 1682 lms.

A5-11

Dcouverte de communauts

F IG . 4 Composantes 1 et 2

F IG . 5 Composantes 1 et 3

A5-12

L. Abrouk et al.

communaut 1 2 3 4 5 6 7

tags associs Aventure, Enfant, Animation Mystre, Crime, Drame Action, Thriller Romance, Comdie Western Filmnoir, Guerre Documentaire

TAB . 1 Communauts de tags

tat de lart

Depuis les dbuts du Web jusqu aujourdhui, la recherche de communauts implicites a fortement volu. De nombreux travaux, envisagent divers aspects des rseaux sociaux et des communauts, selon que lon considre une communaut comme un ensemble de documents relatif une thmatique, ou comme un ensemble de personnes partageant un intrt pour une thmatique.

Dcouverte des communauts Web Ds les premiers travaux sur la reconnaissance des communauts sur le Web (par exemple Gibson et al. (1998)), le lien hypertexte est utilis comme base de raisonnement. Lapport majeur en la matire est lalgorithme HITS de Kleinberg (1998), dnissant les notions dautorits et de hubs, structurant une communaut autour dun sujet donn. Imafuji et Kitsuregawa (2002) concluent lappartenance dune page une communaut si cette page est plus majoritairement rfrence depuis lintrieur de la communaut que depuis son extrieur. Ils utilisent un algorithme de ot maximum an disoler les noeuds faisant partie dune mme communaut, en se basant sur lalgorithme propos par Flake et al. (2000). Dourisboure et al. (2007) identient au sein dun graphe du Web les communauts comme autant de sous-graphes denses et bipartis au sein de ce graphe. Le graphe biparti reprsente dune part les centres dintrt de la communaut (les autorits selon HITS) et dautre part ceux qui citent la communaut (les hubs). Cette mthode permet de mettre en vidence les ventuels partages des mmes centres dintrt par plusieurs communauts dacteurs, ou au contraire le partage de mmes acteurs par plusieurs centres dintrt des communauts. Ces approches fournissent une analyse avance des liaisons entre les diffrentes pages structurant une communaut thmatique, mais ne permettent pas en revanche de rapprocher des utilisateurs de par leurs intrts ou activits : le partage de lien hypertexte ntant plus ncessairement la base de lactivit communautaire dans les changes sociaux du Web collaboratif (valuation de contenu par lutilisateur, apposition de tags, ...).

Interprtations des tags utilisateurs Les systmes de recommandations proposent lutilisateur un lot de ressources en corrlation avec son prol ou son activit. Firan et al. (2007) proposent un algorithme de recommandation bass sur les tags des utilisateurs. Ils prennent pour

A5-13

Dcouverte de communauts

exemple lutilisation des tags sur le site de musique Last.fm5 , o les pistes musicales sont ltres en fonction des classements (votes) personnels de lutilisateur. Cette mthode se heurte au problme de linitialisation (cold start), les nouveaux utilisateurs recevant dabord des recommandations peu pertinentes. Une solution hybride (base sur laspect collaboratif, mais aussi sur le contenu) propose par Yoshii et al. (2006) utilise un modle probabiliste pour intgrer les votes utilisateurs et le contenu des donnes, en utilisant un rseau baysien pour amliorer les mthodes classiques. Permettant un positionnement pertinent de lutilisateur par rapport aux tags du systme, ces solutions ne permettent pas de tenir compte des possibles similarits entre tags. La mise en lumire des tags similaires ou antagonistes que propose notre solution permet dafner ce positionnement de lutilisateur.

Distances smantiques Cattuto et al. (2008) prsentent une autre approche statistique pour valuer les distances smantiques. Valide sur les donnes du site del.icio.us6 , site sur lequel il existe une structure communautaire, les auteurs utilisent lannotation des donnes pour construire un rseau pondr de ressources. Dans ce contexte, la similarit entre les ressources est proportionnelle au chevauchement de leurs jeux de tags. Pour prendre en compte la reprsentativit des tags, la mthode TF-IDF est utilise. Les auteurs proposent de dtecter les communauts dutilisateurs par les similarits de leurs tags. Ils utilisent le coefcient de corrlation de Pearson comme mesure de similarit, puis appliquent des mthodes de partitionnement. la diffrence de notre mthode, ils ne rduisent pas le nombre de tags manipuls, qui risque dtre extrmement grand.

Systmes de recommandation Le rapprochement de tag est galement abord dans les systmes de recommandation. Dans leur dnition du systme Socialranking, Zanardi et Capra (2008) procdent un enrichissement de requte bas notamment sur la similarit des tags, fonde sur leurs apparitions communes sur des ressources diffrentes. Une autre approche, propose par Hotho et al. (2006) sous le nom FolkRank et utilisant nouveau de la thorie des graphes, consiste utiliser PageRank pour modliser les relations entres les ressources, les utilisateurs et les tags. Cette approche, qui permet dexploiter davantage les relations parses, est galement explore par Bertier et al. (2009) : dans le cadre de Gossple, les auteurs utilisent la probabilit de passer dun tag un autre comme indicateur de leur similarit.

Conclusion et perspectives

Dans cet article, nous avons prsent une mthode de dcouvertes de communauts dutilisateurs par observation des usages, base sur la technique de lACP. Une prochaine tape consiste en lautomatisation complte de la mthode, en particulier par lestimation ne et automatique des seuils de slection utiliser, ainsi que la comparaison avec dautres mthodes statistiques.
5 http 6 http

://www.lastfm.com ://delicious.com

A5-14

L. Abrouk et al.

Remerciements
Ce travail est partiellement nanc par lANR Contenu & Interaction Neuma 2008-20117 et le projet CheckSem8 .

Rfrences
Bertier, M., R. Guerraoui, V. Leroy, et A.-M. Kermarrec (2009). Toward personalized query expansion. In SNS 09 : Proceedings of the Second ACM EuroSys Workshop on Social Network Systems, New York, NY, USA, pp. 712. ACM. Cattuto, C., A. Baldassarri, V. D. P. Servedio, et V. Loreto (2008). Emergent community structure in social tagging systems. Advances in Complex Systems (ACS) 11(04), 597608. Dourisboure, Y., F. Geraci, et M. Pellegrini (2007). Extraction and classication of dense communities in the Web. In WWW07 : Proceedings of the 16th international conference on World Wide Web, New York, NY, USA, pp. 461470. ACM. Falissard, B. (2005). Comprendre et utiliser les statistiques dans les sciences de la vie. Masson, Paris. Firan, C. S., W. Nejdl, et R. Paiu (2007). The benet of using tag-based proles. In LA-WEB 07 : Proceedings of the 2007 Latin American Web Conference, Washington, DC, USA, pp. 3241. IEEE Computer Society. Flake, G. W., S. Lawrence, et C. L. Giles (2000). Efcient identication of Web communities. In KDD00 : Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, New York, NY, USA, pp. 150160. ACM. Gibson, D., J. Kleinberg, et P. Raghavan (1998). Inferring Web communities from link topology. In HYPERTEXT98 : Proceedings of the ninth ACM conference on Hypertext and hypermedia : links, objects, time and spacestructure in hypermedia systems, New York, NY, USA, pp. 225234. ACM. Hotho, A., R. Jschke, C. Schmitz, et G. Stumme (2006). Folkrank : A ranking algorithm for folksonomies. In Proc. FGIR 2006. Imafuji, N. et M. Kitsuregawa (2002). Effects of maximum ow algorithm on identifying Web community. In WIDM02 : Proceedings of the 4th international workshop on Web information and data management, New York, NY, USA, pp. 4348. ACM. Kleinberg, J. M. (1998). Authoritative sources in a hyperlinked environment. In SODA98 : Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms, Philadelphia, PA, USA, pp. 668677. Society for Industrial and Applied Mathematics. Yoshii, K., M. Goto, K. Komatani, T. Ogata, et H. G. Okuno (2006). Hybrid collaborative and content-based music recommendation using probabilistic model with latent user preferences. In ISMIR06 : 7th International Conference on Music Information Retrieval, pp. 296301.
7 http 8 http

://neuma.irpmf-cnrs.fr ://iutdijon.u-bourgogne.fr/checksem

A5-15

Dcouverte de communauts

Zanardi, V. et L. Capra (2008). Social ranking : uncovering relevant content using tag-based recommender systems. In RecSys 08 : Proceedings of the 2008 ACM conference on Recommender systems, New York, NY, USA, pp. 5158. ACM.

Summary
Most of the existing social network systems require from their users an explicit statement of their friendship relations. In this paper we focus on implicit communities of users and present an approach to automatically detect communities of Web users, based on users resource manipulations. Our proposal relies on the Principal component analysis (PCA) method and is assessed on a large movie data set.

A5-16

Analyse statique et smantique de rseaux sociaux dentreprises et institutions : vers un modle multidimensionnel convergent
Christophe Thovex Francky Trichet

LINA - Laboratoire dInformatique de Nantes Atlantique (UMR-CNRS 6241) Universit de Nantes, quipe COD - Connaissance & Dcisions 2 rue de la Houssinire BP 92208 - 44322 Nantes Cedex 03 christophe.thovex@univ-nantes.fr francky.trichet@univ-nantes.fr,

Rsum. Les rseaux sociaux du Web 2.0 sont devenus plantaires, comme en tmoignent FaceBook et MSN fdrant chacun 3.6% de la population mondiale. Ds 1989, L. C. F REEMAN publiait les premires mtriques dAnalyse de Rseaux Sociaux (ARS), principalement bases sur des modles de fouille de graphes. Nos travaux visent faire converger ces modles danalyse statique, tendus par de multiples contributions, avec les aspects conceptuels de graphes sociaux dentreprises et dinstitutions. Ces aspects conceptuels constituent des ontologies dcouvertes dans les informations endognes, connexes aux rseaux sociaux tudis et orientes mtiers. Cette approche originale et multidisciplinaire vise dcouvrir de nouvelles mesures multidimensionnelles en ARS, pour de nouvelles fonctions dcisionnelles en gestion de ressources humaines. Elle sinscrit, en partenariat avec un diteur logiciel leader de la gestion de capital humain et social, dans le cadre du projet S OCIOPRISE retenu par le Secrtariat dEtat la prospective et au dveloppement de lconomie numrique.

Introduction

Nos tendances et besoins en communication appellent en permanence de nouvelles fonctions et applications sur les rseaux sociaux, comme en tmoignent les ruptions constantes de nouveaux modes de socialisation tels que Tweeter pour le partage instantan dinformations brves, Facebook pour le partage dinformations personnelles ou Diigo pour le partage de signets. Ces espaces dchanges virtuels, lavantage des espaces dchanges rels, facilitent lanalyse statistique et lapparition de mtriques et mthodes dAnalyse de Rseaux Sociaux (ARS, SNA - Social Networks Analysis). Les mesures de centralit introduites par L. C. F REEMAN sont rgulirement cites et reprises en matire dARS. Naturellement, lARS stend peu peu aux entreprises - ARSE - pour fournir de nouveaux outils dorganisation du travail et de gestion des ressources humaines. La culture du travail collaboratif est de plus en

Atelier Web Social 2010 - En conjonction avec EGC 2010 (Hammamet - Tunisie) H. Hacid (Alcatel-Lucent Bell Labs) et C. Favre (Lab. ERIC, Universit de Lyon II)

A5-17

Analyse statique et smantique de rseaux sociaux dentreprises et institutions

plus couple aux outils de type Web 2.0, caractrisant une forme dentreprise "2.0" sensibilise la gestion du capital humain et social [Jean et Rallet (2001)]. Un rseau social peut tre formalis laide dun graphe, pouvant ou non tre orient, valu et/ou pondr. partir dune telle structure, deux formes dARS peuvent tre diffrencies : lARS statique et lARS smantique. LARS statique tudie ltat E de graphes sociaux un instant t. Elle est fonde sur des modles et mesures de structures 1 et de ux 2 , dans des graphes probabilistes dits alatoires [Erds et Rnyi (1959)], pseudo-alatoires [Krivelevich et Sudakov (2002)], libres dchelle [Barabasi et Albert (1999)] ou quelconques. LARS statique permet la classication de groupes dindividus ou communauts par le calcul de degrs, connectivits, distances et ux 3 et la dcouverte de relations implicites entre individus au sein du graphe social. LARS smantique tudie les aspects conceptuels des graphes sociaux. Elle est fonde sur les principes initis par les travaux de J. S OWA sur les graphes conceptuels et les rseaux smantiques [Sowa (2000)]. Elle se rfre galement au Web smantique, lingnierie des ontologies [Gruber (1995)] et aux infrences logiques, en corrlation avec les sciences cognitives - cf. Manine (2009), Aim et al. (2009), Gruber (2008) - ou langages du Web smantique 4 . Avec la croissance exponentielle des rseaux sociaux et ux dinformation, lARS smantique devient cruciale pour la dcouverte et la gestion de connaissances, du contenu dentreprise aux grandes communauts du Web. LARS smantique peut notamment apporter de rels avantages en matire de gestion du capital humain et social ou doptimisation des groupes et mthodes de travail au sein dorganisations professionnelles (socits, institutions). lheure actuelle, trs peu de travaux visent intgrer les deux formes danalyse diffrencies. Lobjectif de nos travaux consiste rpondre ce manque en dnissant un systme convergent de modles statistiques et conceptuels intgrant lanalyse statique et lanalyse smantique de rseaux sociaux dentreprises et dinstitutions. Lapproche adopte est pluridisciplinaire car base sur des principes lectriques et des thories de sciences cognitives. Elle conduit la dnition dun modle multidimensionnel permettant le dveloppement de nouveaux outils dcisionnels pour loptimisation du travail et de la gestion du capital humain et social. Dans ltat actuel de nos travaux, ce modle inclut la dnition de trois nouvelles mesures : (1) une mesure de tension dun rseau social, (2) une extension de la mesure dintermdiarit de L.C. F REEMAN baptise intermdiarit smantique et (3) une mesure de ractance dun rseau social permettant lvaluation du stress individuel des membres de ce dernier. Ces travaux sinscrivent dans le cadre du projet S OCIOPRISE retenu par le Secrtariat dtat la prospective et au dveloppement de lconomie numrique, dans le cadre de lappel projets "Web innovant" inscrit au plan de relance. S OCIOPRISE est men en partenariat avec la socit OpenPortal Software (http ://www.openportal.fr), diteur logiciel de solutions pour la gestion du capital humain. La suite de cet article est structure comme suit. La section 1 introduit de faon synthtique les principes et mthodes respectivement utiliss pour lARS statique et lARS smantique. La
1. Modles et mesures structurels comme dans Freeman (1977), Burt (1995), Lazega (2001). 2. Modles et mesures de ux comme dans Latora et Marchiori (2001), Thomassen (1990). 3. Le nombre dartes connectes un sommet est le degr du sommet. Le nombre dautres sommets accessibles depuis un sommet donne sa connectivit. La distance entre deux sommets est le nombre darcs les sparant. Un ux lmentaire est caractris par un nombre dunits circulant entre deux sommets - e.g. rseaux hydrauliques, lectriques, routiers, etc. 4. Des langages bass XML, standards W3C - i.e. OWL, RIF, FOAF, SIOC, MOAT, etc..

A5-18

C. Thovex et F. Trichet.

section 2 prsente en dtails les contributions apportes la problmatique de convergence entre les deux types danalyse. Ces contributions sont bases sur (1) un rapprochement entre principes lectroniques et mesures danalyse statique, puis (2) un rapprochement entre les nouvelles mesures danalyse statique, dnies en (1), et lingnierie des connaissances. Nos travaux sont ddis lAnalyse de Rseaux Sociaux dEntreprises et dInstitutions - ARSEI.

ARS : tat et approches unidimensionnelles

2.1 Analyse statique


Lanalyse statique des rseaux sociaux tudie ltat E de graphes sociaux un instant t, E tant dni par les structures et/ou les ux des graphes tudis. Les premires notions dARS publies dans Freeman et al. (1960) portaient sur le leadership dans les communauts. Ces notions se sont enrichies autour des mesures de centralit et dintermdiarit [Freeman (1977)] dans les graphes sociaux, caractrisant les proprits de rseaux sociaux en terme de pouvoir, prestige, proximit ou conance. Les mesures de centralit sont bases sur la comparaison du degr dun sommet ceux du graphe, voisins ou distants. Un sommet connect (directement ou non) un grand nombre de sommets du graphe porte une centralit de pouvoir importante. Un sommet connect aux sommets forts degrs du graphe social porte un coefcient de centralit de prestige lev. Un sommet connect un grand nombre de sommets voisins ou proches possde une centralit de proximit leve. Par induction, centralit de prestige et de proximit importantes pour un mme sommet peuvent rvler un coefcient de conance signicatif. Une mesure dintermdiarit dnit limportance dun individu pour linterconnection de ses proches. Elle est formalise par Freeman (1977) comme suit :

Iu =
j

(i, u, j) (i, j)

(1)

o (i, u, j) est le nombre de plus courts chemins entre les sommets i et j passant par u et (i, j) le total des plus courts chemins entre i et j, en somme pour tous les couples (i, j) du graphe 5 . 2.1.1 Analyse statique structurelle Classication (graph-clustering) et caractrisation de graphes fondent les principes de lARS statique. Les proprits structurelles sont dnies pour les principaux types de graphes sociaux et fournissent des lments dARS statique. Dans les graphes alatoires [Erds et Rnyi (1959)], le degr des n sommets du graphe est dtermin par une probabilit p(n) avec p [0; 1]. Avec les graphes pseudo-alatoires, le degr des n sommets est distribu suivant une loi uniforme 6 o G(V, p) possde une densit dartes p =| E | ( |V | ). Pour les graphes 2 libres dchelle [Barabasi et Albert (1999)], les nuds les plus connects accroissent leur degr
5. En limitant la somme aux couples (i, j) pour lesquels (i, u, j) est suprieur 0, il est possible de dnir une mesure approximative adapte aux grands graphes sociaux (large social networks). 6. Loi de distribution rafnable - e.g. loi de Gauss

A5-19

Analyse statique et smantique de rseaux sociaux dentreprises et institutions

de connexion suivant une loi de puissance ("richers get richer"). En dterminant des comportements caractristiques chaque type de rseaux et sous-graphes, ces proprits structurelles statiques apportent aussi des lments danalyse dynamique des graphes sociaux. 2.1.2 Analyse statique de ux Les travaux sur les artes en thorie des graphes (e.g. recherche de ux maximum), sont applicables lanalyse statique de ux dans les rseaux sociaux, pour certains avec des rsultats intressants. Cest le cas de ltude du "petit monde" (small world) dans laquelle V. L ATORA et M. M ARCHIORI ont introduit la notion defcacit (efciency), dnie comme une mesure de communication pondre inversement proportionnelle au plus court chemin entre deux sommets i et j [Latora et Marchiori (2001)]. Notons ici les travaux de J. L ESKOVEC et E. H ORVITZ sur les grands graphes sociaux (MSN - 179 millions de sommets) ayant ractualis la thorie des six degrs de sparation caractristique du small world 7 . Certains modles physiques sont traits laide de graphes pour la comprhension et la dcouverte de principes thoriques. Dans le domaine de llectricit, les loi des nuds et loi des mailles - Lois de Kirchhoff - en sont lillustration la plus connue. Les travaux de Thomassen (1990) sur la rsistance et les courants des rseaux innis, en dmontrant lunit et la continuit des ux dans les grands graphes, apportent une hypothse valider en ARS. Pour rsumer, lARS statique des rseaux sociaux offre donc un large ensemble de modles mathmatiques, sociologiques et mme physiques, bass sur la thorie des graphes et utilisables pour la dcouverte de connaissances explicites ou implicites dans les graphes sociaux - structures et ux. Certains de ces modles stendent galement lanalyse dynamique des rseaux sociaux - e.g. Zekri et Clerc (2002), que nous ntudierons pas dans cet article.

2.2 Analyse smantique


Lanalyse smantique des rseaux sociaux tudie les aspects conceptuels de graphes sociaux. Elle est fonde sur les graphes conceptuels et les ontologies conjugues aux principes dARS [Gruber (2008)]. lheure actuelle, peu de travaux signicatifs ont t publis dans ce domaine. Lattrait pour le sujet est bien visible, nanmoins. J. J UNG AND J. E UZENAT [Jung et Euzenat (2007)] commentent la description dune vue tridimensionnelle sur lanalyse smantique de rseaux sociaux, rapprochant graphes sociaux, annotations (tags) et ontologies ERgraphs (graphes entits-relations). La proposition superpose et fait concider les trois dimensions pour construire des ontologies 8 "consensuelles" dont les annotations sont associes au graphe social. Dans Aleman-Meza et al. (2006), A LEMAN M EZA AND AL . dcrivent une application smantique de dtection de conits dintrts dans les rseaux sociaux de publications scientiques. Base sur la recherche de patrons syntaxicosmantiques, lapplication mesure la similarit smantique entre corpus dauteurs an de dtecter, dans les sujets rpartis ou partags entre plusieurs quipes, dventuels redondances et
7. Dans Leskovec et Horvitz (2008), la capacit datteindre en 6 sauts 80% des sommets dun graphe est revue la baisse avec seulement 48% des sommets atteints. Suivant une courbe long-tail, la distribution atteint 78% des sommets en 7 sauts et pour 90% des sommets, la moyenne mesure est de 7,8 sauts (mesures effectues sur un tirage alatoire de 1000 sommets). 8. Une ontologie est une spcication explicite dune conceptualisation. Elle reprsente les concepts, objets et autres entits supposs exister sur une aire dintrts avec leurs relations [Gruber (1995)].

A5-20

C. Thovex et F. Trichet.

concurrences. Les premiers travaux de Erto et al. (2009) sur lARS smantique ouvrent la voie de lanalyse smantique statistique et visent rendre oprationnelles les grandes lignes de lARS en les intgrant aux ontologies et langages du Web smantique (i.e. OWL, RIF, FOAF, SIOC, MOAT, POWDER). Les systmes de rgles et dinfrences en corrlation aux sciences cognitives peuvent tracer un axe de dveloppement fort potentiel dans le domaine de lARS smantique. Ce dveloppement semble soumis lannotation des sommets et artes, par des moyens automatiques tels lapprentissage statistique et le traitement automatique du langage naturel (TALN), ou des traitements humains comme "ltiquetage social" ou social tagging. Lvaluation rciproque entre membres dun rseau social est un exemple dannotation o linteraction humaine avec le systme produit une valuation des sommets du graphe social sur laquelle un degr de conance relativement able et prcis peut tre calcul 9 . Dans les ontologies appliques en bactriologie, A-P. M ANINE induit des rgles smantiques multiples et rcursives extraites de linformation syntaxique par automatismes, puis infre ces rgles sur lontologie pour lenrichir automatiquement 10 [Manine (2009)]. Lhypothse de mthodes drives applicables aux graphes sociaux est envisageable. Enn, lintgration de sciences cognitives, comme la linguistique, la psychologie ou les neurosciences, produit dintressants rsultats en permettant, par exemple, la pragmatisation dontologies [Aim et al. (2009)]. Lhypothse de mthodes drives spciquement adaptes lanalyse smantique de rseaux sociaux peut tre considre. T. G RUBER, lun des prcurseurs du Web Smantique encourage les initiatives tendant intgrer les principes et langages du web smantique aux rseaux sociaux, pour le dveloppement de systmes dintelligence et de connaissances collectives 11 [Gruber (2008)]. Des grandes communauts du Web aux rseaux sociaux dentreprises, lARS smantique peut apporter de rels progrs dans diffrents domaines tels le marketing global li la mondialisation, la gestion du capital humain et social ou loptimisation des groupes et mthodes de travail au sein dorganisations professionnelles (socits, institutions).

Synergies multidimensionnelles en ARSEI

Nos travaux sappliquent la dcouverte de synergies multidimensionnelles entre les aspects statiques et smantiques de lAnalyse de Rseaux Sociaux dEntreprises et dInstitutions - ARSEI. Les spcicits de lARSEI sont : (1) graphe social de 100 000 nuds maximum, (2) donnes endognes restreintes un ou quelques domaines de connaissances connexes et (3) adoption du principe dchanges dinformations centres mtiers. La mthodologie adopte respecte la segmentation de la problmatique : Lanalyse statique de rseaux sociaux est intgre comme telle, notre effort de recherche portant sur le rapprochement pertinent de mthodes connues et de modles identis, issus de la physique ou de sciences cognitives. Les rsultats proposs touchent de nouvelles mesures de ux sur les graphes sociaux. Ils sont ddis lARSEI et la prvention du risque social. lheure actuelle, ces rsultats consistent en la dnition de 2 mesures. La premire mesure est ddie lvaluation dune nouvelle notion baptise tension dun rseau social (cf. section 3.1.1). La seconde mesure reprend et tend
9. On parle de rseau de faveurs quand la structure de graphe dpend des valuations entre pairs. 10. Utilisation de la Programmation Logique Inductive (PLI). 11. Collective Intelligence, Collective Knowledge Systems

A5-21

Analyse statique et smantique de rseaux sociaux dentreprises et institutions

lintermdiarit de L.C. F REEMAN (cf. section 3.1.2) qui devient ainsi smantique (intermdiarit smantique). Lanalyse smantique est dveloppe par ltude de rapprochements entre les graphes sociaux, les graphes conceptuels, les ontologies et rgles dinfrences et les sciences cognitives. Les rsultats proposs sappliquent lARSEI et sont ddis lorganisation du travail et la gestion de capital humain et social. lheure actuelle, ces rsultats consistent en la dnition dune nouvelle mesure de ractance destine lvaluation du stress individuel (cf. section 3.2). Les rsultats obtenus sont mis en commun pour converger en un modle multidimensionnel, propice au dveloppement et la popularisation doutils dcisionnels pour les Rseaux Sociaux dEntreprises et dInstitutions - RSEI.

3.1 ARSEI statique, modles physiques et cognition


Notre modle adopte les mesures de centralit et dintermdiarit de F REEMAN sur les graphes non-orients. Pour les graphes orients, Page-Rank fournit un score assimilable une mesure de prestige. Nous retenons, pour nos travaux, la version de Page et al. (1999) pour un graphe orient G=(V,) de N sommets, un sommet (page) q rfrenant un sommet (page) p et 0 < < 1. Le rang ou degr de centralit dun sommet est fonction du nombre des sommets pointant dessus et de la somme de leurs rangs respectifs, dans un sous graphe de diamtre 12 ni et suprieur 2 dont p est le centre. Ce score est ponder par un coefcient dpendant de N et dune constante modratrice . R(p) =
q:(q,p)

r(q)/(q) + (1 ) 1/N

(2)

Une extrapolation intgrant un coefcient dautorit (rputation de lauteur), Trust-Rank - TR, donne un score de conance, ventuellement adaptable aux graphes non orients en complment dautres mesures - cf. Gyongyi et al. (2004) . 3.1.1 ARSE statique, ux et modles physiques An dintroduire de nouvelles mesures de ux, nous prouvons lassimilation des artes du graphe social des conducteurs transportant des ux lectriques. Notre mthode consiste quantier et qualier les ux par des ratios smantiques affrents au rseau social dentreprise, tels que pourcentages de documents communs consults, rdigs ou changs (bureautique, courriels, messages instantans, etc.), dchanges de paquets de donnes (ToIp, VoIp) ou dautres types de communication pouvant caractriser les liens conceptuels entre individus. Des principes lectriques sont adapts lanalyse statique de ux autour dun sommet, dont les lois des nuds et des mailles de K IRCHHOFF. La loi des noeuds est illustre en Fig. 1, avec I intensit de charges lectriques pour un dbit de quantit Q par unit de temps t. Loriginalit de nos travaux consiste introduire la notion de tension du rseau social en relation aux notions dintensit de ux traversant et de rsistance des sommets du graphe. Un sommet s directement connect deux autres sommets r et t est assimil un diple, de rsistance R.
12. Le diamtre dun graphe est le nombre minimum darcs reliant ses sommets les plus distants.

A5-22

C. Thovex et F. Trichet.

F IG . 1 Loi des nuds :

Ientrant =

Isortant , i2 + i3 = i1 + i4

Nous utilisons les lois dOhm : U rt = Rs.Irt et P s = Rs.Irt2 = U rt2/Rs = U rt.Irt, o U rt reprsente la tension lectrique dpendante de Rs et de Irt, et P s reprsente la puissance dlivre par un sommet, de puissance maximum admissible note P max, avec U max = R.P max et Imax = P max/R En appliquant les lois dOhm sur un graphe social, il est possible de calculer un rapport de charge-capacit des composants du rseau social dentreprise, par analogie aux rapports P s/P max. Lobjectif est de proposer une mesure de stress par individus et communauts. Cette mesure recourt leffet Joule pour estimer lchauffement des composants du rseau social dentreprise et prvenir les risques de dgradation des performances, dinstabilit ou de panne (trouble socio-psychologique). Lchauffement T dpend de lnergie dissipe et de la rsistivit du matriau. La valeur de variant selon la diversit des structures molculaires, son calcul sort du cadre ce cet article. Il faut donc considrer priori le matriau social abstrait comme une constante en initialisant les algorithmes avec = 1, soit T. = W = R.I 2.t. Ensuite, pourra tre rafn par [0; 1], selon un dterminant dni pour induire linteraction rcursive entre T et R rencontre en physique, o varie en fonction de T. 3.1.2 ARSEI statique et cognition Ltiquetage manuel de ressources fait appel aux processus cognitifs. Cette mthode peut, notamment en ARSEI, provoquer un phnomne de rejet psychologique caus par des aspects politiques et thiques, ngativement perus. Ltiquetage manuel doit tre limit aux ressources non-humaines (documents, corpus textuel, base de donnes) pour tre acceptable et la caractrisation des individus et groupes dindividus doit observer des critres respectant la personne et la vie prive. La smantisation des annotations, en associant les termes annotant les ressources mtiers aux concepts dune ontologie, permet la dcouverte de communauts dusages par le biais des relations implicites entre ressources annotes. Dans cet optique, nous proposons dutiliser les ontologies mtiers pour qualier lanalyse numrique de graphes sociaux en corrlant les rsultats statistiques obtenus sur les ux et structures, aux concepts et graphes conceptuels ontologiques. partir de lquation (1) , nous proposons une nouvelle mesure dintermdiarit smantique pondre par des ressources endognes (i.e. principalement des documents annots laide de termes) o chaque annotation est associe au moins un individu du rseau social considr et o la somme doccurrences dune annotation calibre la mesure favorablement pour

A5-23

Analyse statique et smantique de rseaux sociaux dentreprises et institutions

les individus partageant les ressources associes aux annotations majoritaires. De surcroit, en excluant ltiquetage entre individus, la proposition respecte lthique professionnelle et rduit, faiblement, le risque datteinte la vie prive. Le cadre formel de cette nouvelle mesure est donn comme suit. Les relations explicites entre lensemble des ressources humaines Rh, celui des ressources du systme dinformation Rsi et ltiquetage de contenu Esi servent enrichir lARSEI et dcouvrir des relations implicites R. Nous introduisons donc les ensembles Rh, Rsi, Esi et les relations R, R . Nous vitons le calcul de relations rexives inutilement couteuses - e.g. relations dans RsiXRsi, EsiXEsi et pour respecter la condentialit des annotateurs, il nexiste dans notre proposition aucune relation R entre D et D avec D = Rh et D = Esi ou D = Esi et D = Rh. Nous dnissons un domaine D, un co-domaine ou image D et la relation R(D, D ) : D = Rh ou D = Rsi, D = Rh ou D = Rsi ou D = Esi (note : Esi nest jamais domaine de Rh). Nous posons deux variables , et leurs contraintes : - Contrainte 1 : ( Rh Rsi) ( Rh Rsi Esi) - Contrainte 2 : si Rsi Rsi, il nexiste pas de relation R(, ) - Contrainte 3 : si Rh Esi, il nexiste pas de relation R(, ) La rciproque de ces contraintes sexprime par : Rsi ( Rh Esi) Rh ( Rh Rsi), alors R(, ). Nous introduisons un nouvel ensemble de mesures par adjonction dun coefcient de pondration bas sur la cardinalit C, de R. R tant paramtre par (pD, pD ) dsignant (D, D ) et, facultativement, par eD, eD restreignant (D, D ), C permet de dclarer toutes les formes acceptes de R entre Rh, Rsi, Esi comme facteurs dans les mesures de graphes sociaux. De plus, R pourra tre compose en hirarchie de relations sur le patron R (pD, pD ) R(pD, pD ) avec pD ou pD communs R et R 13 . Nous exprimons ce facteur par : Cp = 1 CR(pD,pD ,eD,eD ) (3)

Par exemple, quand D ou D = Rh, C est utilisable pour pondrer les mesures et quations dcrites en sections 2.1,3.1 et 3.1.1. Cette mthode permet dintgrer lanalyse du graphe social, des statistiques extraites de donnes endognes et smantiquement connexes. Avec eD pD eD pD , lquation (1) sera modie comme suit : Iu(C ) =
j

1 (i, u, j) (i, j) CR(pD,pD ,eD,eD )

(4)

Lquation (4) livre une nouvelle mesure dintermdiarit smantique, base sur celle de Freeman (1977) et apportant une dimension qualitative en intgrant les informations endognes contenues dans Rsi et Esi au degr de centralit de lindividu u. Cp est quanti et quali par eD, eD (facultatifs) via les ontologies permettant lassociation smantique dlments de Rsi et Esi. Les connaissances dcouvertes dans ses associations conceptuelles sont le point fort de cette nouvelle mesure, quelles rendent "intelligente".
13. Ceci pourra tre rapproch de ltude des rseaux baysiens.

A5-24

C. Thovex et F. Trichet.

3.2 Analyse smantique de RSEI


Dans les sections 3.1.1 et 3.1.2, nous avons introduit une analogie entre lanalyse de ux et structures des rseaux sociaux, et quelques principes radiolectriques pouvant se rvler pertinents. Ont t avances les notions de rsistance, charge, capacit, chauffement et puissances. Ces concepts caractrisent des relations smantiques Rs (i, j), explicites ou implicites, entre les sommets dun graphe social. Notre intention est de doter ces relations de proprits smantiques (proprits objet ou de donnes), en les reprsentant par une ou plusieurs ontologies de domaine qui conceptualisent les interactions avec le graphe social. La notion de ractance est prsente en lectrodynamique ou en psychologie sociale. En lectrodynamique, la ractance (en Ohms) telle quutilise dans Wang (2009) dcrit traditionnellement lnergie sopposant un courant alternatif 14 , selon quil traverse un lment capacitif ou inductif 15 . En psychologie sociale, la ractance caractrise un tat de motivation ngatif faisant suite une menace (suppose relle) dune restriction de la libert individuelle qui se traduit par une rsistance linuence [Brehm (1966)]. Dans le cadre de nos travaux, nous proposons dutiliser la ractance comme mesure de stress individuel. partir de la notion de tension dnie en section 3.1, nous pouvons tablir les assertions suivantes : Soit un graphe G(V, E) o des sommets V sont connects par des artes E, muni des proprits suivantes : - Tout lment v de V porte intrinsquement les coefcients issus de mesures classiques des rseaux sociaux (cf. Freeman, etc.) ou leurs rafnements ventuels. - (u, v) V connect par e E, u, v portent intrinsquement des valeurs analogiques calculables dans Q de rsistance, charge, capacit, chauffement, puissances dpendant de V, E. - e E assimil un ux quelconque ou de valeur quantiable = 0, e porte intrinsquement des valeurs analogiques calculables dans Q de rsistance, charge, capacit, chauffement, puissances. Pour e, ou sont mesurs en pseudo-tension Te et pseudo-intensit Ie . partir de ces assertions et de nos premires expriences en ARSEI lies au projet S OCIO (i.e. un projet consacr la gestion du capital humain et social au sein dorganisations mtiers), nous proposons un premier ensemble de connaissances ddies lidentication du stress individuel. Ces connaissances sont exprimes laide des rgles 16 et axiomes 17 suivants :
PRISE

* rgle 1 : Si CCu =

chargeu capaciteu

augmente et CCu < 80%, alors u augmente 18 .


2

(e1,u,e2) augmente et Pu 1, * rgle 2 : si Pu = P maxu alors u et echauf f ementu augmentent (Pu reprsente une puissance utile).

resistanceu .intensite

14. Q. Wang utilise la ractance comme paramtre du rseau de neurones, pour contrler les dfauts du rseau lectrique. 15. Dans un lment purement rsistif, la ractance est nomme impdance et reste gale la rsistance mesure pour un courant continu. 16. Une rgle vrie en toute circonstance la conclusion de prmisses donnes. 17. Un axiome afrme une vrit indniable et indmontrable - cf. abduction, induction. 18. Par analogie aux rseaux lectroniques de puissance, on intgre la notion de seuil de charge minimal sous lequel le rendement seffondre.

A5-25

Analyse statique et smantique de rseaux sociaux dentreprises et institutions

* rgle 2 bis (apprentissage par infrence sur rgle 2) : si echauf f ementu augmente, alors u augmente. * rgle 3 : si Pu augmente et Pu > 1, alors u diminue, P maxu diminue et echauf f ementu augmente rapidement (Pu a dpass P maxu ). * rgle 3 bis (apprentissage par infrence sur rgle 3 et supervision de lexpertise) : si u diminue et echauf f ementu augmente, alors diminution rapide de P maxu et risque de destruction. * axiome 1 (apprentissage par infrence supervise sur rgle 1) : si CCu 0.8, alors risque de pertes de performances socioprofessionnelles. * axiome 2 (apprentissage par infrences sur rgle 3 et 3 bis) : si Pu > 1, alors risque de troubles socioprofessionnels. * axiome 3 (apprentissage supervis sur axiomes 1 + 2 et leurs prmisses) : optimisation de la performance quivaut CCu > 0.8 et Pu 1. * axiome 4 (apprentissage par symtrie sur axiome 3 et ses prmisses ) : risque de troubles socioprofessionnels quivaut risque de pertes de performance conomique. In ne, nous prvoyons de formaliser une mesure scalaire de ractance u par le systme dquations sous-jacent ces rgles et axiomes, mesure actuellement inexistante. Lintrt de lapproche smantique couple aux modles statistiques tient dans la dcouverte de connaissances conceptuelles implicites pour lanalyse statique des rseaux sociaux.

Conclusion

Nos travaux visent dnir un modle la fois statique et smantique dAnalyse de Rseaux Sociaux dEntreprises et dInstitutions (ARSEI). Leur originalit rside, dune part, dans lintgration au sein dun mme modle des aspects statiques et smantiques de lARSEI et, dautre part, dans la dnition de 3 mesures fondes sur des apports pluridisciplinaires. Ces nouvelles mesures sont respectivement ddies lvaluation des notions de tension, dintermdiarit smantique et de ractance en ARSEI. La smantisation des mesures de F REEMAN, sur le modle de lintermdiarit smantique, permet de qualier les changes collaboratifs quantis et dtablir au sein des RSEI de nouveaux degrs de centralit sur les individus, corrlant les dimensions statistiques et conceptuelles via les ressources endognes et linterdisciplinarit scientique 19 . Ces travaux sont la base du dveloppement de nouveaux outils daide la dcision, pour la gestion du capital humain et social dans les entreprises et institutions. Plus particulirement, ils permettent de rpondre des problmatiques de prvention du risque de troubles socioprofessionnels, risque de perte de performance conomique et risque social. Dun point de vue applicatif, ils sont en cours dexprimentation dans le cadre du projet S OCIOPRISE 20 . Dun point de vue thorique, ils se poursuivent sur lintgration dun aspect dynamique de lARSEI.
19. Les raisonnements et procdures de construction de nos hypothses appelant des processus cognitifs et notions de psychologie complexes, nous sortirions du cadre donn cet article, comme des contraintes ddition, en les dtaillant. 20. Pour des raisons de maturit et de proprit intellectuelle du projet S OCIOPRISE, nous ne pouvons fournir, ce stade, de retour dexprience ou de complment dinformation sur lvaluation des rsultats.

A5-26

C. Thovex et F. Trichet.

La prise en compte des travaux de K IRCHHOFF, dA MPRE et de M AXWELL en lectrodynamique ou de M ARKOV en statistique est envisage pour ltude prdictive de lvolution structurelle des rseaux sociaux. La perspective applicative de cette dmarche est dassister loptimisation des groupes de travail et de la performance. La perspective thorique est de formaliser un modle complexe et multidimensionnel danalyse statique, dynamique et smantique danalyse de rseaux sociaux dentreprises et dinstitutions.

Rfrences
Aim, X., F. Furst, P. Kuntz, et F. Trichet (2009). Gradients de prototypicalit conceptuelle et lexicale : une contribution la pragmatisation des ontologies de domaine. Revue des Nouvelles Technologies de lInformation (RNTI) - Extraction et Gestion des Connaissances (EGC08) 11-1, 127132. Aleman-Meza, B., M. Nagarajan, C. Ramakrishnan, L. Ding, P. Kolari, A. Sheth, I. B. Arpinar, A. Joshi, et T. Finin (2006). Semantic analytics on social networks : experiences in addressing the problem of conict of interest detection. In WWW 06 : Proceedings of the 15th international conference on World Wide Web, New York, NY, USA, pp. 407416. ACM. Barabasi, A.-L. et R. Albert (1999). Emergence of scaling in random networks. Science Magazine Vol. 286(no. 5439), pp. 509 512. Brehm, J. (1966). A Theory of Psychological Reactance. Academic Press. Burt, R. (1995). Le capital social, les trous structuraux et lentrepreneur. Revue Franaise de Sociologie 36(4), 599628. Erds, P. et A. Rnyi (1959). On random graphs. Publicationes Mathematicae 6, 290297. Erto, G., F. Gandon, J. De Santo, M. Buffa, et O. Corby (2009). Semantic social network analysis. In Proceedings of the WebSci09 : Society On-Line, 18-20 March 2009, Athens, Greece. Freeman, L. (1977). A set of measures of centrality based on betweenness. Sociometry 40, 3541. Freeman, L., W. Bloomberg, S. Koff, M. Sunshine, et T. Fararo (1960). Local Community Leadership. Syracuse. Gruber, R. T. (2008). Collective knowledge systems : Where the social web meets the semantic web. Web Semantics : Science, Services and Agents on the World Wide Web 6(1), 413. Gruber, T. (1995). Toward principles for the design of ontologies used for knowledge sharing. International Journal of Human Computer Studies 43(5/6), 907928. Gyongyi, Z., H. Garcia-Molina, et J. Pedersen (2004). Combating web spam with trustrank. In 30th International Conference on Very Large Data Bases (VLDB 2004). Jean, G. et D. Rallet (2001). Capital humain et capital social. Nouveaux Regards (revue) (14). http://institut.fsu.fr/nvxregards/14/14_rallet_jean.htm. Jung, J. et J. Euzenat (2007). Towards semantic social networks. In ESWC 07 : Proceedings of the 4th European conference on The Semantic Web, Berlin, Heidelberg, pp. 267280. Springer-Verlag.

A5-27

Analyse statique et smantique de rseaux sociaux dentreprises et institutions

Krivelevich, M. et B. Sudakov (2002). Sparse pseudo-random graphs are hamiltonian. Latora, V. et M. Marchiori (2001). Efcient behavior of small-world networks. Physical Review Letters 87(19). Lazega, E. (2001). The Collegial Phenomenon : The Social Mechanisms of Cooperation Among Peers in a Corporate Law Partnership. Oxford. Leskovec, J. et E. Horvitz (2008). Planetary-scale views on a large instant-messaging network. In WWW 2008, April 21-25, 2008, Beijing, China. ACM 978-1-60558-085. Manine, A.-P. (2009). Acquisition de la thorie ontologique dun systme dextraction dinformation. In Revue des Nouvelles Technologies de lInformation (RNTI E-15). Extraction et Gestion de Connaissances 2009 (EGC09), Volume E-15, pp. 421426. Editions Cpadus. ISBN 978.2.85428.878.0. Page, L., S. Brin, R. Motwani, et T. Winograd (1999). The pagerank citation ranking : Bringing order to the web. Technical Report 1999-66, Stanford InfoLab. Previous number = SIDLWP-1999-0120. Sowa, J. (2000). Knowledge Representation : Logical, Philosophical, and Computational Foundations. Brooks Cole Publishing Co. Thomassen, C. (1990). Resistances and currents in innite electrical networks. J. Comb. Theory Ser. B 49(1), 87102. Wang, Q. (2009). Articial neural network and hidden space svm for fault detection in power system. In ISNN 2009 : Proceedings of the 6th International Symposium on Neural Networks. Springer Verlag. Zekri, N. et J.-P. Clerc (2002). tude statistique et dynamique de la propagation dpidmies dans un rseau de petit monde. Comptes Rendus Physique 3(6), 741747.

Summary
Social networks of the Web 2.0 have become global, as FaceBook and MSN show, each one federating 3.6% of the world population. In 1989, L. C. F REEMAN published the rst metrics for Social Networks Anaysis (SNA), mainly based on graph-mining models. Our works aim to make converge these models for static analysis, extended by multiple contributions, with the conceptual aspects of social graphs of enterprises and institutions. These conceptual aspects constitute ontologies found in the endogenous information, connate to the studied social networks and trades oriented. This original and multidisciplinary approach aims to discover new multidimensional measures in SNA for new decision-making functions in human resources management. Our approach, involved in a partnership with a leader company in human capital management software, is in line with the S OCIOPRISE project retained by the french State Secretariat at the prospective and development of the digital economy.

A5-28

Vers une constitution automatique des rseaux dentreprises collaboratifs partir du web
Kafil Hajlaoui*, Xavier Boucher* Michel Beigbeder* *158 cours Fauriel, centre G2I 42023 Saint Etienne {hajlaoui, boucher, mbeig}@emse.fr

Rsum. Dans cet article, nous proposons une approche de recherche et de traitement de linformation pour la constitution des rseaux coopratifs dentreprises partir de leur site web. Cette approche est base sur une procdure automatique dextraction dinformation pour la gnration des nouvelles connaissances. Ces connaissances sont les raisons qui peuvent et/ou qui doivent amener les entreprises envisager des cooprations entre elles. Dans cet objectif, connaitre en temps rel et avec prcision le secteur dactivit de lentreprise est indispensable. Lapproche aborde dans cet article repose sur des outils et des mthodes de recherche dinformation, savoir, lindexation contrle et le matching. La bonne connaissance de cette activit permet de faire merger des rseaux coopratifs dentreprises de divers types.

1 Introduction
Lvolution de lconomie, la concurrence, la pression des donneurs dordre et limpact des nouvelles technologies de linformation et de la communication (TIC) sont quelques unes des raisons qui amnent les entreprises envisager des collaborations techniques et conomiques. La collaboration inter-entreprises intervient lorsque plusieurs entreprises dcident de mettre en commun des informations, des ressources ou des comptences dans la poursuite dobjectifs conjoints, qui pourront dboucher sur des activits coordonnes voire intgres. Par exemple, deux entreprises peuvent collaborer parce que chacune possde une partie de linformation, de lexpertise et des ressources ncessaires la mise au point dun produit. Cet aspect collaboratif dans les rseaux des entreprises ncessite de mettre en place diffrentes architectures pour la gestion des processus de collaboration et diffrentes mthodes et outils daide la dcision stratgique pour lentreprise. Le dveloppement dapproches de type dcisionnel requiert de dployer des solutions pertinentes de traitement de linformation, qui pourront devenir le support de processus de pilotage des activits et processus ou encore de processus de pilotage des systmes de comptences. Dans lenvironnement conomique moderne, caractris par des mutations incessantes, les entreprises sont appeles tre adaptatives, flexibles et proactives. Pour cela, elles construisent des espaces coopratifs dans lesquels elles travaillent et ragissent ensemble. Ces espaces coopratifs, appels le plus souvent "nouvelles formes organisationnelles", ont merg dans les annes 80 sous diverses formes (rseau dentreprises, entreprise virtuelle,

A5-29

Vers une constitution automatique des rseaux dentreprises collaboratifs

cluster, groupement de PME). Une entreprise possde souvent des liens et des relations de diffrents types avec divers partenaires en fonction de ses objectifs, besoins et caractristiques. Cette multiplicit et diversit des liens a amen les dirigeants, mais aussi les chercheurs, prendre en compte lentreprise avec ses ramifications. Des travaux antrieurs au sein de notre quipe ont port sur lentreprise virtuelle (Burlat et Benali, 2007). Ces travaux ont propos des mthodes et des outils daide la dcision pour la construction des rseaux dentreprises bass sur deux critres conomiques cls de rapprochement dentreprises : la complmentarit des activit et la similarit des comptences. Ces outils sont bass sur la collecte et le traitement des donnes concernant les entreprises. Ces donnes sont collectes manuellement partir dun questionnaire rempli par les dirigeants dentreprises. Il savre que les dirigeants ne sont pas toujours collaboratifs et actifs pour fournir linformation pertinente. Ce qui est une limite majeure pour ces outils. Notre contribution vise rsoudre cette limite en proposant des mthodes automatiques de collecte et de traitement des donnes pour la dtection des activits dentreprises complmentaires. Ces mthodes sont dveloppes dans un environnement ouvert bas sur linformation publique, sans frontire restreinte sur la recherche des partenaires. Elles reposent sur la recherche et lextraction dinformation partir des sites web des entreprises.

2 Organisations virtuelles et recherche dinformations


2.1 Organisations virtuelles
Le concept de lorganisation virtuelle (OV) reprsente un des exemples les plus discuts des rseaux de collaboration, qui a soulev des esprances considrables dans beaucoup de domaines dapplication (rseaux dentreprises, les hpitaux, les universits, les organisations gouvernementales etc). La possibilit de former rapidement une OV, dclenche par une opportunit commerciale et spcifiquement conue en fonction des conditions de cette occasion, est frquemment mentionne comme expression dun mcanisme dagilit et de survie face la turbulence du march. La mme ide est galement trs attrayante dans dautres contextes orients affaires. Dans la suite nous allons expliciter la problmatique des organisations virtuelles dans le cadre de notre travail, montrant en particulier comment est justifi le besoin de la recherche et lextraction dinformation pour la construction des rseaux dentreprises. Si nous nous intressons cet objectif de recherche et dextraction de linformation pertinente qui permettent la construction des rseaux, il y a en littrature beaucoup de recherche traitant les donnes caractristiques sur les partenaires potentiels pour des organismes grs en rseau (Camarinha-Matos et Afsarmanesh 2003, Plisson.J et al. 2007, Ermilova et al. 2005). Cependant, ces approches sont dveloppes dans un environnement virtuel ferm (Virtuel Breeding Environment). Ce VBE fournit dj une prslection des partenaires potentiels, dans lesquels tous les organisations donnent volontairement les donnes caractristiques exiges. Au contraire, lapproche que nous nous prsentons dans cet article est base sur lhypothse dun environnement ouvert des partenaires potentiels, de ce fait ayant une plus large application. Dans le cycle de vie des organisations virtuelles, on considre que la cration dentreprise virtuelle court terme requiert la mise en place pralable de rseau long terme nomm VBE (FIG 1).

A5-30

Hajlaoui et al.

FIG. 1 Cycle de vie des Organisation Virtuelles. Un VBE est une association dorganisation adhrant un accord dorganisation long terme o ses membres sont recruts dans un univert Ouvert selon des critres dfinis par les administrateurs. Une VO est une organisation provisoire dclenche pour une occasion spcifique de collaboration. Lobjectif principal du VBE est damliorer ltat de prparation de ses membres pour crer efficacement des VO.

2.2 Besoin de recherche dinformations


Pour faciliter la coopration, ces organisations ont besoin dune infrastructure leur permettant de partager des documents, de travailler et de communiquer ensemble malgr les contraintes gographiques. Cest pourquoi les organisations virtuelles sappuient fortement sur les technologies de traitement de linformation. Pour construire un systme daide la dcision pour la gestion de la collaboration interorganisations, les approches de recherche et dextraction dinformations sont sollicites pour mettre en exergue linformation caractrisant le rseau (Yeong 2009, Camarinha-Matos et Afsarmanesh 2003, Plisson.J et al. 2007, Ermilova et al. 2005). Ces approches de recherche et dextraction dinformation grent la cration dynamique des organisations virtuelles. Il existe deux types de recherche pour la gestion dynamique de ces organisations virtuelles: - Une recherche dans un environnement ferm o les organisations se mettent daccord davance pour travailler ensemble court terme (pour une dure prcise). Pour ce faire, elles partagent leurs connaissances et leurs informations (savoir faire, comptences ) sous un format donn et une structure homogne. Cette alliance est en gnral dfinie sur un court terme, une fois le bien ou le service livr, le regroupement est dissoci. Ce type de rseau est caractris par des frontires trs nettes et les nouveaux venus ne sont autoriss quen cas dincident (Exemple : un partenaire quitte le rseau).

A5-31

Vers une constitution automatique des rseaux dentreprises collaboratifs

Une deuxime recherche qui se fait dans un environnement ouvert o les organisations ne se connaissent pas et ont une information htrogne publique et non restreinte. Ce type dinformation rend la recherche plus difficile car on est face des documents mal structurs. Ce type de rseau est ralis pour un nombre non prdfini de processus, ce sont des alliances caractre stratgique. Toutes les organisations intresses et correspondantes aux objectifs du rseau peuvent y adhrer. Notre travail se situe dans le deuxime type de recherche. Des travaux antrieurs au sein de notre quipe ont propos une typologie des modes de coordination entre les diffrentes entreprises du rseau (Peillon 2001, Burlat et al. 2001). Cette typologie est base sur deux paramtres : la complmentarit des activits et la similarit des comptences. Ces deux paramtres ont t identifis comme tant discriminants pour justifier le choix dun type de coopration industrielle. Cest pourquoi notre besoin dinformation sarticule autour de deux systmes dextraction dinformation (complmentarit des activits et similarit des comptences). Nous nous limitons dans ce papier la recherche et lextraction dinformation sur les secteurs dactivits dentreprises. Nous proposons une approche base sur des mthodes et outils de la recherche dinformation. Les informations extraites sur les activits et les savoir faire, nous les utiliserons dans une deuxime tape pour montrer comment elles gnrent des nouvelles connaissances et permettent de faire merger des propositions oprationnelles de mise en rseaux des entreprises.

3 Approche propose
Lobjectif principal de notre approche est de dtecter automatiquement le secteur dactivit de lentreprise. Connaitre lactivit principale dune entreprise donne est une question importante pour la gestion dun rseau de collaboration. Cest aussi une question pertinente pour lentreprise elle-mme pour savoir quels sont ses concurrents ou simplement pour sassurer quelle met suffisamment dinformation publique propos de son activit, par exemple sur son site web.

3.1 Dmarche de recherche


Notre dmarche de recherche est base sur le modle de transformation donnes, informations, connaissances : Les donnes sont les sites web des entreprises reprsents par les pages html contenant des textes mal structures. Les informations sont les secteurs dactivits que nous souhaitons les dtecter automatiquement par lapplication des modles et des mthodes de la recherche dinformations. Les connaissances sont les regroupements dentreprises qui sont mergs par lapplication des mthodes formelles daide la dcision.

A5-32

Hajlaoui et al.

FIG. 2 Dmarche de recherche. Avec cette dmarche de recherche, nous cherchons aussi tudier la question des performances et de ladquation ventuelle des techniques de la recherche dinformation dans une application spcifique un domaine dinformation mtier cibl (secteurs dactivits des entreprises). Le domaine mtier est en premier lieu caractris par une complexit importante lie au fait que linformation sy exprime de manire peu contrle et peu structure : les textes composant le corpus ne suivent aucune structure standard ; la smantique du vocabulaire utilis est trs li au domaine mtier (vocabulaire contextualis) ; la structure linguistique des textes est parfois absente ; lensemble de ces facteurs induisent de forts risques dambigut. Mais le domaine mtier est galement caractris par un ensemble de spcificits dont on peut tirer parti de manire formelle, permettant de rduire cette complexit intrinsque. Dans notre dmarche de recherche, nous navons pas de rponse a priori sur lefficacit des techniques de RI lorsquelles sont confrontes la ralit de linformation mtier : lvaluation de leurs performances font partie de ltude. Ayant dlimit ce "domaine informationnel mtier", nous avons cherch tirer parti de ses spcificits en cherchant des caractrisations de ce domaine, afin daccroitre lefficience des dispositifs de RI : par quelle unit informationnel est exprim ce domaine (mot, expression ou phrase)? Quelle granularit peut-on avoir sur les secteurs dactivits des entreprises? Quelle ambigit informationnelle et smantique peut-on croiser dans ce domaine et par quelle ressource smantique (taxinomie, thesaurus) peut-on guider la recherche?

3.2 Approche de dtection des secteurs dactivits


Notre approche se droule en trois phases dcrites par la figure 4. Tout dabord, dans la premire phase nous utilisons un thsaurus qui reflte une reprsentation smantique et conceptuelle de tous les domaines dactivits. Dans notre cas le thesaurus est le code NAF1. Cest lun des codes dINSEE, il permet la codification de lactivit principale exerce dans lentreprise ou lassociation. Le code NAF nous fournit une reprsentation conceptuelle hirarchise de tous les secteurs dactivits dun domaine industriel : cest une structure hirarchique de classes et sous-classes de secteurs dactivits. Ce code NAF va tre utilis comme ressource smantique externe, afin damliorer lexpressivit du besoin dinformation avant de le soumettre au systme de recherche dinformation. Lintrt du code NAF est quil dlimite le domaine de recherche en explicitant ses caractristiques et ses
1

. http://www.insee.fr/fr/nom_def_met/nomenclatures/naf/pages/naf.pdf

A5-33

Vers une constitution automatique des rseaux dentreprises collaboratifs

spcificits. Le systme de dtection des secteurs dactivits que nous ralisons traite des entreprises franaises, mais il est facilement exploitable linternational pour tout pays francophone : la dtection automatique du NAF permet de traiter toutes les entreprises, indpendamment du fait que leur NAF soit ou non rpertori dans les bases de donnes institutionnelles. Dans notre recherche, le NAF est utilis pour amliorer lefficacit du processus dindexation des sites web des entreprises. Il va servir contrler linformation qui circule dans le texte pour ne laisser passer que celle pertinente notre domaine informationnel. Cette indexation conceptuelle tend ne slectionner que les plus importants concepts figurant dans le NAF, au contraire dune indexation classique qui a pour but de couvrir tout le document. Paralllement nous utilisons cet apport smantique de manire plus large grce aux techniques dapprentissage par rseau de neurones en crant des liens smantiques (synonymie, gnralisation...) entre les termes du domaine.

FIG. 3 Extrait des classes et sous-classes NAF utilises Notre thesaurus est utilis en amont du moteur de recherche. Il sert de ressource smantique externe pour amliorer lexpressivit du besoin dinformation (quelle est mon code NAF partir de mon site web ?) avant de le soumettre au systme de recherche dinformation. Cette technique peut savrer efficace, notamment lorsquil sagit dinformation traitant dun domaine spcifique (activits des entreprises par exemple), dans la mesure o elle permet lutilisateur dexprimer son besoin dinformation dans un langage contrl. Nous effectuons la lemmatisation (avec loutil TreeTagger) des termes du thesaurus ainsi quune limination des mots vides. Le rsultat est le Vocabulaire Contrl Hirarchique (VCH) qui est un ensemble de termes (mots simples et mots composs), par exemple : usinage, emboutissage, machines-outils. Dans une premire phase une pondration manuelle est faite sur ce vocabulaire contrl ; elle permet dattribuer, par expertise, un poids (1, 2 ou 3) pour chaque terme. Le poids dun terme dans un document traduit limportance de ce terme dans le document. En rorganisant lensemble des termes du VCH selon la structure initiale du NAF, nous obtenons un vecteur pour chaque classe NAF (vecteur classe). Dans une deuxime phase, nous utilisons le VCH pour raliser une pondration automatique du site web de lentreprise. Cette pondration est base sur le calcul de la frquence du terme dans le texte du site de lentreprise aprs avoir effectu un filtrage pour ne garder que les termes qui sont prsents dans le VCH.

A5-34

Hajlaoui et al.

. FIG. 4 Approche vise pour lextraction des activits dentreprises Notre approche (FIG 4) repose sur lide quil existe un rapport entre le contenu vhicul par un texte et les mots utiliss dans le texte, que ce rapport est en fonction de la frquence dusage des mots, et quil existe une relation entre la capacit dun mot tre choisi comme terme dindexation et sa frquence demploi. Avec ces deux phases, nous voulons construire des vecteurs pour toutes les classes et les sous-classes du NAF, i.e C28, C28.1, C28.2, etc, et construire un vecteur pour chaque site web dentreprise. Chaque vecteur est lensemble des descripteurs dun document (classes ou sous-classes NAF) ou dune requte (site web dune entreprise) avec leurs pondrations (poids informationnels). Pour cela, on utilise les techniques traditionnelles de la RI et une reprsentation vectorielle des termes des libells des classes et sous-classes NAF. Dans une troisime phase, on effectue un matching entre le vecteur classe et le vecteur entreprise pour mesurer le degr de rapprochement.

3.3 Matching
Ltape de matching (appariement), quant elle, constitue une phase de calcul de similarit entre vecteur requte et vecteur document . Elle se droule en deux tapes : dans un premier temps on cherche se positionner sur la classe du NAF la plus pertinente pour lentreprise ; dans un deuxime temps on explore les sous-classes de cette classe pour se positionner de nouveau sur une sous-classe. En vue doptimiser la performance finale, nos travaux nous ont conduits dvelopper dune part des mesures de similarit utilisant trois fonctions traditionnelles de la recherche dinformation (Produit scalaire, Cosinus et Jaccard) et dautre part une mesure de similarit base sur un modle connexionniste (mise en place dun rseau de neurones pour le calcul de lappariement (Hajlaoui et al. 2009)). Ds le dpart une fonction de similarit de type td-idf nous a semble mal adapte notre cas, car les documents de la collection ont des petites tailles. Cest pourquoi notre choix de fonctions de similarit sest port sur ces trois fonctions principales. Nous nous limitons ci-dessous synthtiser les performances obtenues.

A5-35

Vers une constitution automatique des rseaux dentreprises collaboratifs

4 Evaluation
Lvaluation de la performance du systme est base sur le calcul des deux indicateurs de performance prcision et rappel . La prcision est la capacit du systme rejeter les documents non pertinents, le rappel est la capacit du systme retrouver les documents pertinents. Notre objectif est daugmenter la prcision du systme ainsi que son rappel, mais aussi viter le plus possible davoir des valeurs nulles qui signifient que le systme ne retrouve pas de documents pertinents. La performance du systme dpend non seulement de la mesure de la similarit mais de la faon de dfinir l'ensemble final de documents appropris.
1 0,8 0,6 0,4 0,2 0 Prcision Rappel Prcision nulle Modle Vectoriel (Cosinus) Modle connexionniste Enrichi

FIG. 5 Evaluation de lidentification des secteurs dactivits La figure 5 ci-dessus compare les performances entre la mesure de similarit base sur la fonction cosinus (plus performante que les fonctions Produit Scalaire ou Jaccard suite nos exprimentations), et un matching mise en uvre par un rseau de neurones (tel que spcifi dans (Hajlaoui et al. 2009)). Ces rsultats mettent en vidence que la prcision est lgrement meilleure pour la fonction cosinus, mais que le modle connexionniste a permis damliorer le rappel et lindicateur de prcision nulle. Concernant la comparaison entre ces 2 appariements, dautres exprimentations seraient ncessaires dans le futur pour obtenir des conclusions plus dfinitives. En revanche, nous pouvons dore et dj confirmer que la capacit identifier correctement un code NAF est dores et dj leve (TAB 1). Ainsi, ces techniques de recherche dinformation savrent efficaces, lorsquelles sont enrichies par lusage dune ressource smantique externe spcifique au mtier, du type du code NAF. modle Vectoriel 92% 76% Modle connexionniste 2 88% 88%

Classes NAF identifies Sous-classes identifies

TAB. 1 Performance obtenues pour les deux modles vectoriel et connexionniste

5 Application la constitution des rseaux dentreprises


Cette application constitue un test de faisabilit sur lusage de linformation extraite des sites web sur les codes NAF dentreprise. Lusage que nous testons concerne la recherche de rseaux collaboratifs inter-entreprises. Comme nous lavons introduit plus haut, il sagit ici

A5-36

Hajlaoui et al.

de tester la possibilit dappliquer une mthode dj existante et dvelopp par (Benali, 2005). En ce qui concerne lanalyse des activits dentreprises, cette mthode prconise didentifier un Graphe de Complmentarit des Activits (GCA), afin dappliquer ce graphe un algorithme de clustering. Afin de dterminer un graphe de complmentarit entre les secteurs dactivits dentreprises considres, nous avons utilis les caractristiques du code NAF. Le code NAF prsente lintrt dtre gnrique, et reconnu par les acteurs du monde industriel (notamment en mcanique). Nous avons ainsi recueilli des informations complmentaires auprs dexperts du domaine de la mcanique pour valuer un degr de complmentarit gnrique entre les classes ou sous-classes du code NAF. (Hajlaoui et al., 2008). Linformation recueillie auprs de ces experts a t formalise sous forme dune matrice de degrs de complmentarit entre les diffrents secteurs dactivits associs aux codes NAF (domaine mcanique). Cette Matrice peut tre galement reprsente sous forme dun graphe (figure 4).

Figure 4. Rsultat du positionnement automatique des 25 entreprises sur le GCA Les 25 entreprises tudies lors de ltape de dtection des secteurs dactivits sont distribues sur 8 secteurs dactivits. Une entreprise reprsentative est choisie pour chaque secteur. Nous rutilisons lalgorithme propos par (Burlat et Benali, 2007). Lobjectif de cet algorithme est disoler des sous-graphes fortement interconnects en minimisant la perte dinformation (perte darcs, perte de complmentarit potentielle). Ces sous-graphes reprsenteront les entreprises trs complmentaires qui permettront de justifier dune relation de type rseau proactif ou de type firme . Lalgorithme est bas sur du partitionnement et il prend en compte plusieurs aspects spcifiques du graphe de complmentarit des activits tabli par lexpert. Il prend en compte non seulement la quantit dinformation perdue, mais aussi la qualit dinformation : la quantit dinformation cest le nombre darcs limins et la qualit dinformation est donne par le degr de complmentarit. Lalgorithme regroupe les entreprises en petits rseaux (dnomms clusters) en liminant le moins des arcs possibles et les moins significatifs (de poids faible). Un indicateur caractristique des regroupements obtenus est lindicateur I qui traduit lintensit de coopration au sein dun cluster.

A5-37

Vers une constitution automatique des rseaux dentreprises collaboratifs

TAB. 2 Construction des groupes dentreprises en coopration L'algorithme de division procde par itrations successives pour dterminer les sousgroupes d'entreprises qui ont des activits complmentaires. Le nombre pertinent ditrations peut tre choisis lors de lexprimentation en rfrence deux indicateurs de qualit de la solution fournie (TAB 2) Par exemple aprs six itrations les sous-groupes suivants sont obtenus : G1= {E7}; G2= {E8}; G3= {E5, E4}; G4= {E1, E2, E3, E6} Lentreprise E7 se retrouve isole ds le dbut des itrations, c'est--dire avec une trs faible intensit de coopration. Nous avons pu vrifier a posteriori la cohrence de ce rsultat, compte tenu du code NAF de E7. Deux clusters G3 et G4 apparaissent. Ces 6 itrations correspondent une intensit de coopration moyenne (I=0,54), au sein des clusters, avec une logique de coopration intra-cluster de type Rseau Proactif (Burlat et Benali, 2007). Cette premire application, met en vidence la faisabilit lensemble de la dmarche propose, consistant extraire des sites web dentreprises une information synthtique sur les secteurs dactivits dentreprises, afin dappliquer dans une seconde tape des outils daide la dcision facilitant lmergence de rseaux collaboratifs inter-entreprises. Cependant les premiers rsultats montrent les limites de nutiliser quune information concernant les secteurs dactivits : en effet nous avons soulign que les 25 entreprises de lexprimentation se rpartissaient au final sur 8 secteurs dactivits. Cette donne seule ne suffit pas traiter la problmatique de cration des rseaux collaboratifs.

6 Conclusion
Nous avons prsent une contribution de dtection automatique des activits des entreprises. Cette contribution prsente un systme automatique dextraction dinformation sur les activits des entreprises partir de leurs sites web. Elle est base sur des mthodes et des

A5-38

Hajlaoui et al.

outils de recherche dinformation. Les mesures de similarit utilises sappuient sur les indicateurs standards de la RI (Prcision et Rappel) et montrent une performance autour de 80% de bonnes rponses. Cependant la complmentarit des activits des entreprises est insuffisante pour regrouper correctement les entreprises dun mme rseau de coopration. Cest pourquoi nous avons besoin du second systme dextraction concernant cette fois les comptences des entreprises. La question dextraction des comptences est une question plus complexe rsoudre, en absence des ressources smantiques structurs propres au domaine mtier et dcrivant la notion de comptences dentreprises. Nos travaux de recherche actuels sollicitent cette problmatique par le recours des techniques dextraction plus avancs : Analyse de texte, traitement de la langue naturelle et la construction et utilisation des ontologies du domaine concerne.

Rfrences
Burlat P., Benali M. A methodology to characterise co-operation links for networks of firms. Production Planning & Control Vol. 18, No. 2 March 2007, 156-168 Burlat P., Vila D., Besonbes B., et Deslandres V., "Un cadre de modlisation des trajectoires dvolution des groupements dentreprises", Congrs International de Gnie Industriel, Marseille, France 2001. Camarinha-Matos, LM., Afsarmanesh H. Elements of a base VE infrastructure,. Computers in Industry, 51, pp. 139-163 2003. Ermilova, E., Galeano N., Afsarmanesh H. ECOLEAD deliverable D21.2a. Specification of the VBE competency/profile management, 2005. Hajlaoui K. and Boucher X. Neural network based text mining to discover enterprise networks. In 13th IFAC Symposium on Information Control Problems in Manufacturing (INCOM2009). Moscow, Russia, 2009. Hajlaoui K., Boucher X., Mathieu M. (2008). Data Mining To Discover Enterprise Networks, 9 th IFIP Working Conference on Virtual Entreprises (PRO-VE08) Poznan, POLAND, 8-10 September 2008. Plisson, J. Ljubic P, Mozetic I, Lavrac N. (2007). An ontology for Virtual Organisation Breeding Environments. To appear in IEEE Trans. On Systems, Man, and Cybernetics, 2007 Peillon S., "Le pilotage des cooprations inter-entreprises : le cas des groupements de PME", Doctorat dEconomie de lUniversit Jean Monnet 2001. Yeong Su Lee and Michaela Geierhos. Business specific online information extraction from german websites. In CICLing 09 : Proceedings of the 10th International Conference on Computational Linguistics and Intelligent Text Processing, pages 369381, Berlin, Heidelberg, 2009. Springer-Verlag. 63

A5-39

Vers une constitution automatique des rseaux dentreprises collaboratifs

Summary
In this paper, we propose a search system and automatic extraction of information starting for the web for decision aid approach to support the constitution of collaborative corporate networks. This approach based on an automated procedure of information extraction aiming at identifying key features of potential partner. This knowledge is the reason that may or must lead firms to consider cooperation between them. In this goal, to precisely know the activity of a company in real-time and its savoir faire is indispensable. In this article we present an approach based on the tools and the methods of information retrieval: controlled indexing and measuring similarity. This approach defines an IRS that allows automatic detection of the activity and the savoir faire from the company web site. The detection makes possible to emerge cooperative networks companies with various types

A5-40

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication
Slimane Lemmouchi, Mohammed Haddad, Hamamache Kheddouci Laboratoire LIESP Universit Claude Bernard 43, Bd du 11 novembre 1918 - 69622 Villeurbanne {slemmouc, mhaddad, hkheddou}@bat710.univ-lyon1.fr Rsum. Les rseaux sociaux et ltude des communauts dintrt sont devenus un vritable challenge et ce, dans diffrents domaines de recherche. Les interactions entre les nuds dans les rseaux de communications (exemple: les rseaux pair pair) induisent des structures de graphes ayant des caractristiques semblables celles trouves dans les rseaux sociaux (effet du petit monde, petit diamtre, faible densit globale et forte densit locale). Ces structures ou topologies virtuelles, appeles aussi graphes de communication, reprsentent les changes entre les nuds dans un rseau. Plusieurs aspects tels que ltude de la nature de ces topologies (arbre, clique, toile, ), leurs construction et volution dans le temps, leur robustesse face aux perturbations (disparition dun lien, panne sur nud de fort degr,) ont suscit lintrt de la communaut scientifique. Dans ce papier, nous nous intressons ltude de lmergence de telles structures ainsi qu' leur robustesse dans les rseaux de communications grande chelle avec une application aux rseaux pairs pairs. Nous nous focaliserons sur la quantification de la robustesse de ces structures de communauts ayant merges des communications issues de rseaux nature pair--pair.

1 Introduction
Les rseaux pair pair ou P2P permettent dchanger et de partager des ressources. La principale caractristique de ces rseaux est labsence dentits centrales et ainsi, les pairs peuvent communiquer directement entre eux pour trouver et partager des ressources. Contrairement aux systmes client-serveur o peu de serveurs sont connects plusieurs clients, les systmes pair pair sont dfinis comme des systmes distribus o les ressources et services sont partags directement entre les pairs. Ces systmes sont robustes, anonymes, flexibles et auto-organisables. Ils peuvent fonctionner avec une grande stabilit et une bonne rsistance face, ventuellement, une haute dynamique. Les rseaux P2P sont devenus ces derniers temps un centre d'intrt au regard du contenu chang entre les utilisateurs sur internet. Des tudes rcentes [1, 9] estiment que les fichiers P2P changs comptent pour environ 70% du trafic rseau. En effet, plusieurs tudes ont t menes pour diminuer le trafic dans les rseaux P2P en amliorant la recherche de ressources dans ces rseaux. A ce titre, plusieurs approches proposent le concept de P2P social network pour capturer les caractristiques sociales des pairs et des ressources partages [7].

A5-41

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication

Semblables des rseaux sociaux humains, un rseau social P2P est une collection de pairs informatiques connects (nuds), dont chacun de ces pairs connat un sous-ensemble dautres pairs. Les liens sociaux des pairs indiquent quun pair est un fournisseur de ressources ou peut fournir des informations sur dautres fournisseurs de ressource. Dans ce type de rseaux, les pairs ne connaissent pas tous les autres pairs dans le rseau. Ils peuvent communiquer directement avec certains pairs. Dans le cas idal, un pair voudrait communiquer uniquement avec les pairs ayant les ressources qui lintressent ou partageant avec lui un centre dintrt commun. Le centre dintrt dun nud est lensemble de ressources quil veut trouver sur un rseau. Cette communication entre pairs fait ressortir une topologie virtuelle qui reprsente les relations entre les pairs ayant chang des ressources. Cette topologie merge, quon appellera graphe de communication, possde une structure semblable celle dans les rseaux sociaux. Dans les rseaux sociaux, les individus tendent communiquer et partager plus de choses avec des individus se trouvant dans un mme groupe. Ces groupes sont en gnral appels clusters ou communauts. La dcouverte des structures de communauts merges dans les rseaux a fait lobjet de plusieurs travaux. Les techniques pour dtecter les communauts dun rseau sont un moyen couramment utilis pour simplifier ltude des rseaux, tant donn que le nombre de clusters est en gnral bien plus petit que le nombre de nuds. Cependant, des interrogations ont t suscites telles que : la robustesse de ces communauts merges? Leurs structures changent-elles aux perturbations ? Cest ce que nous essayons dy rpondre dans ce travail. Ce papier est organis comme suit. La section 2 prsente brivement quelques concepts sur les rseaux P2P, les techniques de dtection des structures de communauts ainsi que leur robustesse. La section 3 sera consacre la prsentation de notre approche. La section 4 est ddie aux exprimentations. La section 5 la description des rsultats prliminaires et enfin, la section 6 clturera notre papier.

2 Travaux antrieurs
Dans cette section, nous dfinissons quelques concepts utiliss dans ce papier.

2.1 Les rseaux sociaux P2P


La notion de rseaux sociaux et les mthodes danalyse des rseaux sociaux ont considrablement suscit, ces dernires annes, lintrt de la communaut scientifique spcialise dans les sciences sociales. Plusieurs recherches se sont intresses ltude des types des relations entre les entits et leur impact sur le rseau. En effet, Stanley Milgram fut lun des premiers ayant tudi les rseaux sociaux [20] travers lexprimentation (effet du petit monde) dans laquelle, il est montr que chaque individu peut tre connect nimporte quel autre individu par une courte chaine de relations sociales. Ce concept a donn naissance un autre concept appel six degrees of separation . Ce dernier concept montre que deux ci-

A5-42

S. Lemmouchi et al.

toyens amricains, choisis dune manire alatoire, sont connects entre eux, en moyenne, par une chaine de six relations. Les rseaux sociaux sont des groupes dindividus dune organisation, connects entre eux par des relations. Les individus dveloppent des relations (liens) avec dautres individus dans diffrents contextes et utilisent ces relations pour trouver des informations ou des services, dpendant du contexte. Comme dj mentionn plus haut, plusieurs tudes rcentes proposent des rseaux P2P sociaux qui capturent des associations sociales des pairs partir des ressources partages. Ces associations sociales sont caractrises notamment par la distribution de degrs, le coefficient de clustering, le plus court chemin, la corrlation entre la betweenness et le degr. Cette analyse donne une meilleure comprhension des associations des pairs dans le partage de ressources et apporte un plus dans la conception des rseaux P2P. Dans [10], les auteurs proposent une approche base sur l'aiguillage de requtes vers des pairs fortement susceptibles de satisfaire ces requtes avec une certaine similarit. Cette approche, qui utilise la simplicit de Gnutella, stipule que si un pair a un morceau particulier de contenu qui interesse un autre pair, alors il est trs probable qu'il ait d'autres ressources qui lintressent aussi. Une approche aussi semblable cette dernire et qui se fonde sur l'information fournie par la corrlation des utilisateurs, est galement prsente dans [5]. D'autres approches utilisant les concepts schema based peer-to-peer networks en combinant la notion de la technologie web smantique et les bases de donnes ont t galement prsentes dans [2, 11]. Dans ces cas, la description du nud est prise en compte pour grouper avec lui les nuds ayant une similarit de contenu.

D'autres travaux dans la thmatique sont galement labors et on retrouve galement les approches utilisant les schmas ontologiques. L'ontologie rapporte diffrents concepts employs pour dcrire le contenu informationnel des pairs. De cette faon, la recherche est excute non seulement sur des pairs de contenu semblable, mais galement sur les pairs dont le contenu est connexe par l'ontologie avec le contenu de la requte [21]. Cette recherche n'est pas uniquement effectue sur les pairs dont le contenu a une similarit avec la requte, mais galement sur les pairs dont leurs contenus sont connexes travers l'ontologie. Dans [8], les auteurs ont dfini une mthode, dnomme Semantic Partition Tree SPT qui utilise l'ontologie et qui consiste partitionner les rseaux en clusters et les requtes sont routes d'une manire smantique et chaque nud indexe les adresses des autres nuds qui possdent le contenu exprimable par le concept qu'il maintient. Dans [16], les auteurs ont utilis le concept de proximit smantique qui exploite les intrts exhibs parmi des pairs afin de dcomposer le rseau en clusters smantiques. Dans ce travail, les auteurs ont introduit la notion de user fileset qui permet chaque pair d'exprimer son intrt travers un ensemble de noms de fichiers qui correspond un nombre reprsentatif de fichiers qu'il gre.

A5-43

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication

2.2 Dtection des communauts


La dtection de structures de communauts dans un rseau grande chelle a fait lobjet de plusieurs travaux. Dtecter des communauts dans un rseau revient le dcouper en sous-ensembles tel que chaque sommet dun groupe possde plus de liens lintrieur du groupe qu lextrieur.

FIG. 1 Dtection de communauts dans un rseau. Un grand nombre de mthodes pour trouver des communauts ont t proposes ces dernires annes. Il existe essentiellement deux classes dapproches : les approches sparatives et les approches agglomratives.

2.2.1

Les approches sparatives :

L'ide commune toutes ces mthodes est d'essayer de scinder le graphe en plusieurs communauts en retirant progressivement les artes reliant des communauts distinctes. Les artes sont retires une une, et chaque tape les composantes connexes du graphe obtenu sont identifies des communauts. Le processus est rpt jusqu'au retrait de toutes les artes. On obtient alors une structure hirarchique de communauts (dendrogramme). Les mthodes existantes diffrent par la faon de choisir les artes retirer. Dans [12], Newman et al. ont dfini un algorithme pour trouver les artes avec une haute betweenness ou centralit dintermdiarit. La centralit dintermdiarit est dfinie pour une arte comme tant le nombre de plus courts chemins passant par cette arte. Cette mthode retire les artes de plus forte centralit d'intermdiarit. Il existe en effet peu d'artes reliant les diffrentes communauts et les plus courts chemins entre deux sommets de deux communauts diffrentes ont de grandes chances de passer par ces artes. Les algorithmes de Radicchi et al. [6] et d'Auber et al. [4] bass sur le clustering d'artes ainsi que lalgorithme de Fortunato et al. [18] bas sur la centralit dinformation font aussi partie de la famille des approches sparatives. 2.2.2 Les approches agglomratives :

Dans cette famille dapproches, chaque nud est considr comme tant une communaut, c..d. : il y a autant de communauts que de nuds dans le graphe initial. Les communau-

A5-44

S. Lemmouchi et al.

ts sont regroupes deux deux et la structure produite par ces algorithmes est un dendrogramme (un arbre montrant lordre de jointure des nuds). La mtrique utilise dans [13] pour assembler deux communauts est la modularit : Q = 2(eij - aiaj), o : eij est la fraction dartes dans le graphe qui connectent les nuds de la communaut i la communaut j eij. et ai = A chaque tape, les paires des communauts qui produisent la meilleure valeur de la modularit sont jointes. Toutes ces approches, sparatives et agglomratives, peuvent donner diffrentes partitions (communauts dtectes) et, pour mesurer la qualit de la partition obtenue, des fonctions de qualit ont t introduites. La fonction dfinie dans [14] en est une.

2.3 Robustesse des communauts


Les techniques pour dtecter les communauts dun rseau sont un moyen couramment utilis pour simplifier les rseaux, tant donn que le nombre de clusters est en gnral bien plus petit que le nombre de nuds. Cependant, plusieurs interrogations concernant notamment les structures de ces communauts ont t poses. Parmi ces interrogations, nous pouvons citer : la nature des structures dtectes (arbre, chaine, toile, .), leurs construction dans le temps, leur robustesse face des perturbations ou bruits introduits sur ces structures (par exemple : disparition dun lien entre 2 nuds, crash dun nud de fort degr,)etc. Dans notre tude, nous nous intressons la quantification de la robustesse des structures de communauts ayant merges des communications entre les nuds dans le rseau P2P. Mais avant dintroduire notre mthode, un bref tat de lart de quelques principales mthodes utilises pour perturber et quantifier des communauts est prsent : Karrer et al. [3] ont propos une mthode pour perturber des rseaux et mesurer les changements rsultants dans les communauts. Ces changements sont utiliss pour comprendre la signification des communauts dans une varit de rseaux (rels et gnrs). Dans leur papier, il a t montr que la signification de la structure de communaut peut-tre effectivement quantifie en mesurant sa robustesse des petites perturbations dans la structure du rseau. Dans [19], les auteurs ont explor la robustesse par la mesure de la centralit aux diffrentes perturbations. Dans ce travail, il a t introduit quatre types de perturbations : suppression darte, suppression de nud, ajout darte et ajout de nud. Les rseaux utiliss sont des rseaux gnrs alatoirement, de diffrentes tailles et de diffrentes densits.

Un autre travail intressant a t dtaill dans [17] o les auteurs ont tudi la raction des rseaux complexes sujets des attaques sur des nuds ou des artes. Dans ce travail, les auteurs ont dfini quatre stratgies dattaque pour tudier la corrlation entre la centralit dintermdiarit et le degr sur six graphes diffrents.

A5-45

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication

3 Mthodologie
Comme dj dit plus haut, notre travail tudie les structures de communauts merges des changes entre les pairs. Notre modle (cf. Figure 2) simule le fonctionnement dun systme P2P. Ce modle se dcompose en trois parties :

FIG. 2 Framework de dtection de communauts sociales.

3.1 Modle du rseau P2P :


Soit G = (V, E) tq : V :ensemble des sommets et E : ensemble des artes. Pour simuler plusieurs rseaux, nous avons gnr plusieurs graphes avec diffrentes tailles et diffrentes densits. La taille du graphe varie selon la variation du nombre de nuds et la densit selon le nombre dartes dans le graphe.

3.1.1

Gnration du graphe alatoire :

Les graphes utiliss dans nos simulations sont gnrs dune manire totalement alatoire selon le modle dErds-Rnyi. Du moment que ce modle nassure pas systmatiquement la connexit du graphe, une proprit Hamiltonienne est ajoute. Pour gnrer ces graphes, nous utilisons une probabilit p [0,1] dexistence des artes. Dune manire gnrale, plus p est grand, plus la densit du graphe est forte et vice versa. (p=1 : graphe complet)

3.1.2

Modlisation des ressources et des centres dintrt :

Pour chaque nud dsign fournisseur ou serveur, nous attribuons, alatoirement, un certain nombre de ressources quil devra fournir et, pour lensemble des nuds du graphe, quils soient demandeur ou fournisseur, nous attribuons un certain nombre ressources qui reprsentent ce quon appelle Centre dintrt du nud CIN . CIN est lensemble des ressources dont un nud (client ou serveur) peut chercher sur le rseau. L aussi, les CIN

A5-46

S. Lemmouchi et al.

sont aussi dfinis dune manire compltement alatoire et la taille du CIN diffre dun nud un autre.

3.2 Communication dans le graphe :


Aprs avoir dfini le graphe physique, le nombre de liens entre les nuds, les ressources par serveurs ainsi que les centres dintrt des nuds des nuds (serveurs et clients), nous commenons lexcution des requtes de recherche de ressources dans le rseau. Les requtes, dans notre modle, est modelis par lenvoi de message dun nud un autre, contenant la ressource trouver. Mais, avant denvoyer chaque requte, le nud consulte sa liste de nuds voisins pour dterminer sil existe parmi eux un nud avec lequel il a dj communiqu, auquel cas la requte va lui tre transmise. Dans le cas contraire, celle-ci va tre transmise un nud choisi alatoirement parmi ses voisins. Dans ce cas, 2 cas se prsentent : Le nud recevant la requte peut la satisfaire et la recherche est stoppe ; Le nud recevant la requte ne peut la satisfaire et, dans ce cas, la requte sera transmise lun de ses voisins.

3.3 Structure merges :


A cette tape, le graphe de communication, qui reprsente lensemble des changes (requtes) entre les nuds dans le rseau, est obtenu. Ce graphe possde une structure similaire aux structures de graphe dans les rseaux sociaux [21]. Pour dtecter les structures de communauts merges, nous avons utilis lalgorithme de Newman dcrit dans [13]. Cet algorithme, qui fait partie de la famille des approches agglomratives, permet dtudier des grands rseaux et utilise une fonction appele Modularit qui permet dvaluer la qualit de la partition obtenue.

3.4 Quantification de la robustesse des communauts :


3.4.1 Perturbation du rseau :

Notre approche pour valuer la robustesse des communauts merges se droule en deux tapes : 1- perturber le graphe de communication obtenu des changes entre les pairs et, 2- quantifier les changements oprs dans les structures de communauts. La mthode que nous avons adopte pour perturber le graphe de communication est similaire celle utilise par Karrer et al. [3]. Cette mthode consiste en la gnration dun 2me graphe identique au graphe de communication obtenu (mme nombre de nuds et mme nombre de liens). Lunique diffrence entre ces deux graphes est la distribution des artes.

A5-47

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication

En effet, la position des artes dans le 2me graphe est change selon une probabilit p. Si p=0, aucune arte nest dplace et dans ce cas, les deux graphes sont isomorphes. Si p=1, tous les liens sont dplacs. Larte dplace est place entre deux sommets non lis initialement. Dans notre tude, nous introduisons une faible perturbation (dplacement dun faible nombre dartes). Un dplacement dun grand nombre dartes gnre un graphe alatoire non corrl avec le graphe original.

3.4.2

Quantification des diffrences dans les structures de communauts

Pour valuer la robustesse des structures de communauts merges dans les rseaux de communication, nous considrons deux aspects : le nombre de liens dplacs et le nombre de nuds instables. Pour le 1er aspect nombre de liens dplacs , il existe plusieurs mthodes pour quantifier les diffrences entre les 2 graphes (original et perturb). En effet, des mthodes pour mesurer les similarits et les diffrences entre les partitions dun rseau ont t proposes dans la littrature. Nous pouvons classer ces mthodes en 3 catgories : les mthodes bases sur le comptage de pairs, les mthodes bases sur le matching de clusters et enfin, les mthodes thoriques [15]. Le 2me aspect nombre de nuds instables dtermine les nuds qualifis dinstables du fait quils nappartiennent pas une seule partition. En effet, les algorithmes de dtection de communauts affectent les nuds des groupes de telle sorte que chaque nud dun groupe ait autant de liens dans son groupe que vers dautres nuds appartenant dautres groupes. Mais, le problme peut se poser pour les nuds ayant presque autant de liens vers lintrieur du groupe que vers un autre groupe et dans ce cas prcis, la majorit de ces algorithmes affecte ces nuds dits instables lune ou lautre de ces deux partitions. Ltude de ces nuds particuliers dans un rseau de communication est trs intressante dans le cas o le taux de prsence de ce type de nud est lev. En effet, leur forte prsence dans un rseau de communication peut affecter considrablement son bon fonctionnement.

4 Exprimentation
Dans cette section, nous discutons certains rsultats prliminaires travers des simulations que nous avons effectues sous NS2 (Network Simulator 2).

4.1 Construction du rseau physique


Pour la construction du rseau P2P, nous utilisons le modle dErds Rnyi. Nous gnrons plusieurs rseaux de 50, 100, 150, 200, 500 et 1000 nuds. Pour chaque taille, nous faisons varier la densit (Nb artes existantes/Nb artes possible) du rseau gnr selon les valeurs suivantes : 0.25, 0.5, 0.75 et 1 (Si densit = 1, le graphe est complet). Le nombre de nuds faisant office de fournisseur de ressources dans le rseau varie selon des proportions

A5-48

S. Lemmouchi et al.

(25%, 50%, 75% et 100%) par rapport au nombre total des nuds dans le rseau (par exemple, dans un rseau de 100 nuds, le taux de 50% reprsente 50 serveurs). Pour ce qui de la distribution de ressources sur les serveurs, elle varie galement selon les proportions suivantes : 5%, 15%, 25%, 50%, 75% et 100% du nombre total de ressources dans le rseau. Enfin, le Centre dIntrt des Nuds (clients et fournisseur) varie lui aussi selon les proportions suivantes : 5%, 15%, 25%, 50%, 75% et 100% du nombre de ressources dans le rseau. Les proportions attribues la densit, nous les avons choisies de manire obtenir des petits graphes faible densit, des petits graphes forte densit, des grands graphes faible densit et des grands graphes forte densit (du graphe sparse des graphes plus ou moins complets). Les proportions attribues la distribution des ressources et lattribution des centres dintrts des nuds dans le rseau obissent une catgorisation prdfinie. En effet, nous avons dfini 3 catgories de proportions : faible (5% et 15%), moyenne (25% et 50%) et forte (75% et 100%). Le but principal de ce choix est de concevoir des modles de rseaux P2P proches des systmes P2P rels.

4.2 Modlisation de la perturbation


La perturbation introduite se rsume en le dplacement dun certain nombre dartes sur le graphe de communication selon les proportions suivantes : 1%, 2%, 3%, 4% et 5%. Pour chaque rseau gnr, comme dcrit dans la sous-section prcdente, nous faisons varier la quantit de perturbation introduire. Pour chacune des configurations, nous calculons la moyenne des proprits en utilisant les mthodes de quantification des diffrences dans les structures de communauts, cites plus haut.

4.3 Exemple dexcution


Dans cette patrie, nous allons donner un exemple du scnario dune simulation. Nous gnrons un rseau avec les caractristiques suivantes : taille = 20 nuds, densit=0.5, Nb de serveurs = 25%, Nb de ressources/serveur = 50%, Taille CIN = 75% ; perturbation = 3%.

FIG. 3 Communauts merges dans le rseau initial.

A5-49

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication

FIG. 4 Communauts merges dans le rseau perturb.


Dans cet exemple, notre rseau physique est constitu de 20 nuds dont 5 serveurs (les nuds en rouge dans les figures 3 et 4) et 23 liens.

La premire phase de notre framework est de construire le rseau P2P physique selon les paramtres en entre (taille, densit, nombre de serveurs, nombre de ressources/serveurs, taille du CIN des nuds). Une fois le rseau physique construit, chaque nud (serveur ou client) recherche les ressources qui constituent son centre dintrt. Les changes entre tous les nuds du rseau reprsentent le graphe de communication sur lequel, nous appliquons lalgorithme de Newman dcrit dans [13]. La figure 3 illustre les 3 communauts obtenues dans le graphe de communication initial de tailles respectives, 8, 8 et 4 nuds tandis que la figure 4 reprsente les communauts obtenues (5 communauts de tailles respectives 7, 6, 4, 2 et 1 nud) aprs introduction dune perturbation (dplacement de 3% des liens) sur le graphe de communication initiale.

5 Rsultats prliminaires
Dans toutes les expriences que nous avons effectues, nous avons remarqu que plus le graphe de communication est dense (par exemple une clique), plus sa structure est rsistante aux perturbations. Un graphe de communication plus dense signifie que le pourcentage des serveurs est lev et que ces derniers ne possdent toutes les ressources, c'est--dire, que tout le monde communique avec tout le monde. A linverse, un graphe est moins dense (arbre ou monde. toile) est sensible aux faibles perturbations.

6 Conclusion
Dans ce travail, nous nous sommes intresss aux structures de communauts dans les rseaux de communication, avec une application aux rseaux pairs pairs. Dans un premier temps, nous avons dfini un modle, constitu en trois parties, pour simuler le fonctionnement dun rseau de communication et dterminer les communauts construites suite aux

A5-50

S. Lemmouchi et al.

changes sociaux entre les entits du rseau. La construction de ces communauts dpend des paramtres physiques en entre (taille du graphe, densit, nombre de serveurs, la distribution de ressources et le centre dintrt des nuds). Si cette premire partie de notre tude sintresse ltude globale des structures merges (type de la structure : clique, arbre, toile, .), la seconde partie de notre travail, quand elle, sintresse ltude dtaille de ces mmes structures et de leur robustesse. Le but recherch dans cette seconde partie du travail est de dterminer linfluence des paramtres physiques sur la construction des structures sociales des communauts. Notre modle a t implment et test avec toutes les configurations possibles. Nous envisageons dlargir notre exprimentation pour des rseaux de plus grandes tailles et dappliquer notre approche sur dautres rseaux de communications.

Rfrences
[1] A. Madhukar, C. Williamson. A longitudinal study of P2P trafic classification. In : Proceedings of MASCOTS'06, Monterey, USA, August 2006. [2] A.Y.Halevy, Z.G. Ives, P.Mork, I. Tatarinov, Piazza:data management infrastructure for semantic web applications, in: Proceedings of the 12th International World WideWeb Conference (WWW2003), Budapest, Hungary 2003. [3] Brian Karrer, Elizaveta Levina, and M.E.J Newman. Robustness of community structure in networks. Phys. Rev. E 77, 046119, 2008. [4] David Auber, Yves Chiricota, Fabien Jourdan, and Guy Melanon. Multiscale visualization of small world networks. In Proceedings of the 9th IEEE Symposium on Information Visualization (InfoVis 2003), page 10, Seattle, USA, 2003. IEEE Computer Society. [5] E. Cohen, A. Fiat, H. Kaplan, Associative search in peer to peer networks: harnessing latent semantics, in: Proceedings of the 22nd IEEE INFOCOM, vol. 2, April. 2003, pp. 12611271. [6] F. Radicchi, C. Castellano, F. Cecconi, V. Loreto, and D. Parisi. Defining and identifying communities in networks. PNAS, 101(9) :2658_2663, 2004. [7] F. Wang, Self-organizing Cognitive Peer-to-Peer Social Networks, unpublished (2005). [8] Habib Rostami, Jafar Habibi and Emad Livani, 2008, Semantic partitioning of peer-topeer search space. Computer Communications, Volume 32, Issue 4, pp. 619-633, 2009. [9] Jeffrey Erman, Anirban Mahanti, Martin Arlitt, Carey Williamson,, Identifying and Discriminating Between Web and Peer-to-Peer Traffic in the Network Core, Canada 2007. [10] K. Sripanidkulchai, B. Maggs, H. Zhang, Efficient content location using interest-based locality in peer-to-peer systems, in: Proceedings of the 22nd IEEE INFOCOM, vol. 3, April 2003, pp. 21662176.

A5-51

Robustesse de communauts merges des graphes sociaux issus des rseaux de communication

[11] K. Aberer, P. Cudr-Mauroux, M. Hauswirth, The chatty web: emergent semantics through gossiping, in: Proceedings of the 12th International World WideWeb Conference (WWW2003), Budapest, Hungary 2003. [12] M. E. J. Newman and M. Girvan. Finding and evaluating community structure in networks. Physical Review E, 69:026113, 2004. [13] M. E. J. Newman. Fast algorithm for detecting community structure in networks. Physical Review E, 69:066133, 2004. [14] M. E. J. Newman. Modularity and community structure in networks. PNAS, 103(23):8577, 2006. [15] Marina Meila. Comparing clusterings an information based distance. J. multivar. Anal., 98(5):
873-895, 2007.

[16] Nikolaos D. Doulamis, et al. Exploiting semantic proximities for content search over P2P networks. Computer Communications Volume 32, Issue 5, pp. 814-827, 2009 [17] Petter Holme, and Beom Jun Kim. Attack vulnerability of complex network. Phys. Rev. E 65, 056109 (2002). DOI: 10.1103/PhysRevE.65.056109 [18] Santo Fortunato, Vito Latora, and Massimo Marchiori. Method to find community structures based on information centrality. Physical Review E, 70(5) :056104, 2004. [19] Stephen P. Borgatti, Kathleen M. Carley, David Krackhardt. On the robustness of centrality measures under conditions of imperfect data. Doi:10.1016/j.socnet.2005.05.001. [20] S. Milgram. The small world problem. Psychology Today, 2(1):60{67, 1967. [21] Vincenza Carchiolo et al. Social behaviours applied to P2P Systems:An efficient algorithm for resources organisation. arXiv:cs/0702085v1, Feb 2007.

Summary
Social networks and the study of communities of interest have become a real challenge in different research areas. The interaction between the nodes in communication networks (eg. peer to peer networks) induce graph structures with characteristics similar to those found in social networks (small world effect, small diameter, low density global and local density). These structures or virtual topologies, also called communication graph, represent exchanges between nodes in a network. Several aspects such as the study of the nature of these topologies (tree, clique, star, ...), their construction and development over time, their robustness against disturbances (disappearance of a link failure on node of high degree, ...) have attracted the interest of the scientific community. In this paper, we focus on the study of the emergence of such structures and their robustness in communications networks on a large scale with an application to peer to peer networks. We focus on quantifying the robustness of the structures of communities with emergent communications from issued from peer-to-peer networks.

A5-52

Stochastic Networks
Cynthia Basileu , Soan Benamor Marc Bui , Ahmed Bounekkar Nadia Kabachi , Michel Lamure Mondher Toumi

Laboratoire ERIC - University of Lyon - University Claude Bernard Batiment Nautibus, 43 boulevard du 11 novembre 1918 69622 Villeurbanne Cdex France cbasileu@yahoo.fr, {bounekkar, kabachi, lamure, mondher.toumi}@univ-lyon1.fr http://recherche.univ-lyon2.fr/eric Laboratoire ERIC - University of Lyon - EPHE 41 rue GayLussac,75005 Paris Marc.Bui@ephe.sorbonne.fr s.benamor@gmail.com http://recherche.univ-lyon2.fr/eric

Abstract. Social networks are quite often used in social sciences to model the links between individuals. Several problems are analyzed in their light: what nodes are of importance regarding connectivity, what diffusion level for given nodes? Graph theory and more specically random graphs are the basis of the most of works. However, a social network generally consists of various types of links between the individuals, what implies to use a more adequate model than graph theory. So, our proposal is to work with families of graphs which rst enable us to study the topological properties of a network by means of a version weakened by the topology, called pretopology and second enable us handle uncontrolled factors which may inuence the network structure. Indeed, in real world, these events are not predictable, we thus introduce stochastic aspects in our model. This leads us to the notion of stochastic network. In this paper, we give at rst basic denitions of a network, of a stochastic network and some elements on the mathematical theory of the pretopology and random sets. Then, we give rst results concerning the modeling of a stochastic network, with some particular points concerning topological analysis. We terminate with perspectives for the future works.

Introduction

Social sciences widely use the concept of network for modeling links between individuals. (Social networks). The references of Andersson (1999) and this one of Sattenspiel and Simon (1988) show the interest for the social network in the spread of disease by using percolation

A5-53

Stochastic Networks

theory to model epidemics. A lot of works have been proposed on different problems related to this concept. For example, what percentage of nodes of the network is required to observe a signicant change in the connectivity of the network? Or, what are nodes the most linked to others? The common point of these Works is that they all model a social network by a graph, in the mathematical sense (see Albert and Barabasi (2002), Newman (2003), Barabasi et al. (2004)). However, we think a social network is composed from different types of links between individuals, which implies using more than one graph. So we propose a new formalism for modeling social networks, based on families of graphs. This formalism enables to study topological properties of a network by means of a weakened version of mathematical topology (pretopology, see Belmandt (1994), Auray et al. (2009), Dalud Vincent et al. (2007), Lamure et al. (2009)). As a second point, we assume that links between individuals cannot be considered as certain and that many events can inuence existence of these links. In most cases, these events are not predictable, so we introduce stochastic aspects in modeling a network. This leads us to the concept of stochastic network. In this paper, we rst give basic denitions of a network, of a stochastic network and some elements about underlying mathematical theories: pretopology and random sets. Then, we give rst results about modeling the topology of a stochastic network, with some particular points concerning transmission and connectivity. We conclude with perspectives of further works.

Basic denitions

Given a nite population E, with n individuals, given a probability space (, A, p), we consider the following operator R(.) dened as: R(.) : (, A, p) R(E) where R(E) denotes the set of all binary relationships (graphs) on E. By denition, R(E) is a family of subsets of E E. So, we assume that R(.) is a random set, i.e. a measurable correspondence from (, A, p) into E E (see Debreu (1967), Matheron (1975), Lamure (1978)). Denition 1. R(.) is called a stochastic graph operator. Denition 2. We dene a network as a family {Ri }i=1,..,p of binary relationships on E. Without loss of generality, we can assume that relationships Ri are reexive ones. Example : Let us consider E = {a, b, c, d, e} and three relationships R1 , R2 and R3 , described by the following diagram (see gure 1). For convenience, in gure 1, loops on any node are omitted. Now, we can give denition of a random network. For that, we can note that any binary relationship R is characterized by the following family: x E, (x) = {y E/xRy} which is the set of "children" of x in E. In case of a random network, this is expressed in a more complicated way, but based on the same principle. We consider a family {Ri (.)}i=1,..,p of stochastic graph operators dened on

A5-54

C. Basileu et al.

F IG . 1 A simple Network a probability space (, A, p). Let us consider: x E, , i = 1, .., p, i (, x) = {y E/xRi ()y} The family {i (., x), x E}i=1,..,p characterizes {Ri (.)}i=1,..,p . If we assume that: x E, i (., x) : (, A, p) P(E) is a random correspondence, then {Ri (.)}i=1,..,p is a family of stochastic graph operators and we put: Denition 3. A stochastic network is a family {Ri (.)}i=1,..,p of stochastic graph operators Example Let us consider = {1 , 2 , 3 }, A = P() and p dened by p(i ) = 1 , i = 1, 2, 3 3 Let us consider: Let us consider E = {a, b, c, d} and: 1 (1 , a) = {a}, 1 (1 , b) = {b, c}, 1 (1 , c) = {a, b, c}, 1 (1 , d) = {a, d} 2 (1 , a) = {a, c}, 2 (1 , b) = {b, d}, 2 (1 , c) = {b, c}, 2 (1 , d) = {a, b, d} 3 (1 , a) = {a, b, d}, 3 (1 , b) = {b, d}, 3 (1 , c) = {a, c, d}, 3 (1 , d) = {a, c, d} 1 (2 , a) = {a}, 1 (2 , b) = {b, c}, 1 (2 , c) = {a, b, c}, 1 (2 , d) = {a, d} 2 (2 , a) = {a}, 2 (2 , b) = {b, d}, 2 (2 , c) = {c}, 2 (2 , d) = {d} 3 (2 , a) = {a, b}, 3 (2 , b) = {b, d}, 3 (2 , c) = {a, c}, 3 (2 , d) = {c, d} 1 (3 , a) = {a}, 1 (3 , b) = {b}, 1 (3 , c) = {c, d}, 1 (3 , d) = {b, d} 2 (3 , a) = {a, c}, 2 (3 , b) = {b, d}, 2 (3 , c) = {c}, 2 (3 , d) = {c, d} 3 (3 , a) = {a, b}, 3 (3 , b) = {b, d}, 3 (3 , c) = {c}, 3 (3 , d) = {a, c, d} We get a stochastic network which is described by gure 2, gure 3 and gure 4 (loops on nodes are omitted) Thus, a stochastic network is fully dened by a family of random correspondences (or random sets) which each give the set of "children" of any element of the reference set E, under random events driven by a probability law.

A5-55

Stochastic Networks

F IG . 2 A stochastic network, scenario 1 At this point, a question is to know how it is possible to model the structure of the network and to know what are its properties regrading the stochastic aspect; That means we have to: dene a pretopological structure onto the network, analyze the properties of this structure regarding measurability and integrability concepts.

Pretopology on a stochastic network

Basic concepts of pretopology and of random correspondences are respectively recalled in annex 1 and annex 2. In this section, we will dene a pretopological structure on a stochastic network and list its basic properties. Let E be a nite set. Let Ri (.) a stochastic network dened on a probability space (, A, p). Let us consider, for any subset A of E, the function a(., .) dened by: a(., .) : (, A, p).P(E) E such as: a(, A) = {x E/i, i (, x) A = } where i (, x) = {y E/xRi ()y} Then:

Theorem 4. (E, a(., .)) with a(., .) as previously dened is a stochastic pretopological space. Proof. Let x E, we put i (, x) = 1 if i (, x) A = and i (, x) = 0 otherwise. So, {x E/i (, x) A = } = {x E/i (, x) = 1}.As for any i and any x E, i (., x) is a random correspondence, the function i (., x) is a random variable for any x E and then ai (, A) = {x E/i (, x) A = } is a random correspondence for any A E.

A5-56

C. Basileu et al.

F IG . 3 A stochastic network, scenario 2 As for any A E, a(, A) is a nite union of ai (, A), the correspondence a(, A) is a random correspondence. So, (E, a(., .)) is a stochastic pretopology. According to denition of a(., .) we have x a(, A) i, i (, x) A = . In other words, x a(, A) i, y A, xRi ()y. So x a(, A) means that, for any kind of relationship, ther exists a link between x and at least one element of A. a(, A) then is a good indicator of inuence of A in the network in the sense the greater it is, the greater is the number of elements outside A linked to, at least, one element of A, whatever the nature of the link. By denition (see annex 1) A E, , i(, A) = (a(w, Ac ))c . Then, i(, A) is the subset of elements of A for which it is possible to fond out at least one relationship such as all children of x are in A, so i(, A) also is a good indicator. The greater it is, the greater is the number of elements of A for which we can nd out at least one relationship for which their children are in A. This leads us to the following: Denition 5. We call pseudoclosure ratio, the quantity pcr(, A) = We call interior ratio the quantity ir(, A) = Then: i(, A) A a(, A) A

A5-57

Stochastic Networks

F IG . 4 A stochastic network, scenario 3 Theorem 6. A E, pcr(, A) is a random variable A E, ir(, A) is a random variable

Proof. It is sufcient to note that a(, A) = xE 1a(,A) (x) and that, as a(., A) is a random correspondence, 1a(,A) (x) is a random variable. Obviously, there is a strong link between stochastic networks and random graphs. In fact, in cases where there is only one relationship in the network, we are faced to a random graph; The difference between our approach and usual approaches is that pretopology and stochastic pretopology enables us to provide a topological analysis of the network based on concepts fully adapted to discrete spaces. Another advantage is to be able to compute statistics, to perform statistical analysis on indicators such as pcr(., .) and ir(., .) and to use new concepts of connectivity dened in the framework of pretopology.

Conclusion

In this paper, we give rst concepts on stochastic networks, as an extension of random graphs, with a new approach mixing pretopology and theory of random sets. New indicators of structure of the network can be dened, as pcr(., .) and ir(., .). With pretopology, we can use different types of connectivity, fully adapted to graphs: hyperconnectivity, ultraconnectivity, apoconnectivity,... Each of them gives a specic information about the structure. Another aspect of future works is related to probability computation. In brief, this approach leads to a lot of works with applications in various elds: social sciences, computer sciences, epidemiology,...

A5-58

C. Basileu et al.

Annex 1: Basics on pretopology

Lets consider a non empty set E. We dene a function a(.) from P(E) into itself such as: (P1 ) a() = (P2 ) A, A E, A a(A) Then, the couple (E, a(.)) is called "pretopological space". As in topology, we can dene the interior function i(.) by putting: A E, i(A) = (a(Ac ))c where Ac denotes the complementary of A in E. Thus, related to usual concepts of topology, we only keep two rst properties of the topological closure mapping. Such a function a(.) is called pseudoclosure function in pretopology.

5.1

Different pretopological spaces

A basic pretopological space (E, a(.)) is such as: (P1 ) a() = (P2 ) A, A E, A a(A)

5.1.1 V type space Let us consider the following axiom: (P3 ) A, A E, B, A E, A B a(A) a(B) Denition 7. if a(.) fullls P1 , P2 and P3 , we say that (E, a(.)) is a V type space. In this case, the concept of neighborhood becomes a quit interesting one. In pretopology, this concept is dened in the same way as in topology. Denition 8. Let (E, a(.)) be a V type space. Any subset V of E is said a neighborhood of x, x E if and only if x i(V ). However, in pretopology, the family V(x) of neighborhoods of any x does not fullls the same properties. In fact, generally speaking, the only thing we can say is that V(x) is a prelter of subsets of E, i.e.: x E, V(x) / x E, V V(x), W E, V W = W V(x)

5.1.2 VD type space Let us consider the following axiom: (P4 ) A, A E, B, A E, a(A B) = a(A) a(B) Denition 9. if a(.) fullls P1 , P2 and P4 , we say that (E, a(.)) is a VD type space.

A5-59

Stochastic Networks

Obviously, if (E, a(.)) is a VD type space, it also is a V type space. And the family of neighborhoods of any x in E is a lter, i.e. V(x) is a prelter and satises the following property: V V(x), W V(x), V W V(x). 5.1.3 Vs type space Let us consider the following axiom: (P5 ) A, A E, a(A) =
xA

a({x})

Denition 10. if a(.) fullls P1 , P2 and P5 , we say that (E, a(.)) is a VD type space. Clearly, if (E, a(.)) is a Vs type space, it also is a VD type space and then a V type space. Moreover, the family of neighborhoods of x satises the following property V(x)
V V(x)

This last property is interesting from a computational point of view as it implies it is sufcient to compute pseudoclosure of singletons of E to get pseudoclosure of any subset of E.

Annex 2: Basics on random correspondences


Three concepts of measurabilty have been dened Lamure (1978).

6.0.4

Denition I

Let us consider a measurable space (, A) and a correspondence into Rn . is assumed a non empty compact valued correspondence. We also suppose that is locally compact and A is dened as follows: Starting from B the -algebra of borelians of , we complete it to obtain Bp (p being the probability on B) and we consider: A = {A, A /A K Bp , K K(Rn )} where K(Rn ) is the family of compacts of . Denition 11. Let us consider (, A) a measurable space, Rn . We say that is measurable in the sense I if and only if for all F , closed subset of Rn , A = { : () F = } A

A5-60

C. Basileu et al.

We can note this denition can be rewritten as follows: for any O open subset of IRn , B = { : () O} A 6.0.5 Denition II

In this subsection, G() denotes the graph of the correspondence , i.e. G() = {(, x) Rn /x ()} and Bn denotes the -algebra of borelians of Rn . Denition 12. Let us consider (, A) a measurable space, Rn . We say that is measurable in the sense II if and only if G() A Bn 6.0.6 Denition III

As correspondences are compact valued, a third proposition can be proposed. Let us consider the following families: U w = {K, K K(Rn )/K U = , U O(Rn )} U s = {K, K K(Rn )/K U, U O(Rn )} where O(Rn ) denotes the family of open subsets of Rn . These two families dene a topology T on K(Rn ) which is equivalent to the topology generated by the Hausdorff metric. Thus K(Rn ) also is a separable metric space. Let us consider n the -algebra of borelians of K(Rn ). can be considered not as a correspondence from into Rn but as a function form into K(Rn ). It is possible to consider for , the usual denition of measurability for functions. Denition 13. Let us consider (, A) a measurable space, Rn . We say that is measurable in the sense III if and only if A n , 1 (A) A where 1 (A) = { /() A} We get the following result: Theorem 14. Let us consider (, A) a complete measurable space, being locally compact, Rn . The three denitions are equivalent ones. Proof. First, lest us prove equivalence of denitions of I and II. For that, we use the following result. Let (, A, p) a complete measurable space, Let E a complete metric separable space and a correspondence dened upon , valued in the family of closes subsets of E, then G() A (E) { /() F = } A

A5-61

Stochastic Networks

where (E) denotes the -algebra of borelians of E. As Rn and verify properties of this result, denitions I and II are equivalent. Now, let us suppose measurable according to denition III and let us consider, for any closed subset F of Rn , the set A = { /() F = }. A = { /() F c }c , where F c denotes the complementary of F in Rn . F c is an open subset of Rn and A = 1 ((F c )s ). As is measurable according to denition III, 1 ((F c )s ) A and is measurable according to denition I. To prove that denition I implies denition III, it is sufcient using the following result: (, A) is a measurable space, is locally compact, if f is a function from (, A) in E, E is a separable metric space endowed with its borelians, then f measurable is equivalent to f p-measurable. This result is applied to as a function from (, A) into K(Rn ). This leads to the result.

References
Albert, R. and A. L. Barabasi (January 2002). Statistical mechanics of complex networks. Review of modern physics 74. Andersson, H. (1999). Epidemic models and social networks. The Mathematical Scientist 24, 128147. Auray, J. P., S. Bonnevay, M. Bui, G. Duru, and M. Lamure (2009). Prtopologie et applications : un tat de lart. Studia Informatica Universalis 7.1, 2544. Barabasi, A. L., A. Vasquez, R. Dobrin, D. Sergi, J. P. Eckmann, and N. Oltval (December 2004). The topological relationship between the large-scale attributes and local interaction patterns of complex networks. PNAS 101, 52. Belmandt, Z. (1994). Manuel de prtopologie et applications. Editions Herms. Dalud Vincent, M., M. Brissaud, and M. Lamure (2007). Closed sets and closures in pretopology. International Journal of Applied Mathematics. Debreu, G. (1967). Integration of correspondences. Fifth symposium of barkeley. Lamure, M. (1978). Contribution la thorie de la multiestimation. Vandenhck & Ruprecht Edition. Lamure, M., S. Bonnevay, M. Bui, and S. Benamor (2009). Modlisation et simulation de la pollution urbaine - un modle alatoire, prtopologique pour la ville de ouagadougou. Sant et systmique 10 numro 3-4/2007, 7587. Matheron, G. (1975). Random sets and integral geometry. New york: J. Wiley editions. Newman, M. E. J. (2003). The structure and function of complex networks. Sattenspiel, L. and C. P. Simon (1988). The spread and persistence of infectious diseases in structured populations. Math Biosci 90, 341366.

A5-62

C. Basileu et al.

Rsum
Les rseaux sociaux sont souvent utiliss pour modliser les relations entre individus. plusieurs problmes sont examins leur lumire : quels sont les noeuds importants du point de vue de la connexit ? quel est le niveau de diffusion dun noeud ? La thorie des graphes, plus particulirement les graphes alatoires sont la base des travaux du domaine. Cependant, un rseau social est gnralement constitu dune famille de relations entre individus, ce qui implique lemploi dun modle plus appropri que celui de la thorie des graphes. Notre proposition est de travailler avec des familles de graphes de manire en tudier les proprits topologiques au moyen de la prtopologie dune part et galement de prendre en compte des facteurs incontrlables. Dans les faits, ces derniers inuencent les relations entre individus et ne sont pas prvisibles. Nous introduisons donc le concept de rseau stochastique. Dans ce travail, nous posons les dnitions de base des rseaux stochastiques, ceux de prtopologie et ceux relatifs aux ensembles alatoires. Nous donnons de premiers rsultats, notamment du point de vue topologique et terminons par les perspectives de travaux futurs.

A5-63

A5-64

Une architecture multi-agents pour la dcouverte et la construction de profils utilisateurs distribus


Anis Chouchane, Amel Bouzeghoub Institut TELECOM SudParis, Dpartement Informatique 9, rue Charles Fourier, 91011 Evry, France {Anis.Chouchane, Amel.Bouzeghoub}@it-sudparis.eu

Rsum. Nous dcrivons dans ce papier les techniques de dcouverte et de construction de profils utilisateurs distribus afin de leur proposer des services adapts leurs besoins dans le cadre dune application dapprentissage pervasif. Vu linfluence des donnes mergentes sur le web, notre systme traite du problme de distribution des informations du profil utilisateur auquel font face actuellement les systmes de profils infrs. Lobjectif de ce travail est double. Il sagit dune part de proposer un modle pour la gestion du profil utilisateur et dautre part de proposer une architecture pour la dcouverte et la construction du profil dans un contexte mobile. Un prototype a t implment permettant un service donn de proposer des recommandations un apprenant adaptes son profil. Ce dernier tant construit dynamiquement et la demande. Mots-cls : apprentissage pervasif, profil utilisateur distribu, systmes multiagents, web smantique.

1 Introduction
Un nouveau concept a merg ces dernires annes pour traduire le potentiel de linformatique ubiquitaire dans le domaine de lapprentissage. Cette nouvelle faon d'utiliser des technologies pour soutenir les processus d'apprentissage est appele "Apprentissage pervasif". Cette volution sintensifie ces dernires annes avec lmergence des terminaux mobiles et ultra-mobiles (ex : ordinateurs portables, tlphones mobiles, Pocket PC, PDA) et des rseaux mobiles (GSM, 3G+, rseaux sans fil, Bluetooth, etc.). Lapprentissage pervasif utilise ces nouvelles technologies comme support pour amliorer lapprentissage traditionnel et largir les perspectives du processus d'apprentissage lui-mme. Lobjectif principal dans un environnement dapprentissage pervasif est de fournir aux apprenants la bonne ressource au bon moment et de la meilleure faon. En outre, il offre un champ dapplication en expansion qui peut accroitre la diffusion des Nouvelles Technologies de lInformation et de la Communication. Toutefois, cela ne se ralisera que si lon peut proposer facilement des services adapts et simples dutilisation. Pour cela, il est ncessaire de pouvoir adapter les services, les documents multimdia au contexte dutilisation ainsi qu lutilisateur. Dans ce contexte, le profil apprenant est un critre fondamental. Il existe un certain nombre de modles de profil et darchitectures de gestion du profil. Mais les travaux dans ce domaine

A5-65

Architecture agent pour la dcouverte et la construction de profils utilisateurs distribus

nont abouti que dans les systmes de profil centraliss. La modlisation des profils distribus est encore un point tudier, notamment dans un environnement mobile. Ainsi deux questions se posent. Comment stocker les donnes du profil utilisateur de la meilleure faon ? Et quelle architecture adopter pour intgrer plusieurs profils utilisateurs dans un environnement mobile ? Dans ce travail, nous prenons le terme dapprentissage dans son sens le plus large. Par exemple, un utilisateur, au cours dune activit dapprentissage, peut effectuer une recherche sur le web, o diffrents services stockent une partie de son profil. Nous partons de l'hypothse quun profil utilisateur est stock en diffrents points du rseau, par des services tels que Facebook, Flickr, Amazon, etc. Le profil utilisateur est donc fragment. Ceci implique la ncessit du partage et de lchange des fragments du profil entre les diffrents services. De plus, les donnes du profil, tout comme lidentification des fragments du profil sont utiles pour les services dadaptation et de recommandation. Plus particulirement, le scnario que nous avons adopt est le suivant : un service de recommandation souhaite rcuprer le profil de lutilisateur afin de lui proposer un service. Lutilisateur lui donne son identit dans le systme de gestion de profil. Le service de recommandation se connecte au systme de gestion de profil et demande le profil correspondant cette identit. Le systme de gestion de profil se base sur les paramtres configurs par lutilisateur pour gnrer le profil et le renvoie au service de recommandation. Le plan de cet article est dcrit comme suit : un tat de lart est prsent dans la section suivante. Il sagit dtudier les diffrents standards existants pour la modlisation du profil utilisateur, ainsi que les travaux de recherche portant sur la gestion du profil dans les systmes dadaptation et de personnalisation. En se basant sur lanalyse de cet tat de lart, nous proposons dans la section 3 un modle de profil dans un contexte mobile. Ce dernier sera mis en uvre dans la section 4 qui dcrit larchitecture multi-agents permettant de grer efficacement les profils utilisateurs distribus. Nous citons dans la section 5 les caractristiques de notre approche. Enfin, larticle se termine par une conclusion et des perspectives dans la section 6.

2 Etat de lart
Proposer un modle pour la gestion des profils utilisateurs dans un contexte mobile ncessite danalyser les diffrents standards existants sur la structuration des donnes du profil. De la mme manire, dfinir une architecture pour lintgration du profil apprenant requiert une tude des diffrents travaux de recherche portant sur lintgration du profil dans les systmes dadaptation et de personnalisation. Ainsi, cet tat de lart comprend deux parties correspondant ces deux objectifs. Un profil est un modle utilisateur ou source de connaissance qui contient des acquisitions sur tous les aspects de l'utilisateur pouvant tre utiles pour le comportement du systme. Outre les informations d'identification de base, le profil utilisateur peut regrouper des informations trs diverses selon les besoins. Parmi celles-ci, Jameson (1999) propose: - Des caractristiques personnelles pouvant influencer fortement l'interaction (ge, sexe, etc.).

A5-66

A.Chouchane, A.Bouzeghoub

- Les intrts et les prfrences gnrales relatives la tche accomplir, qui permettent une adaptation aux attentes de l'utilisateur. - Les comptences ou le niveau d'expertise relatifs la tche (pour dterminer par exemple un degr d'autonomie et dceler un besoin d'aide ou de formation). - Le but courant de lutilisateur. Sur les sites web, le profil utilisateur est souvent assimil un curriculum vitae court, avec (ou non) une photo et quelques informations statistiques. Mais dans les services de rseaux sociaux en ligne tels que Facebook, Google profile, Linkedin un profil peut tre plus compliqu puisque lutilisateur a la possibilit de dcrire son identit, ses intrts, ses prfrences, ses comptences... Les standards les plus importants sont PAPI (Public And Private Information) et IMS LIPS (Learner Information Package Specification). Ces standards, dvelopps par le W3C, permettent le partage du modle apprenant dans un environnement dapprentissage. PAPI Learner (2000) est un standard propos par le groupe Learner Model Working Group de l'IEEE, qui dcrit les informations sur lapprenant utiles pour la communication entre les systmes coopratifs. Il se focalise sur les performances et les interactions entre apprenants. PAPI dcompose le profil en six catgories : Informations personnelles, Relations, Scurit, Prfrences, Performances, Portfolio.

Figure 1 : Elments de PAPI IMS LIP (2001) est une spcification dcrivant une approche classique de CV structur. Elle se focalise sur lhistorique de lapprenant et de son exprience dapprentissage. Le but de ce standard est de faciliter l'change des informations sur les apprenants entre systmes ducatifs, systmes de gestion d'apprentissage, etc. IMS LIP est structure en onze catgories de base : Identification, But, Qualifications, Certifications & licences (QCL), Activit, intrts, Relations, Comptences, Accessibilit, Transcription, Affiliation, Scurit.

A5-67

Architecture agent pour la dcouverte et la construction de profils utilisateurs distribus

Figure 2 : Elments dIMS LIP FOAF (Friend Of A Friend) (2007) est un vocabulaire bas sur RDF, dfini dans le cadre dun projet open source, permettant de dcrire des personnes et les relations qu'elles entretiennent entre elles. Il a t dvelopp pour la construction de groupes sociaux. FOAF distingue 5 catgories pour dcrire un profil : FOAF Basics comprend la description de base comme le nom, ladresse e-mail, les images. Personal Information dcrit plus d'informations personnelles telles que le blog, les intrts, les publications et les relations aux autres profils qui connaissent cette personne. Online Accounts dcrit les informations sur les comptes quune personne possde. Projets and Groups dfinit les informations sur les projets, les groupes ou les organisations dans lesquelles la personne est membre. Documents and Images dcrit les documents et les images relatifs lapprenant, par exemple: document de profil, logo La figure 3 ci-dessous reprsente un tableau mettant en vidence la comparaison entre les modles apprenant dcrits prcdemment. Dans ce tableau, la reprsentation de la taxonomie a t simplifie, en gardant les grandes catgories et les sous catgories. Annotation utilise dans le tableau : + : support total p : support partiel

x : capacit tre tendu

A5-68

A.Chouchane, A.Bouzeghoub

Figure 3 : Tableau comparatif des standards du modle utilisateur Daprs ce tableau comparatif, nous pouvons dduire que FOAF possde lavantage de prendre en compte tous les types de relations entre les profils. Nanmoins, il se trouve que tous les modles tudis, mme sils supportent tous la description des donnes personnelles de lapprenant, ils ne dcrivent pas le contexte courant de lapprenant, alors que ce type dinformations est essentiel dans un environnement ubiquitaire, surtout dans lapprentissage mobile. Par consquent, le modle apprenant attendu qui peut tre adapt lapprentissage mobile doit avoir tous les avantages des normes plus des informations sur le contexte de lutilisateur.

A5-69

Architecture agent pour la dcouverte et la construction de profils utilisateurs distribus

La deuxime partie de ltat de lart concerne ltude des travaux de recherche portant sur lintgration du profil apprenant afin de proposer ensuite une architecture convenable pour mettre en uvre le profil apprenant. Cette tude nous a permis de distinguer deux types de modlisation : centralise et distribue. Diffrents scnarios ne sont pas adapts larchitecture centralise : notamment dans linformatique ubiquitaire, o lutilisateur dispose dinformations en diffrents points sur le rseau. Bien que ce type de modlisation permette dassurer la cohrence des donnes de lutilisateur, il ncessite une reprsentation standard des donnes de lutilisateur : toutes les applications doivent partager le mme schma de mtadonnes. De plus, les applications utilisent seulement un fragment des donnes du profil stock sur le serveur centralis. Enfin, les donnes du profil se trouvent hors du contexte dans lequel il a t rcupr, les donnes peuvent tre interprtes diffremment dans un autre contexte. Certains travaux de modlisation centralise se basent sur les Web Services. Dans D.L. Musa et J.P.M de Oliveira (2005), les auteurs proposent une architecture pour lintgration du profil apprenant en utilisant les Web Services. Lobjectif est dassurer la coopration entre diffrents systmes dapprentissage, comme la plateforme de formation distance Claroline, afin dobtenir un modle apprenant plus riche. Les services de lapplication propose permettent de grer la confidentialit des donnes du profil en utilisant la norme P3P. K. Kabassi et Maria Virvou, (2003) dcrivent un systme dapprentissage personnalis Web F-SMILE (Web File-Store Manipulation Intelligent Learning Environment). Ce systme dploie deux modles pour lapprenant : un modle stock localement sur son PC accessible via une application locale, et un deuxime modle stock sur le serveur et accessible via une application Web. Linconvnient dans cette approche est que lapprenant peut avoir plusieurs dispositifs, ce qui ncessite de dployer lapplication sur autant de dispositifs quil possde. Par ailleurs, vu que F-SMILE stocke deux profils apprenants, le systme peut rencontrer des problmes de connexions entre le PC de lapprenant et le serveur. Dans Andreas von Hessling et al. (2005) une architecture dans un environnement P2P a t propose. Parmi les avantages de cette approche, il ny pas besoin de serveur central vu quil sagit dune architecture dcentralise. Il y a juste besoin dune connexion wifi qui permet de se connecter des services proches. Toutes les donnes de lutilisateur sont stockes sur son propre dispositif mobile. Ceci permet une meilleure gestion de la confidentialit des donnes de lutilisateur, qui a le contrle sur ses informations. Toutefois, cette application est dfinie dans un primtre limit la zone wifi dans laquelle se trouvent les services auxquels lutilisateur peut accder (exemple : salles de cinma), ce qui rduit le contexte de mobilit de ce dernier. La modlisation du profil tablie se rsume un ensemble dintrts et de dsintrts, et donc ne prend pas en compte dautres informations qui permettent de dcrire le profil de manire exhaustive. Diffrents travaux ont t effectus dans le cadre des systmes adaptatifs ducatifs. Dans ce cadre, Mohammad Alrifai et al. (2006) proposent des solutions au problme dinteroprabilit des contenus ducationnels sur le web. Dans cette approche, la modlisation du profil est dcrite par une combinaison des standards LIP et PAPI tendus de nouvelles proprits.

A5-70

A.Chouchane, A.Bouzeghoub

En se basant sur ces travaux, nous pouvons conclure que chaque approche possde des avantages et des inconvnients selon le contexte dutilisation. Larchitecture centralise permet un contrle central qui ralise des oprations comme : le stockage et la rcupration des donnes, lanalyse des demandes, etc. Larchitecture distribue est adapte lorsque les donnes sont distribues sur plusieurs nuds .

3 Proposition dun modle de profil dans un contexte mobile


Notre objectif est de proposer un modle apprenant et une architecture permettant de grer le profil. A partir dune tude comparative entre les diffrents standards de modlisation du profil, nous avons construit un modle apprenant en combinant les avantages des standards IMS LIP et FOAF, et en ajoutant les composants manquants, en loccurrence le contexte de lutilisateur (le dispositif) et lagenda. Ce dernier constitue une source dinformations trs utile pour des systmes de recommandation. Le standard IMS LIP fournit un vocabulaire qui a t approuv dans un contexte large. De plus, il dfinit une structure de donnes plus riche que PAPI, en introduisant des lments tels que les objectifs, les intrts et les prfrences de lapprenant, lments indispensables pour les applications dadaptation. La combinaison avec la norme FOAF est explique par la capacit de cette dernire grer les relations entre les apprenants. Le modle peut donc avoir les catgories suivantes :

Figure 4 : Un extrait du modle apprenant propos Un profil apprenant contient plusieurs informations. Chaque type dinformation a des caractristiques diffrentes. Pour simplifier la gestion, une classification des informations est

A5-71

Architecture agent pour la dcouverte et la construction de profils utilisateurs distribus

ncessaire. Il existe plusieurs critres pour les classifier, mais nous nous intressons ici deux critres: la stabilit et la taille. Avec le premier critre, nous avons deux types dinformation : - Les informations stables : ce sont les informations comme les donnes personnelles de base (ex : nom, ge, adresse, etc.) et les donnes ducatives (ex : but, certification, etc.). Elles ne changent pas souvent. - Les informations non stables : ce sont les informations comme les tches, lagenda, les intrts etc. Elles changent selon le contexte de lutilisateur. Le critre de la taille comprend galement deux types dinformation : petite taille correspondant aux informations sous forme de texte, et grande taille pour les informations comme les images, les documents, etc. Dans le cadre de ce travail, les donnes du profil dun apprenant sont fragmentes et maintenues par des fournisseurs de profil qui se situent au niveau de serveurs diffrents sur le rseau Internet. Notre objectif est de concevoir un systme ayant un rle dintermdiaire, cest dire quil rcupre les fragments du profil, construit un profil complet, et le partage dautres services. Construire un profil une seule fois au dbut, puis le stocker dans le systme pour le rutiliser plusieurs fois, signifie quune partie des donnes devient prime quand lutilisateur effectue la mise jour de ses informations dans les fournisseurs originaux, notamment les informations non stables. Par contre, si le profil est construit au moment du besoin, cela peut savrer coteux en termes de performances. Notre solution est donc la fusion des deux approches. Cest--dire que lon va stocker les donnes stables et rcuprer les donnes non stables au moment du besoin. Les informations stables ne changent pas souvent mais ce nest pas toujours le cas. Alors, un mcanisme de mise jour pour eux va rsoudre ce problme. Il en va de mme pour le cas de la taille des donnes. Ainsi, notre modle de gestion du profil est une fusion du modle centralis et dcentralis.

4 Architecture multi-agents
En se basant sur le modle de gestion du profil abord ci-dessus, notre systme est la fois centralis et dcentralis. Il est centralis parce quil a besoin dun contrle central qui ralise des oprations comme : le stockage des donnes, lanalyse des demandes, la rcupration des donnes, la construction profil, etc. En outre, il est dcentralis parce que ses donnes sont distribues sur plusieurs nuds . Chaque nud stocke localement un fragment particulier du profil dans son propre langage de reprsentation. Le systme permet de rcuprer et grer efficacement des fragments de profil de lutilisateur, afin de pouvoir partager et/ou rutiliser le profil facilement. Dans le contexte du projet SIMBAD1, le systme dispose aussi dun module de recommandation qui permet de recommander les ressources convenables lapprenant en se basant sur son profil. Ainsi, le systme de profil mentionn ci-dessus lui sera une source utile.

SIMBAD (Semantic Interoperability for Mobile collaborative and ADaptive application) est un projet de l'INT qui s'intresse la description et la composition de ressources pdagogiques et de workflows.

A5-72

A.Chouchane, A.Bouzeghoub

Larchitecture base sur les agents a plusieurs avantages par rapport celle des services web dans le contexte ubiquitaire, surtout pour les applications distribues. Ainsi, nous avons implment un prototype bas sur larchitecture multi-agents. Un systme multi-agents est compos dun groupe dagents autonomes ou semi-autonomes qui interagissent entre eux, afin de raliser des tches ou atteindre quelques buts.

Figure 5: Communication entre les agents Le systme se compose dune partie Mdiateur (systme central), la partie des services, la partie des utilisateurs et la partie des fournisseurs. La communication entre ces parties est base sur la communication entre agents, sauf la partie des fournisseurs. Larchitecture du systme est compose de 6 agents : lAgent Systme, lAgent Gestionnaire de Fournisseurs, lAgent Gestionnaire de Service, lAgent Fournisseur, lAgent Service, et lagent Dispositif. Larchitecture est illustre dans la figure 5. Les agents collaborent ensemble afin de suivre lapprenant, lui fournir des conseils personnaliss et des recommandations lorsque cela est ncessaire. Les trois premiers sont des agents stables, ils fonctionnent continuellement et forment la base du systme. Les agents fournisseur et les agents service sont crs automatiquement en fonction de ltat du systme. LAgent Systme: cest lagent le plus important dans notre systme. Il ralise la plupart des tches importantes du systme: rception des demandes des utilisateurs et des agents service, analyse des demandes, envoi de requtes l'agent gestionnaire de fournisseur, synthse des rsultats envoys par des agents fournisseurs, la rcupration des donnes sur Ontobroker2. LAgent Gestionnaire de Fournisseur, comme son nom lindique, a pour fonction de grer des agents fournisseurs. Il reoit des requtes adresses par l'agent systme et cre alors des
2

Ontobroker : comprend des langages et des outils qui permettent damliorer laccs par requtes et des services dinfrence dans le WWW

A5-73

Architecture agent pour la dcouverte et la construction de profils utilisateurs distribus agents fournisseur correspondants. Chaque Agent Fournisseur rcupre le profil utilisateur partir de diffrents fournisseurs (Facebook, Google, LinkedLn, etc) et fournit lutilisateur un login et un mot de passe afin daccder au fournisseur. Notre systme peut fonctionner avec de nombreux fournisseurs diffrents, la communication entre chaque fournisseur est mise en uvre par un adaptateur spcifique. Le rle dun adaptateur et de vrifier quelle information est ncessaire et comment la rcuprer partir des fournisseurs. Lagent fournisseur reoit ces rsultats et les envoie lagent systme. Comme lagent gestionnaire de fournisseur, mais du ct service, lAgent Gestionnaire de Service soccupe de grer des agents service. Lorsquun service externe veut proposer une recommandation adapte, lagent gestionnaire de service cre lagent service correspondant. LAgent Service transfre les requtes lAgent Systme et envoie les rsultats au service. Ct utilisateur, chaque dispositif de lutilisateur implmente un Agent Dispositif. Il permet notre systme de communiquer avec le dispositif de l'utilisateur. Il possde une interface permettant l'utilisateur d'envoyer des demandes ou de recevoir des notifications du systme. Le framework adopt pour la mise en place du prototype est le langage Java. Ontobroker a t utilis comme moteur dinfrence et base de donnes. Pour implmenter larchitecture multi-agents, nous avons choisi la plateforme JADE, qui est un framework logiciel implment en Java. LEAP-JADE, une extension de JADE, a t utilise pour lui permettre de fonctionner sur les appareils mobiles et le PDA ressources limites.

5 Caractristiques de notre approche


Dans ce qui suit, nous citons quelques caractristiques de notre approche : - Mobilit : notre prototype est dvelopp dans un contexte o lutilisateur peut se connecter partir de diffrents dispositifs mobiles (smartphone, laptop, ordinateur, etc.), et peut accder aux informations sur son profil nimporte o, nimporte quand et en temps rel, sur diffrents points sur le rseau. - Intgration selon le type de donnes : lintgration du profil se fait selon le type des donnes du profil. Pour les donnes assez stables lintgration se fait une seule fois partir du serveur de profil. Pour les donnes susceptibles de changer lintgration se fait seulement au moment du besoin et pour un objectif spcifique. - Evolutivit : comme lintgration des fragments du profil est effectue de manire dcentralise, il ny a pas besoin de base de donnes afin de grer le profil central. Ainsi, de nouveaux profils peuvent tre facilement ajouts au systme. - Collaboration : il est possible de partager les profils ente les utilisateurs si des accords existent entre eux. - Confidentialit : La communication entre profils est effectue travers des accords entre les deux partis en utilisant P3P (Platform for Privacy Preferences) (2002). Il sagit dune norme du W3C dcrivant une architecture qui permet de partager et de stocker les donnes de lutilisateur de manire scurise, en tablissant une politique de confidentialit consistant en des accords entre les sites web grant les profils dun ct, et les utilisateurs de lautre. - Autonomie : les agents rduisent le trafic au niveau du rseau. Ils sont excuts dune manire asynchrone et autonome. Le choix de larchitecture multi-agents permet de

A5-74

A.Chouchane, A.Bouzeghoub

dployer et dlargir le systme facilement dans un environnement ubiquitaire, surtout sur des dispositifs ayant une configuration faible (ex : Smartphones). Elle permet de rduire la charge du rseau et de la communication entre le systme central et le dispositif mobile. Les traitements et la construction du profil au niveau du systme central permettent de rduire la charge du dispositif mobile dont les capacits sont assez limites. Mais ceci est aussi un inconvnient du systme, puisquil dpend dune unit centrale. Le serveur central (ou mdiateur) peut tomber en panne en cas de surcharge de requtes. La figure 5 prsente des copies dcran du prototype dvelopp.

Figure 5: Les trois principales tapes vues par lutilisateur : identification, choix du fournisseur de profil et liste des recommandations proposes par un service adapte son profil

6 Conclusion
Dans ce papier nous avons prsent des techniques pour la dcouverte et la construction de profils utilisateurs, en utilisant un agent de base de l'architecture distribue pour construire le profil utilisateur le plus appropri d'un service. Nous avons prsent une solution pour amliorer l'information de profil avec des donnes contextuelles, et de rsoudre le problme de distribution du profil utilisateur. Cependant, le processus dintgration des fragments du profil pose dautres problmes rsoudre. Les donnes du profil tant considres comme des informations confidentielles, il convient alors dtudier les problmes de confidentialit et de scurit dans les travaux futurs. En outre, comme linformation sur le contexte du systme est maintenant limite au dispositif utilis par lutilisateur, une tude plus riche sur la gestion du contexte sera trs utile pour les services de recommandation.

A5-75

Architecture agent pour la dcouverte et la construction de profils utilisateurs distribus

Rfrences
L Aroyo, P Dolog, GJ Houben, M Kravcik, A Naeve, M Nilsson, F Wild Interoperability in Personalized Adaptive Learning Educational Technology & Society (Projet Prolearn), 2006. Andreas von Hessling, Thomas Kleemann, and Alex Sinner, Semantic User Profiles and their Applications in a mobile Environment, 2005. D.L. Musa, J.P.M de Oliveira, Integration of Distributed Learner Information through Web Services, 2005. FOAF (Friend Of A Friend, projet Open Source), 2007. http://www.foaf-project.org/ ; http://fr.wikipedia.org/wiki/FOAF Houben, J., Geert-Jan Houben, Ad Aerts, Lora Aroyo, Kees van der Sluijs, Bas Rutten, Paul De Bra., State of the art: semantic interoperability for distributed user profiles, Telematica Institut Report, 2005. IMS LIP (Information Model Specification, Learner Information Packaging), 2001. http://www.imsglobal.org/profiles/ Jameson A., User Adaptive Systems An integrated Overview. Tutorial presented at the 7th International Conference on User Modeling, June 20-24, 1999. K. Kabassi et Maria Virvou, Using Web Services for Personalised Web-based Learning, Educational Technology & Society, 6(3), 61-71, 2003. Katerina Kabassi and Maria Virvou, 2003. Using Web Services for Personalised Web-based Learning Mohammad Alrifai, Peter Dolog, Wolfgang Nejdl Learner Profile Management for Collaborating Adaptive eLearning Applications., 2006. P3P (Platform for Privacy Preferences, W3C) http://www.w3.org/P3P/, 2002. PAPI Learner (Public and Private Information, IEEE), 2000. http://edutool.com/papi/

Summary
In this paper we describe techniques for the discovery and construction of user profiles. Leveraging from the emergent data web, our system addresses the problem of sparseness of user profile information currently faced by both asserted and inferred profile systems. The objective of this work is twofold. First, we study the various existing standards for modeling the user profile and the research work on the profile management systems in the adaptation and customization, and then we propose a model to manage learner profiles. On the other hand, we propose an architecture for discovery and construction of the user profile in a mobile context An agent-based profile system that dynamically builds the most suitable user profile for a particular service or interaction in real-time, is employed in our prototype implementation.

A5-76

Une mthode mixte danalyse dun rseau social: classication prtopologique et centralit dintermdiarit
Vincent Levorato LIFO (Laboratoire dInformatique Fondamentale dOrlans) Batiment IIIA, Rue Lonard de Vinci, B.P. 6759 F-45067 ORLEANS Cedex 2 vincent.levorato@univ-orleans.fr Rsum. Dans cet article, nous proposons de modliser les rseaux sociaux par la thorie de la prtopologie comme une gnralisation de la thorie des graphes. Aprs quelques dnitions, nous expliquons comment nous pouvons gnraliser par la prtopologie des mthodes danalyse connues (k-moyennes, centralit dintermdiarit) dans loptique dobtenir des rsultats nouveaux. Pour appuyer notre modlisation, nous donnerons un exemple dapplication sur un rseau social rel du Web.

Introduction

Actuellement, la modlisation des rseaux complexes est utilise dans de nombreux domaines scientiques, et se base principalement sur la thorie des graphes. Les graphes sont utiliss, par exemple en sciences sociales, an de modliser les interactions entre entits. La plupart de ces tudes considrent les individus comme des entits uniques, un groupe tant form par plusieurs individus, les uns interagissant avec les autres. En effet, la plupart des travaux portant sur lanalyse des rseaux sociaux modlisent un groupe comme une combinaison dindividus, non comme une entit propre. Les rseaux sociaux tant des rseaux complexes (Newman et al. (2006)), un phnomne dmergence peut apparatre, et le comportement dun groupe de personnes peut tre diffrent de la "somme" des comportements de chaque individu. De notre point de vue, la thorie des graphes parat insufsante pour modliser toutes les interactions complexes qui ont lieu dans un rseau social : nous proposons lutilisation dune thorie plus gnrale, la thorie de la prtopologie (Belmandt (1993)). Cet article est structur en trois parties : dans la premire partie, nous donnons les dnitions de la prtopologie et la dnition dun rseau (social ou non) qui en dcoule. dans la deuxime partie, nous explicitons notre apport : une nouvelle mthode danalyse dun rseau social en se basant sur lalgorithme des k-moyennes et un indice de centralit connu (ici la centralit dintermdiarit) adapt au cas prtopologique gnral. enn, pour illustrer notre discours, nous montrerons les rsultats que lon obtient sur un rseau social rel du Web.

A5-77

Classication prtopologique et centralit dintermdiarit

Modlisation prtopologique dun rseau social

Avant dentrer dans la dnition des concepts prtopologiques, nous allons tayer notre propos par un exemple simple dinteractions dans un petit rseau social compos de quatre individus : John, Tim, Ben et Ed (voir Fig. 1). Si on considre quune arte reprsente une relation damiti, il est ais de savoir qui est lami de qui. On peut facilement trouver les amis de John par exemple qui sont Tim, Ben et Ed. En revanche, peut-on trouver facilement les amis du groupe {John, Ed} ? Cela pose un problme car Tim est ami avec John mais pas avec Ed. Pour rsoudre ce problme, nous devons nous rfrer une certaine proximit entre les lments, ce qui revient dnir la notion de voisinage du modle. On peut dnir par exemple que les amis dun groupe de personnes sont ceux qui ont au moins une relation damiti avec un des individus du groupe. Mais on peut galement dnir quun ami dun groupe de personnes doit tre en relation avec tous les membres du groupe. On se rend bien compte de la complexit des interactions qui peuvent intervenir dans un tel modle, do lintrt dutiliser une thorie permettant de modliser ces phnomnes : la thorie de la prtopologie. La prtopologie est un outil mathmatique dnissant la proximit entre les lments dun espace discret. Cette thorie gnralise la topologie, permettant danalyser un systme complexe pas pas, grce des processus dadhrence, dintrieur, que nous dnissons ci-aprs.

John

Tim

Ed

Ben

F IG . 1 Exemple dun petit rseau social avec une relation damiti

2.1

Concepts prtopologiques

Soit E un ensemble non vide, et soit P(E) lensemble des parties de E. Soit une application a : P(E) P(E) appele adhrence et dnie comme suit : A, A E ladhrence de A, a(A) E est telle que : a() = (P1 ) A a(A) (P2 ) Ladhrence est associe au processus de dilatation. De plus, a(.) peut tre applique A selon une squence : A a(A) a2 (A) ... . Cela signie que lon peut suivre le processus

A5-78

Vincent Levorato

pas pas, ce qui nest pas possible avec la topologie, qui conserve la proprit didempotence (a(A) = a2 (A)) (Bourbaki (1971)). Grce ladhrence, on peut directement modliser la notion de proximit.

a(A) A

F IG . 2 Adhrence de A Soit une application i : P(E) P(E) appele intrieur et dnie comme suit : A, A E lintrieur de A, i(A) E est telle que : i(A) = [a(Ac )]c (P1 ) i(A) A (P2 ) avec Ac le complmentaire de A soit E A. Lintrieur est quant lui associ au processus drosion. Notons que la proprit 1 de lintrieur amenant la dualit nest pas toujours vraie. Il est possible de dnir une application intrieur indpendamment de ladhrence. On appelle espace prtopologique le triplet (E, i, a) dont les applications i et a sont dnies prcdemment.

B i(B)

F IG . 3 Intrieur de B Lintrt des prcdentes dnitions pour la modlisation des rseaux sociaux peut tre expliqu ainsi : on peut dire que les lments de a(A) sont proches de A (voisins "directs"), et pour chaque adhrence, on absorbe de nouveaux lments. On est capable de modliser des dynamiques complexes comme la diffusion dune information dans un rseau par exemple.

A5-79

Classication prtopologique et centralit dintermdiarit

Nous avons galement lapplication intrieur : celle-ci permet dexclure des lments en priphrie dun groupe social. Pour reprendre lexemple prcdent, on pourrait retrouver grce une srie dintrieurs, lorigine de la diffusion de linformation. Le processus de dilatation gnr par ladhrence sarrte un instant donn et nvolue plus. Dans ce cas, on a ak+1 (A) = ak (A). On nomme A comme tant un sous ensemble ferm. De la mme manire, lvolution de lintrieur va cesser, ce qui nous donne ik+1 (A) = ik (A). Cette fois, on nomme A comme tant un sous ensemble ouvert. Respectivement, on utilise les notations F (A) pour la fermeture de A et O(A) pour louverture de A.

F IG . 4 Illustration dadhrences successives menant au ferm On appelera ferm lmentaire et on notera Fx , la fermeture dun singleton {x} de E. On note Fe (E, a) ou Fe , lensemble des ferms lmentaires de E : Fe(E, a) = {Fx , x E} On appelle ferm minimal de E, tout lment de F (E, a), minimal au sens de linclusion. Lensemble des ferms minimaux est not : Fm (E, a) ou Fm . Un rsultat important est que tout ferm minimal est obligatoirement lment de Fe , cest dire un ferm lmentaire. Dterminer les ferms minimaux revient donc explorer les lments de Fe et en extraire les lments minimaux par la relation dinclusion. 2.1.1 Espace prtopologique de type V

Un espace prtopologique gnral comme dni ultrieurement ne prsente que peu dintrt en ltat, car il est difcile den faire une analyse. Il faut donc amener une nouvelle proprit pour rendre cet espace prtopologique plus "intressant", do la dnition dun nouvel espace prtopologique : le type V. Un espace prtopologique de type V (E, a) est dni comme suit : A, B, A E, B E et A B avec a(A) a(B)

A5-80

Vincent Levorato

2.1.2

Espace prtopologique de type Vd

Un espace prtopologique de type Vd (E, a) est dni comme suit : A, B, A E, B E et A B avec a(A B) = a(A) a(B) Tout espace de type Vd est de type V. 2.1.3 Espace prtopologique de type Vs

Un espace prtopologique de type Vs (E, a) est dni comme suit : A, A E, avec a(A) =
xA

a({x})

Un espace de type Vs est clairement de type Vd . Les applications a et i ne sont pas forcment idempotentes. On ne doit pas confondre une prtopologie de type Vs et une topologie. Les types despaces les plus utiliss dans nos tudes sont les types V et Vs .

2.2

Dnition dun rseau en prtopologie

Maintenant les concepts prtopologiques prsents, nous sommes en mesure de dnir un rseau (social) de manire prtopologique. Un rseau social peut tre dni comme une famille de relations binaires ou values dnies sur une population donne (Degenne (2004)). La dynamique dun rseau est base sur des oprations telle que larrive de nouveaux lments, lviction dlments existants, la formation de groupe ou la sparation en sous-groupes. Ces phnomnes sont souvent observables dans les rseaux sociaux sous forme de communauts (Backstrom et al. (2006)) mais galement dans le cas des rseaux de manire plus gnrale. Dans le cadre de la prtopologie, un rseau est une famille de prtopologies sur un ensemble donn (Fig. 5), do la dnition suivante (Dalud-Vincent (1994)) : Soit X un ensemble : soit I une famille dnombrable dindices ; soit {ai , i I} une famille de prtopologies sur Xi ; la famille despaces prtopologiques {(X, ai ), i I} constitue un rseau sur X. On peut reprsenter ainsi des relations de natures diffrentes : par exemple, on pourra modliser un rseau social o les individus sont relis entre eux par une relation damiti (relation binaire) et o leur emplacement gographique est ncessaire (mtrique). Le voisinage dun individu pourra tre dni selon les besoins de la problmatique : sont voisins ceux qui sont amis et qui habitent dans un rayon de x km. La dnition de ladhrence et/ou de lintrieur dpend donc de la nature de la problmatique : un certain nombre de travaux dans ce domaine ont dj montr dintressants rsultats (Bonnevay et al. (1999); Largeron et Bonnevay (1997); Levorato et Bui (2007); Levorato et al. (2009)).

A5-81

Classication prtopologique et centralit dintermdiarit

(X,a )
1

(X,a )
2

(X,a )
3

F IG . 5 Exemple de trois prtopologies diffrentes sur X

Analyse dun rseau social par une mthode mixte : kmoyennes et centralit dintermdiarit

Lide est la suivante : on partitionne notre rseau social grce une mthode des k-moyennes, on classe les partitions obtenues selon leur centralit dintermdiarit. Dans cette section, nous prsentons un algorithme de partionnement des k-moyennes bas sur la thorie de la prtopologie qui a dj fait lobjet de travaux et qui a t introduit par Le et al. (2008). Nous prsenterons ensuite nos contributions : la centralit dintermdiarit prtopologique, puis la mthode nale permettant une analyse de rseau social.

3.1

MCPR : Mthode de Classication Prtopologique avec Rallocation

La base de cette mthode reprend lalgorithme original de MacQueen (1967). Cet algorithme assigne chaque objet au sous-ensemble dont le centre est le plus proche de lobjet en question : Choisir le nombre de sous-ensembles k obtenir. Choisir k groupes de manire alatoire et en dterminer les centres, ou prendre alatoirement k objets comme tant les centres initiaux. Assigner chaque objet au groupe dont le centre est le plus proche. Recalculer les centres de chaque groupe. Rpter les deux tapes prcdentes tant que la composition des groupes change. La performance de cette technique est "proportionnelle" la qualit de la fonction de mesure de distance utilise. En prtopologie, nous ne sommes pas forcment dans un espace mtrique, donc nous ne disposons pas dune distance proprement parler. Une pseudo-distance doit tre dnie : Le et al. (2008) dnissent (A, B) comme la pseudo-distance entre deux sous-ensembles A et B dun ensemble ni E. Celle-ci est calcule comme la distance de Hausdorff.

A5-82

Vincent Levorato

k0 = min(min{k|A ak (B)}, ) k1 = min(min{k|B ak (A)}, ) (A, B) = min(k0 , k1 ) La famille Fm des ferms minimaux de E reprsente le nombre k de partitions obtenir. Concernant la dtermination du centre dun ensemble F , on procde comme suit : On note x0 le centre de lensemble. Avec F = xF {x}, nous devons dcider quel {xi } choisir. Pour cela, nous calculons Card(a(xi )) avec i [1, Card(F )]. Nous choisissons x0 tel que Card(a(xi )) soit ladhrence contenant le plus grand nombre dlments. Au cas o plus dun x0 existe, on choisit x0 de manire ce que celui-ci minimise la pseudodistance avec le plus grand ferm lmentaire qui le contient. Lalgorithme MCPR se basant sur lalgorithme des k-moyennes, on retrouve ainsi son droulement dans ce qui suit : 1. Choisir k groupes initiaux par les ferms minimaux puis en calculer les centres en formant ainsi k classes. 2. (R)affecter chaque objet x la classe Ci de centre Mi tel que (x, Mi ) soit minimale 3. Recalculer le centre Mi de chaque classe. 4. Aller ltape 2 jusqu ce que les objets ne changent plus de classe. Nous avons l une mthode prtopologique de partionnement, applicable des espaces non-mtriques ou mixtes. Nous voulons aller au-del du simple partitionnement dun rseau social, en classant ces partitions selon leur importance. Ici, nous nous penchons sur le rle que chaque partition peut jouer dans le rseau en terme de diffusion de linformation.

3.2

Centralit dintermdiarit prtopologique

La centralit dintermdiarit a t propose par Freeman (1977) et dfend lide quun individu peut bien tre faiblement connect aux autres et mme relativement loign, mais servir dintermdiaire dans bon nombre des changes entre les autres membres du groupe. Plus il sert ou peut servir dintermdiaire pour tous les membres, plus il est en position de contrler la communication ou dtre indpendant des autres pour communiquer. Un tel individu peut inuencer le groupe plus facilement en ltrant ou distordant les informations qui y circulent. Sa position lui permet galement dassurer la coordination du groupe. Do la dnition suivante : Centralit dintermdiarit : Soit n le nombre de sommets dun graphe, gjk le nombre de chemins godsiques 1 reliant le nud j au nud k, et gjk (i) le nombre de ces chemins passant par le nud i, on dnit CAI(i) lindice de centralit absolu dintermdiarit du sommet i par :
n n

CAI (i) =
j k=1

gjk (i) gjk

1. plus courts chemins.

A5-83

Classication prtopologique et centralit dintermdiarit

avec : j = k = i et j < k La proprit de Freeman est intressante, et il nous a paru intressant den adapter une version prtopologique plus gnrale :
Algorithme 1 Algorithme dintermdiarit prtopologique Mthode : PretopoBetweeness(Ensemble A) Variables : A : ensemble de dpart tel que A E gjk , gjk i, gjk tmp : entier Bdeg : rel Dbut Bdeg 0 gjk 0 gjk i 0 Pour i de 0 Card(E) Faire Pour j de 0 Card(E) Faire elti singleton de E eltj singleton de E gjk tmp nb_chemins_geo(elti ,eltj ) Si gjk tmp > 0 Alors gjk gjk + gjk tmp gjk i gjk i + (nb_chemins_geo(elti ,A) nb_chemins_geo(A,eltj )) FinSi FinPour FinPour Si gjk > 0 Alors Bdeg gjk i/gjk FinSi Renvoyer Bdeg Fin

Exemple Voici un exemple concret sur un passage de la boucle ci-dessus. Soit E un espace prtopologique de type Vs avec des relations inter-lments de nature binaire. Pour une plus grande facilit de lecture, nous reprsentons lespace E comme un graphe (Fig. 6). Aprs avoir class les lments selon ladhrence dans laquelle il se trouvent, en supposant que la classe 1 reprsente les lments contenus dans ladhrence de degr 1 (moins llment j), nous avons : 1. {A,B,C} 2. {D,E,F} 3. {G,k} De manire intuitive, nous excluons demble llment G. Ainsi, les plus courts chemins entre j et k sont : j-A-D-k, j-A-E-k, j-B-E-k. Dans ce cas prcis, il y a 3 chemins godsiques entre j et k. Nous voulons calculer la centralit dintermdiarit dun lment, par exemple E (nomm i dans lalgorithme). On remarque quil y a 2 chemins godsiques entre j et k passant par E. Donc, la centralit dintermdiarit 2 de llment E, pour un seul passage de la boucle est de 3 . Pour avoir le rsultat nal, il faut bien sr nir lalgorithme en prenant toutes les paires (j, k) du rseau avec E comme lment i. Lintrt de cet algorithme est que si pour lexemple et la comprhension, on ne travaille quavec des singletons, dans la pratique, on peut calculer lintermdiarit dun ensemble, permettant ainsi de gnraliser lalgorithme original.

A5-84

Vincent Levorato

G A j B C a(j) F D E i a(j) k a(j)

F IG . 6 Adhrences successives de j

3.3

Mthode mixte : MCPR & centralit dintermdiarit

La mthode danalyse qui consiste coupler MCPR et la centralit dintermdiarit gnralise reprend lide nonce en dbut de section : on partitionne tout dabord notre espace en groupes grce MCPR puis on classe ces partitions selon leur centralit dintermdiarit entre elles. Cest dire quon considre uniquement les chemins dune classe une autre. Pour une classe tudie, plus il y a de chemins entre deux autres classes passant par cette classe, plus celle-ci est intermdiaire.
Algorithme 2 Algorithme danalyse mixte Mthode : PretopoMCPR&Between(Espace E) Variables : E : espace prtopologique listeM CP R : liste densembles (partitions) listeResultats : couple ensemble-rl (composition de lensemble et score associ) Dbut listeM CP R M CP R(E) Pour i de 0 listeM CP R.taille 1 Faire listeResultats.index(i) couple(listeM CP R.get(i), P retopoBetweenessClasses(listeM CP R.get(i)) FinPour Renvoyer listeResultats Fin

On peut donc associer un poids dintermdiarit chaque classe. Nous avons appliqu cette mthode sur un rseau social Web : YouTube. Les donnes ont t extraites par Cheng et al. (2008) et reprsentent les liens "Vidos similaires" quil peut y avoir entre les vidos. Notre mthode a t applique sur un rseau non-connexe de 953 vidos et 3037 liens orients. Le sens de la centralit dintermdiarit dans ce cas est que plus une vido est intermdiaire, plus son rle dans le ou les plus courts chemins entre deux vidos quelconque est important. Si on exclut ce genre dlments du rseau, il est probable que la taille du plus court chemin entre couples dlments augmente ou mme quil ny ait plus du tout de chemin. En terme dinterprtation, cela signie que certaines vidos permettent de faire dcouvrir un maximum dautres vidos par leur biais. Avoir cette information peut, par exemple, permettre de promouvoir toute une catgorie de vidos en mettant en avant seulement quelques vidos cls. Voici comment est

A5-85

Classication prtopologique et centralit dintermdiarit

dni notre espace prtopologique avec R des relations binaires rexives non-symtriques : R1 (x) = {y E, xRy}, R2 (x) = {y E, yRx} A P(E), a1 (A) = {x E, R1 (x) A = } et A P(E), a2 (A) = {x E, R2 (x) A = } On utilise la premire adhrence pour MCPR car ce qui nous intresse dans un premier temps, ce sont les voisins dune vido qui pointent vers celle-ci. Puis on utilise la deuxime adhrence pour la partie intermdiarit car ce sont les chemins dans le rseau qui nous intressent par la suite. Nous donnons une illustration de ce que lon veut obtenir sur une partie de rseau YouTube Fig. 7. Les classes sont en vert, il peut y avoir des lments non classs, et les lments colors appartiennent aux classes les plus intermdiaires. La non-connexit est tout fait comprhensible pour un rseau tel que YouTube, en tout cas en ce qui concerne la rcupration des donnes. Evidemment, cette exemple, servant uniquement la visualisation du problme, nest pas trs reprsentatif puisque lon a trop peu dlments pour pouvoir faire une quelconque interprtation. Nanmoins, cela permet de comprendre le principe : aprs avoir partitionn le rseau, on recherche les classes les plus intermdiaires, et fortiori les lments les composant.

F IG . 7 Exemple de rsultats obtenus Sur le rseau de 953 vidos et 3037 liens, nous obtenons 171 groupes dans un premier temps, composs au maximum de 20 lments. Pour ces groupes, seuls 29 dentre eux possdent une intermdiarit suprieure 0. Sur ces 29 groupes, 5 groupes se dtachent avec des valeurs suprieures aux 24 restants, reprsentant 42 lments du rseau. Les scores se situent entre 0.023 et 0.011, ordre de grandeur que lon retrouve avec la version standard de la centralit dintermdiarit. Dailleurs, en comparant les scores noeud par noeud du rseau avec la centralit dintermdiarit originale, et le score calcul par notre mthode, si on retrouve

A5-86

Vincent Levorato

Noeud d 8nW Iqxo0U L95Sv5aLtZg Q7Cpi5t Y QI drW 1zIv4wnA P yC3Byv0 mM 4LK3KV SKebI cGY 5lhF ZF pc 6QV tiaBImlw ... Partition [dl4-v0oK7PY, bCZZnJYcPZ4, QBvyHHwQLdw] [mUko-hI7rV8] [Oh40Lm4sRoU, aHer7D0USEc, L95Sv5aLtZg, Q1U6LjALlgo, 4LK3KVSKebI, hECwBuJN2us, eiApTvWkkBI, PyC3Byv_0mM, aWpkJIOwH5c, 2J-Moz5j_do, U1I6H3hTzeI, vLRWAnJQjbU, RYETO3-FTek, Q7Cpi5t-YQI, JWp_gxJORAQ, uRkkmVR6ATU, 9HTzWE8WeCc, S5rU71HA69Y, 9RDCWaSERoY] [_d8nWIqxo0U, 2_W1u-K7dS8, UPumjbRBqZM, XllwXjlKIvA, kBYoYeIPBUc, cGY5lhFZFpc, vPXKq2HWHJM, hI4ixSkCgas, P2JYz22fwAI, du1SK1SYgEo, drW1zIv4wnA, b5RVxE4jLD0, PX7Yujz6Kj8, NmzplkH4q88] [SsHjkq-_RCw, 68gwSEpog6g, 81UN9izhrjM, 6QVtiaBImlw, V8pVrKvofpY] ...

Score 0.028 0.015 0.015 0.013 0.012 0.011 0.011 0.011 ... Score 0.02353 0.02353

0.02353 0.02353 0.02353 ...

TAB . 1 Extrait de rsultats de centralits dintermdiarit : mthode standard et mthode prtopologique mixte

une certaine cohrence, on a cependant des noeuds qui, seuls, ont une centralit dintermdiarit proches de zro, et qui, en groupe, ont un score plac dans les premiers (Tab. 1). Nous observons une proprit mergente que lon voit apparatre seulement si on regroupe certains lments qui, ensemble, auront un comportement diffrent que sils agissaient chacun sparment. Notre mthode nous permet dans ce cas de dtecter des phnomnes que lon naurait pas pu dceler avec une modlisation et des mthodes danalyse classiques.

Conclusion

Le travail prsent dans ce document participe la gnralisation de la modlisation des rseaux sociaux du Web, de part la modlisation utilise (thorie de la prtopologie, qui allie qualitatif et quantitatif), et des mthodes algorithmiques proposes. Outre le fait davoir donn un algorithme alliant les k-moyennes et la centralit dintermdiarit gnraliss, notre mthode amne une vision diffrente de celles que lon connat habituellement dans ce domaine, en prenant en compte lmergence de proprits qui apparat quand plusieurs lments forment un groupe, celui-ci ayant un comportement diffrent des seuls lments le composant. Il nous est donc susceptible dobtenir des rsultats "plus ns". Bien entendu, le problme de linterprtation des rsultats ne disparat pas pour autant, ncessitant lavis dexperts du domaine (sociologues), mais en nous plaant un niveau de modlisation plus gnral, nous sommes dsormais capables danalyser de manire plus prcise et plus ne la dynamique et la structure des rseaux complexes, nous permettant de mieux comprendre les phnomnes mergents qui sy droulent.

Rfrences
Backstrom, L., D. Huttenlocher, J. Kleinberg, et X. Lan (2006). Group formation in large social networks : Membership, growth, and evolution. Proc. 12th ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining.

A5-87

Classication prtopologique et centralit dintermdiarit

Belmandt, Z. (1993). Manuel de prtopologie et ses applications : Sciences humaines et sociales, rseaux, jeux, reconnaissance des formes, processus et modles, classication, imagerie, mathmatiques. Hermes Sciences Publications. Bonnevay, S., M. Lamure, C. Largeron, et N. Nicoloyannis (1999). A pretopological approach for structuring data in non-metric spaces. Electronic Notes in Discrete Mathematics 2. Bourbaki, N. (1971). Topologie gnrale. Hermann. Cheng, X., C. Dale, et J. Liu (2008). Dataset for "statistics and social network of youtube videos". School of Computing Science Simon Fraser University British Columbia, Canada. http ://netsg.cs.sfu.ca/youtubedata/. Dalud-Vincent, M. (1994). Modle prtopologique pour une mthodologie danalyse des rseaux : concepts et algorithmes. Ph. D. thesis, Universit Claude Bernard - Lyon 1. Degenne, A. (2004). Entre outillage et thorie, les rseaux sociaux. Rseaux Sociaux de lInternet. Freeman, L. (1977). A set of measures of centrality based on betweenness. Sociometry 40, 3541. Largeron, C. et S. Bonnevay (1997). Une mthode de structuration par recherche de ferms minimaux : application la modlisation de ux de migrations inter-villes. In 5me rencontres de la Socit Franaise de Classication, Lyon, France. Le, T. V., N. Kabachi, et M. Lamure (2008). Pretopology and a homogeneous method for data clustering. In RIVF08 conference, Hochiminh city, Vietnam. Levorato, V. et M. Bui (2007). Modeling the complex dynamics of distributed communities of the web with pretopology. In I2CS, Munich, Germany. Levorato, V., T. V. Le, M. Lamure, et M. Bui (2009). Classication prtopologique base sur la complexit de kolmogorov. Studia informatica universalis 7.1, 199222. MacQueen, J. (1967). Some methods for classication and analysis of multivariate observations. In 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, pp. 281297. Newman, M., A.-L. Barabsi, et D. J. Watts (2006). The Structure and Dynamics of Networks. Princeton University Press.

Summary
In this paper, we propose to model social networks by applying the pretopology theory as a generalization of the graph theory. After giving some denitions and examples, we explain how measures used in social network analysis (k-means, betweenness centrality) can be generalized with pretopology theory in order to obtain new interesting results. To argue in this sense, our work will be supported by an example of application obtained on a real Web social network.

A5-88

Lontologie NiceTag : les tags en tant que graphes nomms


Alexandre Monnin*, Freddy Limpens** David Laniado***, Fabien Gandon** * EXeCO, Universit Paris I Panthon-Sorbonne DICEN, Conservatoire National des Arts et Mtiers Alexandre.Monnin@malix.univ-paris1.fr http://execo.univ-paris1.fr/spip.php?article67 ** Edelweiss, INRIA Sophia-Antipolis {freddy.limpens, fabien.gandon}@sophia.inria.fr http://www-sop.inria.fr/members/Freddy.Limpens/ http://www-sop.inria.fr/members/Fabien.Gandon/wakka.php?wiki=FabienGandon *** DEI, Politecnico di Milano david.laniado@elet.polimi.it Rsum. Notre analyse part du constat selon lequel les modlisations des tags dont nous disposons actuellement ne prennent pas suffisamment en considration leur richesse et leur diversit. Aussi proposons-nous, pour pallier ce dfaut, une ontologie dans laquelle les tags seraient assimils des graphes nomms. Ceux-ci sont constitus au minimum d'une ressource relie un signe qui peut lui-mme s'apparenter n'importe quelle ressource accessible en ligne (un concept d'une ontologie, une image, etc.). Ce modle entend ainsi fournir une caractrisation suffisamment gnrale et flexible des tags, et, par voie de consquence, un cadre susceptible de s'appliquer tous les tags, quelque soit le modle sur lequel repose leur description (SCOT, CommonTag, etc.).

1 Introduction
Les tags constituent aujourd'hui un dispositif clef du Web social ainsi qu'un nouveau support d'expression permettant de remplir bien des offices : slectionner, catgoriser ou classer des contenus, commenter, voter, partager, identifier, etc. Le tagging social et les rsultats quil engendre (les folksonomies), peuvent tre perus comme des opportunits nouvelles mme d'impliquer les utilisateurs dans une nouvelle forme de commerce vis-vis des contenus du Web, libre des contraintes de lindexation traditionnelle. Sil est un trait commun aux modlisations actuelles du tag, cest bien que ceux-ci y sont reprsents comme des instances d'une classe tag unique. Cette unicit traduit un rapport univoque aux libells desdits tags et ce alors mme que le libell d'un tag peut ressortir une multitude d'emplois, et par consquent, se voir modliser de bien des manires diffrentes en fonction des diffrents actes de tagging concerns. Qui plus est, la relation entre une ressource tague et le signe employ pour la taguer est modlise l'aide de la seule et

A5-89

lontologie nicetag : les tags en tant que graphes nomms unique proprit has tag (SCOT1) ou tagged (CommonTag2). Pourtant, la nature des tags n'est pas univoque ce dont rend compte le modle CommonTag. Le but du modle ici propos est de founir une modlisation des actes de tagging (TagAction) qui ne soit pas tributaire d'une interprtation univoque et rductrice de ce que doit tre le signe employ en guise de tag. Nous proposons donc, pour dcrire les tags de la manire la plus flexible qui soit, de les assimiler en priorit lensemble associant une ressource tague au signe utilis pour la taguer, celui-ci pouvant ds lors emprunter diffrentes formes et conceptualisations (qu'il s'agisse d'une image, d'un litral, d'un concept issu d'une ontologie, etc.). Ces deux entits sont modlises l'aide de la classe rdfs:Resource (RDF Vocabulary Description Language), de faon laisser aux usagers la libert de mobiliser les modles du tag ou de la ressource de son choix. Ceci pos, le lien entre la ressource tague et le signe utilis pour la taguer est reprsent par une proprit et lassertion obtenue capture dans un graphe nomm. Sachant que la dclaration des graphes nomms n'est pas nativement supporte en RDF, la dcision fut prise de pallier ce manque en intgrant le modle de Carroll et al. (2005) et la dclarations des sources en RDF/XML propose par Gandon et al. (2007). Ce choix, rtro-compatible avec les recommandations du W3C, offre en retour la possibilit de mobiliser les diffrentes initiatives visant formaliser le tagging (SCOT, CommonTag, etc.) autant que ncessaire et dtablir le lien entre elles de la manire la plus efficace possible ce qui se traduit, au plan oprationnel, par la possibilit de poser des requtes portant sur un ensemble htrogne de modles. De plus, pour rpondre aux problmes d'ambiguit et d'imprcision des tags, les modles de tagging actuels, tels que MOAT (Passant et Laublet, 2008), proposent d'associer la signification du tag chaque acte de tagging. L'ontologie NiceTag, quant elle, apporte une rponse complmentaire ce problme en permettant de prciser la relation liant la resource tague et le tag pour chaque acte de tagging. Cet article est organis de la manire suivante. La deuxime section est dvolue une discussion des motifs nous ayant amens proposer un nouveau modle du tag. Sont dtaills, dans la section suivante, notre modlisation des tags et l'impmentation des graphes nomms qui l'accompagne. La quatrime section prsente quant elle des exemples d'annotations ainsi que des requtes portant sur des donnes relles et impliquant de multiples modlisations. Nous concluons l'occasion de la cinquime et dernire section.

2 Nature et Usage des Tags


Longtemps la nature des tags est demeure, au moins partiellement, offusque. Grce, cependant, aux travaux mens pour rsoudre la "crise d'identit" du Web Smantique, un arsenal thorique a vu le jour qui nous permet aujourd'hui d'aborder cette question de front. De quoi s'agit-il ? Laugmentation progressive d'un Web de documents en un Web dit smantique s'avra bien vite source d'ambigut. Effectue partir de linfrastructure du premier, les URIs semblaient d'un coup identifier tout aussi bien des contenus consultables en ligne que des entits absentes du rseau (en tant que telles, nous ne parlons videmment pas ici de leurs descriptions) : personnes, concepts abstraits, fictions, etc.

1 2

http://scot-project.org/scot/ www.commontag.org

A5-90

A. Monnin et al. Une des solutions proposes afin de remdier ce problme le fut par P.Hayes et H. Halpin. Elle consiste bien dissocier la rfrence, relation que n'affectent pas les rgles techniques de fonctionnement du Web Smantique, de l'accs, traduisant la dimension causale des changes sur un rseau informationnel tel que le Web. La premire doit son fonctionnement des rgles smantiques, la secondes aux spcifications qui fournissent au Web son assise technologique. Dispositifs matriels autant que smiotiques, les tags exhibent, mutatis mutandis, une dualit similaire celle des URIs. Dans le sillage des auteurs prcdemment cits, nous mettons l'hypothse selon laquelle il est essentiel d'intgrer les conclusions de ces analyses tout effort visant modliser les tags. Confondre accs et rfrence serait en effet oublier que le lien symbolique usuel entre mots et choses ne ncessite aucunement de se voir implment dune quelconque manire. Nul besoin davoir recours des moyens dordres techniques pour quun mot atteigne son objet, aucun artefact ny pourvoira. Qu'est-ce en effet qu'un tag, premire vue, si ce n'est, pour le dire trs grossirement, l'association, au moyen d'une balise HTML <a> et de l'lment href, d'un libell qui prend la forme d'une suite quelconque de caractres, d'une images, etc. et dun lien hypertexte (une URI) ? Contrairement aux vedettes matires ou aux descripteurs dont la smantique est attache dune manire contrainte, soit un modle spcifique, soit un lexique intgralement ordonn par des relations de sens en vue dliminer toute ambigit, le libell d'un tag est un espace vierge susceptible daccueillir des entits contrastes, linguistiques ou non, djouant ainsi toute intelligence globale de la smantique sous-jacente son utilisation. Avec, parfois, l'ajout d'un lment supplmentaire destin identifier un lien HTML en tant que tag par l'intermdiaire du microformat rel="tag". Il existe dailleurs, cet gard, une autre manire de caractriser les tags, notre sens discutable, et qu'illustre ce passage tir des spcifications du microformat cit linstant :
By adding rel="tag" to a hyperlink, a page indicates that the destination of that hyperlink is an author-designated "tag" (or keyword/subject) for the current page. Note that a tag may just refer to a major portion of the current page (i.e. a blog post). e.g. by placing this link on a page, <a href="http://technorati.com/tag/tech" rel="tag">tech</a> the author indicates that the page (or some portion of the page) has the tag "tech". The linked page SHOULD exist, and it is the linked page, rather than the link text, that defines the tag. The last path component of the URL is the text of the tag, so <a href="http://technorati.com/tag/tech" rel="tag">fish</a>would indicate the tag "tech" rather than "fish"3.

Plusieurs raisons nous conduisent rejeter ce point de vue : a) Ce modle ancre le tagging dans une activit d'emble communautaire puisque le lien auquel vient se greffer un libell n'est pas le lien de la ressource qui dclenche lacte de tagger lui-mme mais de la page qui liste l'ensemble des ressources tagues au moyen du libell que l'on retrouve la fin de l'URI de cette mme page. L'activit de l'utilisateur appel choisir ses propres libells (ici fish ) serait nie si l'on en restait l. Un tag ntant plus ds lors un signe accol une ressource mais une partie dune URI (ici tech ). b) Que le libell du tag soit ainsi report sur l'URI viole un des principes sous-jacent de l'architecture REST du Web smantique, savoir le principe dopacit des URIs4. Qui plus est, et l'exemple cit l'illustre, il existe un risque de confusion entre l'ancre textuelle du tag (ici fish ) et le libell directement intgr l'URI (ici tech ). c) La disparition du lien intention(n)el qui justifie qu'un libell ait t ajout une ressource donne est minemment problmatique. Des tudes se sont penches sur la nature
3 4

http://microformats.org/wiki/rel-tag http://www.w3.org/DesignIssues/Axioms.html#opaque

A5-91

lontologie nicetag : les tags en tant que graphes nomms d'un tel lien afin de mettre en lumire les diffrentes fonctions du tagging. L'assimilation entre un tag et une URI donnant accs un ensemble de ressources agrges par un ou plusieurs individus titulaires d'un compte, ou par la communaut entires des utilisateurs, tend gommer cette dimension pourtant inhrente chaque acte de tagging. C'est d'ailleurs l un point que souligne le W3C dans la prsentation qu'il donne de ces outils :
Tagging has emerged as a popular method of categorizing content. Users are allowed to attach arbitrary strings to their data items (for example, blog entries and photographs). While tagging is easy and useful, it often discards a lot of the semantics of the data. A folksonomy tag is typically 2/3 of an RDF triple. The subject is known: e.g., the URL for the flickr image being tagged, or the URL being bookmarked in delicious. The object is known: e.g., http://flickr.com/photos/tags/cats or http://del.icio.us/tag/cats. But the predicate to connect them is often missing. Machine-tags lend themselves to RDF more since they better capture the relationship between the subject and the object. Folksonomy providers are encouraged to capture or infer the semantics around their tags and to leverage semantic web technologies such as RDF and SKOS to publish machine readable versions of their concept schemes. (http://www.w3.org/RDF/FAQ)

Toutefois, l'on aurait tort d'imaginer que ces deux visions s'opposent frontalement. Si l'on ne peut partir de la premire pour aboutir la seconde, l'inverse n'est pas vrai. En partant de ces actes singuliers, qui associent par l'intermdiaire d'un nombre limit de relations types (cf. section 3.2) une ressource un libell selon des critres d'identit trs stricts5, en les explicitant davantage que cela n'a t le cas jusqu' maintenant, on solutionne le problme soulev dans l'extrait prcit de la FAQ du W3C li labsence de prdicat. Ceci pos, rien n'empche ensuite d'affaiblir, volontairement, les critres d'identit du tag. En abandonnant, par exemple, ces relations et les diverses contraintes (de cardinalit ou autre) qui les accompagnent. Ceci afin de lier un libell non plus simplement une ressource mais un ensemble de ressources, collectes tantt par le ou les titulaires d'un compte ouvert sur un site de social tagging ou, tout simplement, par l'ensemble des utilisateurs de la communaut. De tels tags collectifs se conoivent alors comme des agrgats de tags individuels. Aussi, au lieu d'aboutir plusieurs dfinitions contradictoires les concernant, une solution de continuit merge par l'application plus ou moins stricte des critres en fonction desquelles les tags sont identifis.
Il faut distinguer ici deux relations irrductibles impliquant des termes diffrents : la relation entre le libell et la ressource (que lon peut modliser laide de la proprit irw:refersTo), et la relation, d'une tout autre nature, dcoulant des spcifications techniques lie l'architecture du Web Smantique, entre la ressource qui dclenche l'acte de tagging et l'URI qui l'identifie et y donne accs (irw:identifies et accesses). Chaque acte de tagging sur le Web, nomms tag action dans notre ontologie, est dclench par la consultation d'une ressource en ligne (les data item de la citation prcdente) et consiste lui ajouter un libell qui lui-mme renvoie une ressource qui peut ou non s'identifier la prcdente. Typiquement, en accdant, via une URI d'un site marchand, au descriptif du roman La vie devant soi, paru sous le nom d'Emile Ajar, nous pouvons crer un tag Romain Gary et une relation de type a pour auteur par exemple qui reliera ainsi le rfrent de mon tag, non l'article lui-mme mais bel et bien au roman qu'il entend dcrire. Bien entendu, dans bien des cas, la ressource laquelle on accde constituera la rfrence du tag. La vie devant soi rfre, comme nom propre, au livre de R. Gary mais galement, dans le contexte quasi-propositionnel du tagging, soit, ici, par ajout de la relation est propos de , la page consulte sur le site marchand ( cet gard les grammairiens et philosophes mdivaux, et le fondateur de la smiotique moderne lui-mme, Charles Sanders Peirce, leur suite, distinguaient diffrentes manires de signifier. En particulier la significatio, d'ordre lexical, un terme tant pris isolment, et l'acceptio, en prise direct, l'inverse, avec le contexte de l'nonciation).
5

A5-92

A. Monnin et al. Voil, pour rsumer les trois principaux aspects o lontologie NiceTag innove : a) en proposant de modliser le tag au niveau de l'acte singulier de tagging, accompli par un individu (voire une machine lorsque le choix des libells est automatis) les tags ainsi dfinis le sont avec une granularit indite (cf. section 3.1) ; b) par la prise en compte des fonctions varies que le tagging remplit, directement ancre dans les usages et qui les motivent (cf. section 3.2) ; c) en identifiant les tags non seulement au niveau individuel mais galement collectif, par l'assouplissement progressif des critres permettant de les individuer. Ainsi s'effectue le passage du tagging la folksonomie, des actes singuliers de tagging leurs agrgats communautaires (avec toutes les nuances intermdiaires). En outillant ce passage progressif de l'un l'autre, un levier est cr au passage qui permet de rpondre aux besoins des diverses communauts amenes employer le tagging, en mettant tantt laccent sur la dimension individuelle de gestion de l'information, tantt sur la possibilit de favoriser graduellement et la demande les phnomnes de srendipit.

3 Modliser les Tags avec lontologie NiceTag


3.1 Les Actions de Tagging en tant que Graphes Nomms
La classe TagAction tient donc lieu dans notre modle, nous lavons dit, d'quivalent de ce que l'on dsigne habituellement sous le vocable tag . Elle est modlise l'aide d'un graphe nomm contenant des triplets. Ceux-ci ont pour fonction de dcrire le lien entre une ressource tague et un signe. La figure 1 prsente le modle le plus simple de la classe TagAction : une rdfs:resource est lie une autre rdfs:resource par la proprit nt:hasSign . Par ce biais, notre ontologie peut tre associe diverses faons de modliser les ressources tagues et les signes utiliss en guise de tags. rdfs :Resource nt:hasSign nt:TagAction rdfs :Resource

FIG. 1 Classe TagAction dclare sous forme de graphe nomm. Le graphe nomm TagAction est dclar en tant quinstance de la classe nt:TagAction, elle-mme une sous-classe de la classe rdfg:graph (cf. fig. 2) tire du modle de graphe RDF de Carroll et al. (2005). A lheure actuelle, la syntaxe RDF/XML ne prend pas en charge lexpression des graphs nomms. Cest pourquoi Carroll et al ont propos une nouvelle syntaxe XML pour RDF nomme TriX (Triplets en XML). Gandon et al. (2007) ont quant eux ont propos une extension rtro-compatible de la syntaxe RDF/XML qui sert nommer les graphes RDF. Dans la section 3.3 nous dcrivons limplmentation de cette extension afin dimplmenter des instanciations dactes de tagging. Pour rendre compte des diffrentes actions que lon peut accomplir rien quen taguant, nous avons dfini plusieurs sous-classes de la classe TagAction. Les instances de la classe TagAction sont dclares en tant que graphes nomms rsultant dune action humaine (ManualTagAction), pour les diffrencier de formes plus complexes de tagging telles celles qui impliquent des machine tags (MachineTagAction). Agrges, les actions de tagging peuvent aussi bien revtir un caractre collectif (CollectiveTagAction) quindividuel (IndividualTagAction). En effet, comme nous lavons vu, il est souhai-

A5-93

lontologie nicetag : les tags en tant que graphes nomms table de bien distinguer la reprsentation collective dun tag, tel que le tag possdant ladresse http://delicious.com/tag/improv, qui renvoie lensemble des signets tiquets improv , des reprsentations individuelles, lies un compte, de ce mme tag, telles que http://delicious.com/fabien_gandon/improv, adresse qui pointe vers tous les signets que Fabien Gandon a tagu laide du libell improv (de telles reprsentations passent par un assouplissement des critres didentit associs aux tags). Enfin, la classe TagAction est dclare fille de la classe sioc:Item de faon rendre ainsi compte de la nature partageable des tags. Aussi le tagging peut-il tre assimil une manire de poster. Ceci nous permet ds lors de dcrire lendroit o les tags sont stocks grce la classe sioc:has_container, de mme que le compte (sioc:User) de lutilisateur (foaf:Person) du tag laide de sioc:has_creator. sioc:Item rdfg:Graph
nt:hasSign

nt:TagAction

rdfs :Resource

rdfs :Resource

sioc:has_container sioc:has_creator

sioc:Container sioc:User sioc:account_of foaf:Person

FIG. 2 TagAction sous-classe de sioc:Item et rdfg:Graph.

3.2 Modliser les usages


Nombre de modlisations actuelles du tag ambitionnent dassocier celui-ci une signification bien dfinie ; cette mise en relation est destine pallier le problme que reprsente le fait quun terme puisse tre dot dune pluralit de significations selon les contextes ou les communauts qui lemploient (Passant et Laublet 2008). Seulement, la polysmie est loin dtre la seule source dambigit affectant les tags : une part de leur signification rside en effet dans les types de relations (jusqu prsent implicites) qui stablissent entre la ressource et le signe. Par exemple, lutilisation du tag blog , lun des plus populaires sur delicious, pourra sans contredit renvoyer deux ralits au moins, bien distinctes lune de lautre, alors mme que le libell blog aura quant lui t employ conformment une seule et mme dfinition. La ressource peut en effet tre propos des blogs ou tre ellemme un blog (voire les deux la fois, le tout tant alors de savoir quoi lutilisateur fait rfrence). Qui plus est, certains tags destins un usage personnel (idiosyncrasiques) ne font sens que pour un utilisateur prcis. Golder et Huberman (2006) ont identifi pas moins de sept classes de tags partir des fonctions quils remplissent. Sen et al. (2006) ont ramen les classes ainsi mises jour trois grandes catgories de tags : factuels, subjectifs et personnels. Des tudes quantitatives bases sur des applications populaires dmontrent quune part significative des tags tend tomber sous les deux dernires catgories (Sen et al. (2006), Al-Khalifa and Davis (2007)). Dautres travaux proposent une classification fonctionnelle fonde sur une premire distinction entre tags lis au sujet et non lis au sujet , cette dernire catgorie admettant, son tour, une subdivision entre tags affectifs ou relatifs tantt la dimension temporelle, tantt

A5-94

A. Monnin et al. laccomplissement dune tche (Kipp 2008). Les tags lis au sujet sont susceptibles quant eux dune caractrisation plus prcise qui passe par la distinction entre lis au contenu et lis la ressource . Inspirs par ces tudes, en particulier celle, sminale, de Golder et Huberman, nous avons modlis les diffrents usages possibles des tags au moyen de sousproprits de la proprit nicetag:hasSign (cf. Fig 3.)

FIG. 3 Sous-proprits de nicetag:hasSign. La premire de ces relations entre signe et ressource est la relation isAbout, qui rend compte, sans doute, de lusage le plus commun du tag, visant identifier un sujet (le fait dtre propos de). Seconde sous proprit de hasSign, hasKind, destine couvrir lensemble des cas o un tag est utilis pour identifier et caractriser une ressource (forum, vido, etc.). La proprit hasQuality associe la ressource un adjectif ou nimporte quel signe exprimant une qualit (joli, idiot, etc.). Lexpression des motions suscites par une ressource se fait au moyen de la proprit emotionalReaction ; typiquement, il sagira dexclamations ou dmoticnes ( wow ! , ^^ , :-) ). hasPersonalSign couvre lensemble des cas o un tag ne fait sens que pour son seul crateur. Ceci inclut tant les classes touchant lorganisation des tches de Golder et Huberman que lensemble des expressions indexicales ou token rflexives , quelles le soient explicitement (mes_trucs, ma_thse) ou non ( thse pour ma thse, etc.) ; ces dernires trouvant ds lors leur place sans risque dtre confondues avec le sujet ou lune des caractristiques quelconques dune ressource. Dans le mme ordre dides, la proprit hasCommunityTag fut introduite pour rendre compte des tags destination dun public ou dune communaut particulire. A titre dexemple, nous avons utilis le tag #vocampnice2009 pour partager des ressources concernant le VoCamp o la prsente ontologie fut labore sur une pluralit de plateformes du Web social. Restent enfin deux proprits, suggestedTo et suggestedBy, pour modliser les actions touchant au networking. Plusieurs plateformes ont implment pareilles fonctionnalits, notamment delicious en dveloppant pour ce faire une syntaxe spciale (le double tag for:username ).

3.3 Utiliser la dclaration de source RDF/XML pour limplmentation et lutilisation des graphes nomms
Une requte portant sur une collection de graphes dans SPARQL peut utiliser mot clef GRAPH ou FROM, utilis pour faire concorder des motifs recherchs (patterns) avec des graphes nomms. Le modle de donnes RDF se focalise avant tout sur lexpression de triplets dots dun sujet, dun prdicat et dun objet, cependant ni lui ni sa syntaxe RDF/XML ne fournissent de mcanisme permettant de spcifier la source de chaque triplet. Pour ce faire, il existe une mthode que propose la soumission membre du W3C RDF/XML Source

A5-95

lontologie nicetag : les tags en tant que graphes nomms Declaration (Gandon et al. 2007) et qui consiste associer aux triplets encods en RDF/XML une URI spcifiant leur origine. Elle requiert lemploi dun unique attribut afin de spcifier la source auxquels des triplets exprims en RDF/XML sont attachs. LURI de la source dun triplet est : 1. lURI source spcifie par un attribut cos:graph associ llment XML encodant ce triplet, si celui-ci existe ; sinon 2. lURI source du parent de llment (obtenu en appliquant les mmes rgles de manire rcursive) ; sinon 3. lURI de base du document. La porte dune dclaration de source stend de la balise ouvrante dans lequel il apparat jusqu la balise fermante correspondante, lexclusion de la porte de toute dclaration interne. Une telle dclaration de source sapplique tous les lments et attributs inclus dans son champ. Si aucune source nest spcifie, lURL du document RDF/XML fait alors office de source par dfaut. Une seule source peut tre dclare en tant quattribut dun lment donn. Le code 1.1 montre comment ceci sapplique un tag captur dans un graphe nomm. Les lignes 5 8 prsentent la dclaration du tag en tant que graphe nomm : http://mysocialsi.te/tag#7182904. Les lignes 10 13 rutilisent le nom de ce graphe pour qualifier le tag en tant que tag cr manuellement par Fabien Gandon le 7 octobre 2009. Lon pourra, condition de charger au pralable cet ensemble de donnes RDF dans un entrept adquat, rsoudre des requte SPARQL similaires celle du code 1.2. La ligne 3 correspondant une recherche portant sur un graphe nomm et le triplet quil contient. La ligne 4 permet de sassurer que ces tags ont t gnrs manuellement. Code 1.1. Un tag sous la forme dun graphe nomm utilisant la syntaxe RDF/XML
1 <rdf:RDF xmlns:dc="http://purl.org /dc/elements/1.1/" 2 xmlns:rdf ="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 3 xmlns:cos="http://www.inria.fr/acacia/corese#"> 4 <rdf:Resource rdf:about="http://www.yesand.com/" 5 cos:graph="http://mysocialsi.te/tag#7182904"> 6 <nicetag:isAbout>improvisation</nicetag:isAbout> 7 </rdf:Resource> 8 <nicetag:ManualTagAction 9 rdf:about="http://mysocialsi.te/tag#7182904"> 10 <dc:creator>Fabien Gandon</dc:creator> 11 <dc:date>2009-10-07T19:20:30.45+01:00</dc:date> 12 </nicetag:ManualTag> 13 </rdf:RDF>

Code 1.2. Requtes SPARQL recherchant des tags crs manuellement.


1 2 3 SELECT ?t ?a ?g WHERE { GRAPH ? tag { ?t ?a ?g } ? tag rdf : type nt: ManualTagAction }

4 Exemples de tags.
Sachant que notre modle dcrit dabord et avant tout le lien entre la ressource tague et le signe, sachant galement que nous ne posons aucune contrainte tant sur la nature dudit signe que sur celle de la ressource tague, nous sommes en mesure, par consquent,

A5-96

A. Monnin et al. dexprimer les tags de multiples manires. La figure 4 prsente des exemples dannotations exprimes au moyen de notre modle. Les actions de tagging font lobjet dune dclaration sous forme de graphes nomms ainsi quexpliqu section 3.3 et sont dpeints laide dune ellipse en pointills rouges englobant les triplets quelle contient. Chaque ellipse reprsente ainsi une action de tagging et nous avons adopt un code couleur pour distinguer les diffrentes ontologies mobilises dans ce schma. Chaque action de tagging est susceptible de se voir type laide des sous-classes de nicetag:TagAction. Notre exemple provient de donnes relles disponibles sur le Web. Les actions de tagging reprsentes pourraient tre types au moyen de la proprit ManualTagAction dans la mesure o elles correspondent toutes des cas concrets observs chez des utilisateurs de flickr.com ou delicious.com.

FIG. 4 Exemples dannotations exprimes au moyen de lontologie NiceTag. Le signe employ pour taguer peut fort bien ntre quune suite de caractres telle que :-) dans lexemple de TagAction#121212, ou une forme smantique de tagging dans lexemple de TagAction#222222. Rien ninterdit non plus de modliser les tags laide des instances de la classe Tag de lontologie CommonTag, de lontologie SCOT ou de nimporte quelle ontologie existante ; en un mot, toute rdfs:Resource accessible sur le Web. Il convient de noter sagissant de CommonTag, que la signification du tag Nice (donne par la proprit ctag:means) est incluse dans le graphe nomm de laction de tagging et renvoie la reprsentation de la ville de Nice, en France, sur le site geoname.org. Bien que nous ne contraignions nullement le choix du modle pour la ressource tague, nous reconnaissons cependant le caractre essentiel du travail ralis par Presutti et Halpin

A5-97

lontologie nicetag : les tags en tant que graphes nomms

(2009) et prsentons des exemples mobilisant la classe irw:WebResource, identifis ici (irw:identifies) par lURL de la page Web de lvnement que constitue le VoCamp qui sest tenu dans la ville de Nice en 2009. La figure 4 prsente des exemples de tagging qui se passent de la classe irw:Resource. Dans les deux cas, nous avons recours aux sousproprits de hasSign. Laction de tagging #121212 expose par exemple un tag constitu du lien entre une URL et une chane de caractre reprsentant un moticne (rdf:Literal :-) ) mobilisant la proprit emotionalReaction . Le tag #222222 prsente un cas o une image localise sur le site flickr.com (modlise par la classe foaf:Image), reoit un tag #vocampnice2009 laide de la proprit hasCommunitySign. Il sagit, en loccurrence, du tag sur lequel se sont accords les participants du VoCampNice 2009 pour identifier et faire rfrence cet vnement. La flexibilit entourant le choix des signes et des ressources permet de rcuprer, en une seule requte, tous les actes de tagging exprims avec notre ontologie, quel que soit le modle sollicit ou les ressource tagues elles-mmes. A titre dexemple, il est possible, en utilisant le moteur RDF CORESE6, dcrire les requtes SPARQL prsentes dans le code 1.3. La ligne 2 tmoigne de ce que par le biais du mcanisme dinfrence de CORESE, nous sommes en mesure de rcuprer tous les types de relations de tagging exprimes laide de nicetag:hasSign ou de ses sous-proprits. La mme chose vaut pour tous les types subordonns de la classe nicetag:TagAction (ligne 7). La ligne 3 montre, avec lassertion OPTIONAL, que notre modle est capable de rcuprer des ressources utilises pour taguer, fussent-elles types ou non. Code 1.3. Requte sur des actions de tagging rparties selon plusieurs modles.
1 SELECT * WHERE { 2 GRAPH ? tagaction {?resource nicetag:hasSign ?sign } 3 OPTIONAL { 4 ?sign rdf:type ?signtype . 5 ?sign rdfs:label ?signlabel .} 6 ?resource rdf:type ?resourcetype . 7 ?tagaction rdf:type nicetag:TagAction }

Code 1.4. Requte sur des actions de tagging lies diffrents comptes dutilisateurs.
1 SELECT * WHERE { 2 GRAPH ? tagaction {?res nicetag:hasSign ?sign } 3 ?tagaction sioc:has_creator ?user . 4 <http://ns.inria.fr/fabien.gandon/foaf#me> foaf:holdsAccount ?user . 5 ?tagaction rdf:type nicetag:TagAction }

Ces exemples prsentent galement une distinction entre crateurs et containers des actions de tagging. Les utilisateurs sont modliss en tant quinstances de la class sioc:User. En ajoutant des triplets pour connecter les diffrents comptes dune personne (modlise laide de foaf:Person) avec la proprit foaf:holdsAccount, il devient loisible de rapporter tous les actes de tagging dune personne donne grce la requte prsente dans le code 1.4. Le container dune action de tagging est modlis au moyen de la classe sioc:Container qui permet de poser des requtes de type rcuprer tous les tags provenant de delicious.com et seulement ces derniers (cf. code 1.5). Code 1.5. Requtes visant rcuprer les actions de tagging de delicious.com
1 SELECT * WHERE { 2 GRAPH ?tagaction {?resource nicetag:hasSign ?sign }
6

http://www-sop.inria.fr/edelweiss/wiki/wakka.php?wiki=Corese

A5-98

A. Monnin et al.
3 4 5 ?resource rdf:type ?resourcetype . ?tagaction rdf:type nicetag:TagAction . ?tagaction sioc:has_container <http://delicious.com > }

5 Conclusion.
Lessence du tag telle que la conoit lontologie NiceTag consiste donner les moyens denregistrer la trace dactions associant une ressource avec un signe grce un triplet RDF. Dans loptique dintgrer nos spcifications les fonctions quest susceptible de remplir un tag, nous avons cr plusieurs sous-proprits qui couvrent les divers types de relations quentretiennent le tag et la ressource tague. Cet ensemble est son tour conu la manire dune instance de la classe TagAction et peut en consquence tre enrichi par toutes les proprits qui lui sont associes, au nombre desquelles figure celle qui spcifie lutilisateur qui a accompli laction de taguer, sa date ou son container. Qui plus est, il est possible de dfinir le genre auquel appartient laction de tagging (automatique, individuel, collectif) en choisissant lune des sous-classes de TagAction dfinies cet effet. Ce faisant, et en vertu du recours la dclaration de source pour la syntaxe RDF/XML, qui assigne une URI une action de tagging, nous obtenons une grande expressivit pour reprsenter les tags sous une multitude de facettes tout en vitant le fardeau de la rification. Tant les graphes nomms que la dclaration de source pour la syntaxe RDF/XML fournissent une plus-value notable au prix de modifications modestes et rtro-compatibles avec les recommandations officielles relatives au Web Smantique. Combin avec les vocabulaires consacrs au tagging, notre modle offre un cadre des plus flexibles pour raliser linteroprabilit des systmes de social tagging. Le recours lontologie NiceTag et aux langages de requte SPARQL permet dagrger et de poser des requtes sur une varit de sources et de reprsentations. Quant aux modles actuels de tagging ils proposent d'enrichir la reprsentation des actions de tagging en se focalisant sur le signe utilis pour taguer, quil sagisse dassocier un tag un concept du Web Smantique bien dfinie (avec MOAT ou CommonTag) ou de spcifier les relations morphologiques ou lexicales entre tags ( laide de SCOT). L'ontologie NiceTag permet pour sa part de prciser la nature de chaque acte de tagging en prcisant la relation entre signe et ressource tague. Ainsi, devient-il ais de lever l'ambigit des tags ds lors quun mme signe, tout en conservant la mme signification, peut tre utilis tant pour spcifier la thmatique d'une ressource (isAbout blog ) que son type (hasKind blog ). Concernant les risques de surcharge cognitive inhrents notre modle, nous constatons quil est trs difficile de naviguer aprs-coup dans un ensemble de tags dpassant une taille relativement modeste. Les approches (CommonTag, MOAT) offrant de remdier ce problme en proposant de spcifier la signification des tags (entendus ici comme de simples libells) nous semblent pour leur part impliquer un effort non ngligeable de la part des utilisateurs qui ont ou auront choisir parmi un vaste ensemble dentres possibles. L'alternative que nous proposons nous semble tous gards plus conomique. Elle consiste choisir parmi un nombre comparativement extrmement limit de relations pragmatiques, indissociables des usages concrets des tags et du point de vue des utilisateurs. La motivation accompagnant cet effort a toutes les chances d'tre plus forte, car tourne d'avantage vers l'usage personnel et circonstanci, que l'action daccrocher aux tags des significations non ambiges - ce qui relve semble relever davantage, disons-le, dune forme d'altruisme.

A5-99

lontologie nicetag : les tags en tant que graphes nomms

Rfrences
Al-Khalifa H. S. et Davis H. C. (2007), Towards better understanding of folksonomic patterns, Hypertext 2007, 163166. Carroll J. J., Bizer C., Hayes P. and P. Stickler (2005). Named graphs, provenance and trust. In WWW 05: Proceedings of the 14th international conference on World Wide Web, 613622, New York, NY, USA: ACM. Gandon F., Bottolier V., Corby O. et P. Durville (2007), RDF/XML source declaration, w3c member submission. http://www.w3.org/Submission/rdfsource/. Golder S. A. and Huberman B. A. (2006), Usage patterns of collaborative tagging systems. J. Inf. Sci., 32:2, 198208. Halpin H. and Presutti V. (2009), An ontology of resources: Solving the identity crisis. LNCS, 5554, 521534. Hayes P. J. & Halpin H. (2008), In defense of ambiguity. Int. J. Sem Web Inf. Sys., 4:2, 118. Kim H.-L., Scerri S., Breslin J., Decker S. and H.-G. Kim (2008), The state of the art in tag ontologies: A semantic model for tagging and folksonomies. Kipp M. E. (2008), @toread and cool: Subjective, affective and associative factors in tagging. Passant A. et Laublet P. (2008), Meaning of a tag: A collaborative approach to bridge the gap between tagging and linked data. In Proceedings of the WWW 2008 Workshop Linked Data on the Web (LDOW2008), Beijing, China. Sen S., Lam S. K., Rashid A. M., Cosley D., Frankowski D., Osterhouse J., Harper F. M. and J. Riedl (2006), tagging, communities, vocabulary, evolution, 181190. Wolff C., Heckner M. and S. Mhlbacher (2008). Tagging tagging. Analysing user keywords in scientic bibliography management systems. Journal of Digital Informaton, 9:27.

Summary
Current tag modelling does not fully take into account the rich and diverse nature tags, as signs, can take on. We propose an ontology of tags in which tags are modelled as named graphs. These named graphs are made of a resource linked to a sign which can be any resource reachable on the Web (an ontology concept, an image, etc.). The purpose of our model is to be able to describe tags in a very general manner, and as an immediate consequence, to describe tags as modelled by other tag models (SCOT, CommonTag, etc.).

A5-100

Un Wiktionnaire Multilingue et Multiculturel pour les Sciences Sociales et Humaines


L. Khelifa1,3, N. Lammari1, H. Fadili2, J. Akoka1
1

Laboratoire CEDRIC du Conservatoire National des Arts et Mtiers de Paris 192, rue Saint Martin, 75141, Paris cedex 3, France {lammari, akoka}@cnam.fr et lydia-nadia.khelifa@auditeur.cnam.fr
2

Fondation Maison des Sciences Humaine et Sociales de Paris 54 boulevard Raspail, 75270 Paris cedex 06, France fadili@msh-paris.fr
3

Ecole Nationale Suprieur dInformatique dAlger (ex INI) BP 68M Oued Smar, 16309, El Harrach, Alger, Algrie

Rsum. Ce papier est une contribution la construction dun Wiktionnaire pour les sciences sociales et humaines (SSH). Ce dernier est une extension du schma du Wiktionnaire existant afin quil puisse prendre en compte aussi bien laspect multiculturel des SSH mais aussi pour permettre une reprsentation de ses entres selon le standard ISO 1951. Sa construction devrait permettre aux chercheurs des deux rives de la mditerrane dchanger et de partager des connaissances dans le domaine des sciences sociales et humaines et cela quelque soit leurs lieux gographiques de travail et/ou de rsidence. La description conceptuelle de ce dictionnaire en ligne est suivie dune brve prsentation du prototype dvelopp laide de la technologie du Wiki smantique.

1 Introduction
Selon les dfinitions simplifies des dictionnaires, les sciences humaines ont pour objet d'tude tout ce qui concerne les hommes, leur histoire, leurs cultures, leurs ralisations et leurs comportements individuels et sociaux. Les sciences sociales, quant elles, ont pour objet d'tude les socits humaines. Les sciences sociales et humaines (SSH) regroupent de ce fait plusieurs champs disciplinaires htrognes tels que, par exemple, la sociologie, l'conomie, l'ethnologie, l'anthropologie, la psychologie, l'histoire, la gographie, la dmographie, les sciences politiques, l'archologie, la linguistique, les sciences administratives, les sciences de la religion. Les sciences sociales et humaines (SSH) jouent un rle primordial dans la comprhension et linterprtation du contexte conomique, culturel et social des populations. Lvolution de la recherche dans ce domaine passe invitablement par lchange et le partage des connaissances entre les chercheurs. Afin de promouvoir les changes entre les pays du Maghreb et la France dans le domaine des sciences sociales et humaines, un projet de

A5-101

Un Wiktionnaire multilingue et multiculturel pour les SSH

construction dun contenu multilingue et multiculturel a t lanc par le FMSH1 en collaboration avec des partenaires des pays du Maghreb et de la France2. Une fois ralis, ce projet permettra de dvelopper les changes entre chercheurs maghrbins et leurs partenaires franais et de mettre en commun un ensemble de savoir sur les deux cultures et les deux socits. Dans ce projet, il est question dans un premier temps de construire un dictionnaire en ligne des SSH franco-maghrbin, inexistant jusqu lheure actuelle. Ce dictionnaire doit non seulement tre conforme au standard ISO 1951 (ISO 1951, 2006) mais aussi extensible plusieurs langues. Il doit aussi reposer sur la technologie Wiki. Une des raisons motivant le choix, du FMSH, pour la technologie Wiki est la facilit et la rapidit de dfinition, structuration et description de nimporte quelles donnes, suivant nimporte quel schma, en utilisant le langage WIKIML (Wiki Markup Language) qui lui est convertible en XML (eXtented Markup Language). De plus, la gestion de lvolution dune application de type dictionnaire peut tre trs complique et difficile mettre en place. Ce problme peut tre gr plus facilement sur une plateforme de type Wiki surtout si lon souhaite changer seulement la structure de la description du contenu. La fondation Wikimedia hberge un Wiktionnaire. Ce dernier est un dictionnaire ouvert, universel, libre en dveloppement. Il permet, des personnes autorises, dditer, de publier facilement et rapidement des contenus en ligne et de les faire voluer via des processus de travail collaboratif par mutualisation de comptences. Il offre aussi une gestion complte des versions, une gestion des historiques des contenus et enfin une gestion des notifications permettant des personnes intresses par des thmes particuliers dtres alertes chaque cration, modification ou suppression de contenus en rapport avec leurs thmatiques favorites. Cependant, son schma actuel ne rpond pas tous les besoins fonctionnels du dictionnaire des SSH tel que celui de la recherche dinformation par contexte; do notre proposition dtendre le Wiktionnaire actuel. Le reste du papier est organis comme suit. La section 2 dcrit les spcificits du dictionnaire en ligne des SSH. La section 3 est ddie la conception de ce dictionnaire. Le prototype est prsent en Section 4. Enfin, la section 5 conclut ce travail et prsente nos perspectives.

2 Description du dictionnaire des SSH


Dans le but de renforcer lchange et le partage des connaissances entre les chercheurs des deux rives de la mditerrane dans le domaine des sciences sociales et humaines (SSH) et ce quelque soit leurs lieux gographiques de travail et/ou de rsidence, le projet de rdaction et de mise en ligne dun dictionnaire multilingue et multiculturel des SSH a t lanc par la FMSH2. Ce dictionnaire devrait, court terme, contenir les principaux termes SSH utiliss en France et dans les pays du Maghreb et prciser leurs usages par les deux socits et fournir leur traduction dune langue une autre. A long terme ce dictionnaire devrait englober les diffrentes langues du bassin mditerranen. La conception de ce dictionnaire doit prendre en compte les faits suivant :

1 Un des acronyme de La Fondation Maison des sciences de lhomme (FMSH), http://www.mshparis.fr/ 2 Les partenaires sont : FMSH, Cnam de Paris, INI (Institut National dInformatique) dAlger.

A5-102

L. Khelifa et al.

quune entre Ak dans une langue source peut avoir plusieurs sens et donc plusieurs traductions B1, ..Bj,Bm dans la langue cible. Cette mme entre Ak peut tre dfinie avec plusieurs lments A1, , Ai, An du schma du dictionnaire (synonyme, antonyme, tymologie, expressions figes, hyperonyme, hyponyme, etc.) qui peuvent tre leur tour des entres dans la mme langue source et par consquent, peuvent avoir plusieurs sens dans cette mme langue source et plusieurs traductions dans la langue cible (voir figure 1). Notons, cet effet que, selon le sens de la traduction, une langue source peut aussi devenir cible et quune entre dans une langue source peut ne pas avoir dquivalent dans une langue cible. la signification attribue une entre du dictionnaire SSH dpend du contexte de dfinition de cette entre. Ce dernier est dcrit par un ensemble fini et connu de paramtres contextuels qui varient dune discipline une autre. Parmi ces paramtres on peut citer les paramtres temporels et gographiques. lensemble des lments servant dcrire une entre fait partie de la norme ISO 1951 (ISO 1951, 2006).

Entre Ak dune langue source

Entre Bl dune langue cible

Entre A1

Entre B1

lments Dfinissant lentre Ak

Entre Ai

Entre Bj

lments Dfinissant lentre Bl

Entre An Lgende : Est traduit

Entre Bm

FIG. 1 - Extrait du schma du dictionnaire des SSH. Il existe, dans la littrature, plusieurs projets de construction de dictionnaires spcialiss. Parmi ces projets, on peut citer le projet PAPILLON (Mangeot, 2006), le projet DHYDRO (Descotte et al., 1999), le projet JMdict/EDICT (Bond et Breen, 2007). et enfin le projet SAIKAM (Ampornaramveth et Aizawa, 2001). PAPILLON utilise le paradigme de construction collaborative de Lunix pour ldition collaborative de dfinition. Il offre, parmi les critres de recherche possibles, la restitution dun terme partir de sa lecture contextuelle. Dans le projet DHYDRO, un espace terminologique multilingue spcialis dans le domaine de lhydrographie a t construit. JMdict/EDICT propose un outil ddition,

A5-103

Un Wiktionnaire multilingue et multiculturel pour les SSH

distance, dune base terminologique multilingue. SAIKAM est un dictionnaire en ligne ddi la cration de nouveau termes Thai partir de termes Japonais. Notons aussi que le W3C propose SKOS (Simple Knowledge Organization System) un modle de reprsentation de thsaurus, de taxonomies ou de tout autre vocabulaire contrl (SKOS, 2009). Cest un modle bas sur RDF et RDFS dont lobjectif est le lien, via le Web, de systmes dorganisation de connaissances. La ralisation du dictionnaire en ligne des SSH a t, dans le cahier des charges, conditionne par lexploitation de la technologie Wiki pour tous les avantages quelle offre dont la facilit dans la construction et la maintenance collaborative dun contenu par des non informaticiens. Cependant, aucun des projets cits ci-avant na exploit la technologie Wiki, pour llaboration de leurs dictionnaires. Ceci nous a amen explorer la possibilit dexploiter le Wiktionnaire actuel hberg par la fondation WIKIMEDIA. Ce dernier est structur en articles (Wiktionary, 2009). Chaque article sert dcrire un terme et regroupe : une section principale qui sert dcrire le terme dans la langue associe au Wiktionnaire (exemple : section de langue franaise pour un Wiktionnaire en langue franaise), zro ou plusieurs sections de langue autre que celle du Wiktionnaire, une section catgorie permettant de classer le terme dans une ou plusieurs catgories parmi celles rpertories et enfin une section de liens interwikis permettant de faire des liens vers le mme article dans les autres Wiktionnaires. Ces liens se font vers les articles ayant exactement le mme titre que larticle, et non vers ses traductions. La section principale propose : un ensemble obligatoire dlments de description de base : tymologie, une ou plusieurs sections pour le type de mot (c'est--dire ses variations orthographiques, ses abrviations, le ou les termes drivs, ses synonymes, ses antonymes, ses hyponymes, ses holonymes, ses mronymes, ses traductions, etc) et un ensemble dlments optionnels : la ou les prononciations, la ou les anagrammes, une section voir aussi qui regroupe les liens en rapport avec le terme de larticle et une section rfrence permettant de donner les rfrences utilises lors de la rdaction de larticle. Une section de langue autre que celle du Wiktionnaire est similaire la section principale sauf quelle ne possde ni de section Traduction , ni de sections Hyperonymes , Hyponymes , Holonymes et Mronymes . Le Wiktionnaire actuel ne rpond pas aux spcificits du dictionnaire des SSH. Dune part, il ne dispose pas de systme automatique de gestion des correspondances qui permettrait de grer la complexit des renvois entre la langue source et la langue cible. Il est possible, laide du Wiktionnaire actuel, de faire voluer une entre indpendamment des autres entres auquel elle est lie. En dautres termes, il est possible dajouter, dans un Wiktionnaire ddi une langue A, une traduction dun terme vers une langue B sans quil y est rpercussion de ce changement dans le Wiktionnaire ddi la langue B. De plus les liens interwikis ne peuvent stablir quentre articles de mme nom. Cela signifie quon ne pourra pas lier deux termes dont lun est la traduction de lautre si ces deux termes sont dans des Wikis diffrents. Dautre part, le schma du Wiktionnaire actuel ne permet pas une recherche, par contexte, de la signification dun terme. Cette fonctionnalit savre trs importante dans le domaine des SSH.

A5-104

L. Khelifa et al.

Une autre version du Wiktionnaire existe. Il sagit de OmegaWiki (OmegaWiki, 2009). Il est bas sur une extension du MediaWiki. OmegaWiki contrairement au Wiktionnaire actuel, runit dans un mme espace tous les Wiktionnaires des diffrentes langues. Ce qui permet de pallier linconvnient du Wiktionnaire actuel concernant la non rpercussion des changements dun Wiktionnaire dune langue sur celui dune autre langue. En plus du fait quOmegaWiki soit en lecture seulement, il conserve la structure du Wiktionnaire actuel et ne permet donc pas une recherche de termes par contexte.

3 Conception et ralisation du Wiktionnaire des SSH


Tel que mentionn dans la section prcdente, une entre du Wiktionnaire SSH peut avoir plusieurs descriptions. Chacune delles est applicable un contexte donn dcrit par un ensemble de paramtres de contexte tels que les paramtres temporel et gographique. De plus, chacune de ces descriptions doit tre conforme la norme ISO 1951. Par consquent, la conception de notre Wiktionnaire doit reposer sur des correspondances entre les lments de dpart (entres) et leurs contextes de dfinition dans la langue source et les lments darrive (entres) et leurs contextes de dfinition dans la/les langue(s) cible(s) selon un schma qui pourrait contenir les lments de la norme ISO 1951 suivants : dfinition, antonyme, synonymes, termes associs, informations orthographiques, prononciation, etc. Cette description conceptuelle du Wiktionnaire SSH pourrait tre reprsente laide dun modle de classes UML. La figure 2 prsente un extrait de ce schma conceptuel. Ce modle montre quune description dune entre (mot) dans une langue donne est construite par union des variantes de cette description. A chaque variante correspond un contexte dfini par la discipline concerne et un ensemble dlments de contexte nomms valeurs des paramtres de contexte . Chaque discipline a ses propres paramtres de contexte. Chaque entre dcrite laide dune variante de description donne peut avoir un synonyme associ cette variante.

Antonyme

Terme associ

* *

1..* * * *

1..* 1..*

Terme

1 Description
Est dans

1
pour

concerne

* 1

1..*

Variante-De-Description 1 1..*
alab le

Discipline

1..*
a

Langue

Synonyme

1..* Element-Contexte

Est v

1..*

Est valeur de

Paramtre-Contexte

1..*

Traduction

FIG. 2 - Un extrait du modle conceptuel du dictionnaire des SSH.

A5-105

Un Wiktionnaire multilingue et multiculturel pour les SSH

Lutilisation de la technologie Wiki est une contrainte technique associe llaboration de notre dictionnaire en ligne. Il existe lheure actuelle plusieurs Wikis. WikiNi, Wiclear, DokuWiki, MediaWiki et les Wikis smantiques en sont des exemples. Les Wikis smantiques tel que KawaWiki (Kawamoto et al., 2006), IkeWiki (Schaffert et al., 2006), SweetWiki (Buffa et al., 2008), Kaukolu (Kiesel, 2006) et le MediaWiki smantique (Krtzsch et al., 2006) sont des applications du web smantique aux Wikis. KawaWiki permet la cration de pages Wikis, en utilisant des modles en RDF, ainsi que linterrogation laide du langage SPARQL. IkeWiki est un outil pour une construction formalise et collaborative de contenus. Il offre des possibilits dannotation de liens et de raisonnement. SweetWiki annote smantiquement les ressources dun Wiki. Il supporte le tagging social et utilise des ontologies pour dcrire le domaine et la structure du Wiki. Il dispose aussi dun diteur WYSIWYG. Kaukolu est un Wiki smantique base sur JSPWiki. Il permet lannotation, la cration et ldition de pages Wiki. Pour favoriser la cration de nouvelles pages, il transforme les URIs en alias. Le MdiaWiki smantique est une extension du MdiaWiki. Il hrite des avantages du MdiaWiki tels que la facilit ddition de documents collaboratifs (minimum de pr-requis techniques) et lvolutivit. Il permet aussi dannoter les pages Wikis, leurs contenus et les liens entre elles et cela laide de mtadonnes comprhensibles par une machine. De plus, pour des objectifs de navigation, les MdiaWikis smantiques et les Wikis smantiques en gnral, travers lutilisation intensive des hyperliens donne la possibilit, un futur utilisateur, davoir une vue globale sur une page et de zoomer , en cas de besoin, sur une partie de son contenu. Notre tude de ltat de lart et sa confrontation avec les spcificits de notre Wiktionnaire des SSH, nous a permis de retenir, pour la ralisation de notre Wiktionnaire, la technologie du mediaWiki smantique. Les concepts associs aux MdiaWiki smantiques sont reprsents travers le mtamodle de la figure 3. Un MdiaWiki smantique, comme le montre la figure 3, est un ensemble de pages Wikis que lon peut annoter. Une page Wiki peut tre relie une autre page Wiki travers des hyperliens externes. Les hyperliens peuvent aussi tre utiliss lintrieur dune page. Les hyperliens peuvent aussi tre annots.

* Valeur Mtadonne 0..1


est annote

1..*
A

1 Mtadonne
A un nom

MdiaWiki Smantique

1..*

* Page Wiki 1

1..*

Lien e x

*
terne

*
Lien interne

Hyperlink *

FIG. 3 - Le mtamodle du MdiaWiki smantique.

A5-106

L. Khelifa et al.

Les correspondances entre les concepts du MediaWiki smantique et ceux de notre Wiktionnaire (figure 2) sont reprsentes dans la table 1. Concepts du Wiktionnaire des SSH Description Variante de description Elment de contexte Langue Discipline Paramtre de contexte Antonyme Terme associ Synonyme Traduction Concepts du MdiaWiki Smantique Page Wiki Page Wiki Valeur de la mtadonne du paramtre de contexte Mtadonne Mtadonne Mtadonne Hyperlien Hyperlien Hyperlien Hyperlien

TAB 1. Correspondance entre les concepts du Wiktionnaire des SSH et ceux du MdiaWiki smantique. Cette table montre que les diffrentes descriptions dune entre (variantes) sont transformes dans un MdiaWiki smantique en pages Wikis. Ceci sapplique aussi pour une description complte dune entre. Les concepts langue , discipline , paramtre de contexte sont considrs comme des mtadonnes du MdiaWiki smantique. Un lment du contexte du Wiktionnaire est une valeur dune mtadonne dans le MdiaWiki smantique. Tous les autres concepts (antonymes, termes associs, synonymes, traductions, etc.) sont transforms en des liens Wikis. Enfin, pour assurer lextensibilit de notre Wiktionnaire plusieurs langues (tel que lAmazigh) et aux dialectes des pays du Maghreb, nous proposons la construction dun Wiki par langue. Lexemple de la figure 4 illustre la structure de notre Wiktionnaire des SSH.

A5-107

Un Wiktionnaire multilingue et multiculturel pour les SSH

FIG. 4 -. Illustration de la structure du Wiktionnaire des SSH travers un exemple. Cette figure dcrit une page Wiki pour une variante de la description du mot Entrepreneur qui est une entre en Franais du Wiktionnaire. Cette page est annote par les valeurs de mtadonnes suivantes : - entrepreneur associ la mtadonne terme - sociologie qui correspond une valeur de la mtadonne discipline - Franais qui correspond une valeur de la mtadonne langue - Les valeurs 13ime sicle et Maghreb qui sont les valeurs respectives des paramtres temporel et gographique. Ces deux paramtres reprsentent les lments du contexte du paramtre de contexte discipline . Cette page Wiki associe une variante de description du mot entrepreneur est relie dautres variantes via le lien a pour variante. De plus cette variante contient un hyperlien est traduite en qui relie cette page sa traduction en arabe pour le mme contexte.

4 Le prototype
Aprs transformation du schma conceptuel de notre dictionnaire des SSH en un schma logique respectant la technologie du MdiaWiki smantique, nous sommes passs sa ralisation. Pour ce faire, nous avons choisi, pour la ralisation de notre Wiktionnaire des SSH, de construire un Wiki par langue et dtablir des liens entre eux. Un tel choix nous offre la possibilit de raliser, dans un premier temps un Wiktionnaire franco-arabe extensible, par la suite, dautres langues et dialectes pratiqus dans le bassin mditerranen. Lditeur de notre Wiktionnaire (figure 5) intgre, lheure actuelle, un sous ensemble des lments de la norme ISO 1951. Son extension lensemble des lments de cette norme ou uniquement celui utile au domaine des SSH, est quelque chose de possible. Lutilisateur, via cet diteur, peut annoter une page Wiki, associe une entre du Wiktionnaire, en utilisant les mtadonnes de son contexte de description. Il peut aussi complter la description dune entre en utilisant des annotations associes aux lments du

A5-108

L. Khelifa et al.

schma de la norme ISO 1951. Avant de saisir une description (dans une langue donne) dune entre, lutilisateur doit fournir le contexte de dfinition de son entre. En dautres termes, il doit fournir la discipline, la langue concerne (champ renseign automatiquement), les autres lments de contexte qui rendront valide et spcialiseront sa description. Selon le contexte fourni, le systme propose soit de modifier une ancienne version de la description (dans le cas o lentre existe dj sous le mme contexte) ou encore de la crer. Durant la cration ou la modification dune description, lutilisateur aura utiliser les tags proposs pour ajouter ventuellement de nouveaux synonymes, antonymes, etc. Le MdiaWiki smantique se chargera, par la suite, de traduire ces tags en RDF.

FIG. 5 - Interface d'dition. Notons que compte tenu de laspect multiculturel du Wiktionnaire des SSH, une entre peut ne pas avoir de correspondant dans une langue cible. Notons aussi quune description globale dune entre peut tre obtenue de faon automatique, en rassemblant, dans une seule page Wiki, les diffrentes variantes dune entre. Lutilisateur peut aussi consulter une description pour un contexte donn. Le systme, dans ce cas, lui fournira une description dans laquelle les hyperliens, vers les synonymes, les antonymes, les termes associs et sa traduction, apparaissent. Par exemple, linterface de la figure 6 est fournie un utilisateur qui souhaite obtenir la description en Franais du terme entrepreneur pour un contexte dcrit travers les valeurs fournies des mtadonnes.

A5-109

Un Wiktionnaire multilingue et multiculturel pour les SSH

FIG. 6 - Un exemple de consultation.

5 Conclusion
Nous avons dcrit dans ce papier le dictionnaire en ligne des SSH. Pour sa ralisation nous avons utilis, tel que impos dans le cahier des charges, la technologie Wiki pour une dition facile et collaborative de son contenu. Lors de son alimentation, ce Wiktionnaire contribuera au dveloppement des changes entre chercheurs du bassin mditerranen et la mise en commun dun ensemble de savoir sur les deux cultures et les deux socits. Aprs une prsentation des spcificits de notre dictionnaire, nous les avons conceptualiss sous forme dun diagramme des classes UML. La prise en compte de la contrainte technique, nous a amen opter vers une implmentation de type MdiaWiki smantique. Une premire version de ce prototype est prsente dans ce papier. La prochaine version du prototype devrait dans un premier temps prendre en charge la gestion des accs (accs libre en consultation mais rserv en gestion aux chercheurs impliqus dans son alimentation) puis la langue Amazigh avec ses symboles graphiques. Une autre perspective de ce travail de recherche et lextension du Wiktionnaire une architecture pair pair.

Reference
Ampornaramveth, V. et Aizawa A. (2001). Saikam: Collaborative japanese-thai dictionary development on the internet. The Asian Association for Lexicography (ASIALEX) Biennial Conference. Korea.

A5-110

L. Khelifa et al.

Bond, F. et J. Breen (2007). Semi-automatic refinement of the JMdict/EDICT JapaneseEnglish dictionary. 13th Annual Meeting of The Association for Natural Language Processing. Kyoto. Buffa, M., G. Crova, F. Gandon, C. Lecompte, et J. Passeron (2008). SweetWiki: A semantic wiki. Journal of Web Semantics, 6: 84-89. Descotte, S., J. L. Husson, L. Romary, M. Van Campenhoudt, et N. Viscogliosi (1999). From specialised lexicography to conceptual databases: which format for a multilingual maritime dictionary. The 2d International Conference on Maritime Terminology. Finland. ISO 1951 (2006). ISO TC 37/SC 2/N 323: Presentation/Representation of Entries In Dictionaries. Kawamoto, K, Y. Kitamura, et Y. Tijerino (2006). KawaWiki: A SemanticWiki Based on RDF Templates. Workshop of IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. United States. Kiesel, M. (2006). Kaukolu: Hub of the Semantic Corporate Intranet. Workshop From Wiki to Semantics of the 3rd European Semantic Web Conference. Montenegro. Krtzsch, M., D. Vrandecic, et M. Vlkel. Semantic MediaWiki. The 5th International Semantic Web Conference. United States: Spinger Verlag Mangeot, M., (2006). Papillon project: Retrospective and Perspectives. International Workshop Acquiring and Representing Multilingual, Specialized Lexicons: the Case of Biomedicine. LREC Conference. Italy: Pierre Zweigenbaum. OmegaWiki (2009). http://www.omegawiki.org/Meta:Main_Page. Schaffert, S. (2006). IkeWiki: A Semantic Wiki for Collaborative Knowledge Management. 15th IEEE International Workshops on Enabling Technologies: Infrastructure for Collaborative Enterprises. United Kingdom: IEEE Computer Society. SKOS (2009). http://www.w3.org/2004/02/skos/. Wiktionary (2009). #Structure. http://fr.wiktionary.org/wiki/Wiktionnaire:Structure_des_articles

Summary
This paper presents our contribution to a construction of a human and social sciences (HSS) Wiktionary. The latter is an extension of the existing Wiktionary in order to take into account the multicultural aspect of the HSS domain and to allow the representation of the one-line dictionary entries using the ISO 1951 standard. The HSS Wiktionary will allow researchers of the two banks of the Mediterranean Sea to exchange and to share their knowledge in the field of human and social sciences. After a conceptual description of the HSS Wiktionary, the paper gives an overview of the prototype that has been developed using a semantic Wiki technology.

A5-111

A5-112

Vous aimerez peut-être aussi