Vous êtes sur la page 1sur 15
 
 Mesuresdesimilarit ´ epourcomparerdes ´ episodesdansdestracesmo´ elis´ ees
Mesures de similarit´e pour comparer des´episodes dans des traces moelis´ees
Raafat Zarka
1
,
2
, Am´elie Cordier
1
,
3
, El¨od Egyed-Zsigmond
1
,
2
,Luc Lamontagne
4
, and Alain Mille
1
,
3
1
Universit´e de Lyon, CNRS
2
INSA-Lyon, LIRIS, UMR5205, F-69621, France
3
Universit´e Lyon 1, LIRIS, UMR5205, F-69622, France
4
Department of Computer Science and Software Engineering, Universit´e Laval, Qu´ebec, Canada, G1K 7P4
raafat.zarka@liris.cnrs.fr, amelie.cordier@liris.cnrs.fr,elod.egyed-zsigmond@liris.cnrs.fr, luc.lamontagne@ift.ulaval.ca,alain.mille@liris.cnrs.fr
R´esum´e
 : Cet article rend compte d’une mesure de similarie pour comparer des´episodes de traces mod´elis´ees. Une trace mod´elis´ee est un enregistrement structur´e d’observations captur´ees `a partir des interactions entre des utilisateurs et un syst`emeinformatique. Un ´episode est une sous-partie de la trace mod´elis´ee, d´ecrivant unetˆache particuli`ere ex´ecut´ee par l’utilisateur. Notre m´ethode propose une adapta- tion de l’algorithme de Smith-Waterman pour la comparaison d’´episodes. Cet algo-rithme est `a la fois pr´ecis quant aux s´equences temporelles qu’il identifie, et tol´erant au bruit g´en´eralement pr´esent dans les traces que nous traitons. Nos ´evaluationsmontrent que notre approche offre des r´esultats tout `a fait satisfaisants `a la fois en qualit´e et en temps de r´eponse. Nous illustrons son utilisation dans le cadre d’uneapplication de recommandation de s´equences de vid´eo.
Mots-cl´es
 : mesures de similarit´e, traces mod´elis´ees, recommandations, distance d’´edition, interaction homme-machine.
1 Introduction
Depuis quelques ann´ees, nous observons un int´erˆet croissant de la com- munaut´e pour l’analyse de l’activit´e des utilisateurs sur le Web. Une desraisons est qu’en observant l’activit´e des utilisateurs, il est possible d’enapprendre beaucoup sur leurs comportements et leurs pr´ef ´erences. Ces
 
 RJCIA 2013
connaissances apprises permettent ensuite d’am´eliorer la qualit´e des ser-vices qui leurs sont propos´es.Nous nous int´eressons `a cette question dans le cadre d’une collaborationavec la soci´et´e Villeurbannaise Webcastor
1
. Plus particuli`erement, noustravaillonssurl’applicationWanaclip
2
.CetteapplicationWebpermet `adesutilisateurs de composer des clips vid´eo en compilant des ´el´ements audio-visuels provenant de plusieurs sources. Wanaclip dispose d’un syst`eme derecommandations int´egr´e qui guide les utilisateurs `a la fois dans le proces- sus de s´election des vid´eos, et dans l’enchaˆınement des actions `a effectuer pour fabriquer des clips de qualit´e. Le moteur de recommandations est ali-ment´e par des traces d’interactions collect´ees lors des usages pr´ec´edents de l’application.Une trace d’interaction est un enregistrement des actions effectu´ees parl’utilisateur d’un syst`eme. Nous soutenons que ces traces permettent decapturer des inscriptions des exp´eriences des utilisateurs. Les
 M
-Traces(pour
 Modeled Traces
) diff `erent des logs car elles disposent d’un mod`elequi d´ecrit les ´el´ements qu’elles contiennent. Ces ´el´ements sont appel´es
 ob-sels
 (pour
 observed elements
). Une
 M
-Trace contient donc `a la fois desobsels temporellement situ´es et le mod`ele de trace qui caract´erise ces ob-sels et leurs relations. Chaque obsel poss`ede au moins un type et deux mar-queurs temporels (d´ebut et fin). Les obsels ont un nombre variable d’attri-buts, et poss`edent des relations avec les autres obsels. Chaque type d’obselefinit les types et les valeurs possibles pour les attributs. Une descriptionetaill´ee du domaine des
M
-Traces est disponible dans Settouti (2011). Un
 ´episode
 est une portion d’une trace mod´elis´ee dont la structurepeut ˆetre complexe. Calculer la similarit´e entre deux ´episodes est donc un probl`eme diff ´erent du probl`eme de calcul de similarit´e traditionnelle- ment rencontr´e en R`aPC, car les mesures de similarit´e traditionnelles s’ap- pliquent mal.Dans cet article, nous nous int´eressons au probl`eme du calcul de simi-larit´e entre deux ´episodes contenus dans des traces mod´elis´ees. Pour cela,nous d´efinissons une nouvelle mesure de similarit´e qui s’appuie sur deuxcomposants principaux : une mesure de similarit´e utilis´ee pour comparerles obsels ayant une structure potentiellement complexe; et un algorithmepour combiner les mesures de similarit´e entre obsels afin de comparer les´episodes. L’algorithme que nous proposons est une adaptation de l’algo-rithme pr´esent´e dans Smith & Waterman (1981). Nous avons impl´ement´e
1. www.webcastor.fr2. www.wanaclip.eu
 
 Mesuresdesimilarit ´ epourcomparerdes ´ episodesdansdestracesmo´ elis´ ees
notre proposition sous forme d’un service Web dans
 T  
Store, un syst`emede gestion de bases de traces qui permet de stocker, traiter et exploiter lestraces mod´elis´ees (Zarka
 (2013)). Nous avons appliqu´e notre pro-position dans le cadre de Wanaclip afin de fournir des recommandationscontextuelles aux utilisateurs.Cepapierestorganis´edelafac¸onsuivante.Lasection2pr´esentedestra-vaux relatifs `a la probl´ematique des mesures de similarit´e dans les donn´eesequentielles. Notre proposition de mesure de similarit´e entre obsels estpr´esent´ee dans la section 3. Dans la section 4, nous d´ecrivons l’algorithme de calcul de similarit´e entre ´episodes dans des
 M
-Traces. Dans la sec-tion 5, nous pr´esentons les exp´erimentations pour ´evaluer les performances de l’approche. La section 6 conclut l’article.
2 Mesures de similarit´es pour les donn´ees s´equentielles
Il existe diff ´erentes approches de comparaison de chaˆınes de caract`eresqui peuvent ˆetre utilis´ees pour d´efinir des mesures de similarit´e dans lesdonn´ees s´equentielles.Une comparaison d´etaill´ee de trois des plus importantes classes de me-sures de similarit´e (
i.e. distance d’´ edition
,
 sac de mots
 et
 String kernels
) estpropos´ee dans Rieck  (2011). Dans cette section, nous pr´esentons certaines de ces mesures et leur usage dans diff´erents domaines.
2.1 D´efinir des mesures de similarit´e
Une des premi`eres approches est la notion de distance d’´edition entredes chaˆınes de caract`eres propos´ee par Hamming (1950) et Levenshtein (1966). Ces mesures proviennent du domaine des t´el´ecommunications et´etaient principalement utilis´ees pour la d´etection des donn´ees ´erronn´ees dans les transmissions. Elles permettent de calculer la distance d’´editionminimum entre deux chaines en utilisant le nombre d’op´erations d’´editionsn´ecessaires pour passer d’une chaine `a l’autre (insertion, suppression, sub- stitution). La m´ethode d´ecrite dans Needleman & Wunsch (1970) effectue un alignement global de s´equences. L’algorithme d´ecrit dans Smith & Wa- terman (1981) effectue un alignement local, ce qui est plus pertinent pour comparerdess´equencesplutˆotdissimilaires,quicontiennentprobablementdes r´egions de similarit´e importantes.Uneautreapprochedecomparaisonreposesurl’utilisationd’espacesdevecteurs (sac de mots). Cette approche provient des travaux en recherched’information et impl´emente une solution de comparaison de chaˆınes de

Satisfaites votre curiosité

Tout ce que vous voulez lire.
À tout moment. Partout. Sur n'importe quel appareil.
Aucun engagement. Annulez à tout moment.
576648e32a3d8b82ca71961b7a986505