Vous êtes sur la page 1sur 32

Efficient top-k querying over social-tagging networks

Cleyton Caetano de Souza FPCC 3

Referncia
Schenkel, R., Crecelius, T., Kacimi, M., Michel, S., Neumann, T., Parreira, J. X., et al. (2008). Efficient top-k querying over social-tagging networks. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR 08, 523.

Roteiro
Contextualizao Identificao do Problema Formalizao do Problema Soluo do Modelo
Parte 1 Parte 2

Validao do Modelo Empacotamento do Modelo Manuteno do Modelo

Contextualizao
Redes Sociais x Ferramentas de Busca Personalizao dos Resultados Contexto Social
Grande Quantidade de Dados

Identificao do Problema
Business Problem
Os algoritmos utilizados atualmente pelos ferramentas de busca no esto aptos a executar milhes de consultas diariamente utilizando a informao presente nas redes sociais

Technical Problem
Como combinar a informao presente nas redes sociais aos algoritmos de busca de forma computacionalmente eficiente

Social Tagging Networks


Rede Social onde usurios marcam com tags (rtulo, termo, palavra, marcao, label) as postagens uns dos outros e as suas prprias

Formalizao do Problema
Varivel (, 1 ) ( ) , , Tipo Independente Independente Independente Independente Dependente Dependente Dependente Dependente Independente Significado Uma query postada por e formada pelos rtulos 1 Conjunto de usurios Conjunto de documentos Conjunto de rtulos (tags) Funo que quantifica a importncia da recomendao de um usurio para um usurio Funo que calcula a similaridade entre os usurios e com base nos rtulos comuns utilizados por eles Mxima semelhana encontrada nas ligaes indiretas entre dois usurios que no esto diretamente ligados Nmero de vezes que o utilizou o rtulo no documento , tipicamente assume o valor 1 ou 0 uma constante pr-definida que implica a influncia do fator social na recomendao, se for 0 apenas a informao social utilizada se for 1 no utilizada informao social Corresponde a uma frequncia global ponderada do termo (nmero de vezes que o rtulo foi utilizado no documento ) A pontuao final de um documento para cada termo

(, )

Dependente

, 1

Dependente

Formalizao do Problema
Dada uma consulta (, 1 ) postada por um usurio qualquer e com . Encontrar de forma computacionalmente eficiente os melhores documentos de acordo com a funo score . Find: documentos To: max , 1 =1 Over: , , , Subject to: max

Soluo do Modelo (1/2)


Tradicionalmente
, = , ()

O Social Scoring Model estende as tcnicas tradicionais de RI adicionando os seguintes elementos


Friendship Similarity Social Frequency Tag Expansion

Friendship Similarity ( )
O interesse que u tem em receber recomendaes de u ( ) = 1 uma probabilidade Por definio = 0 calculado com base em dois contextos
Social Global

Similarity
,

2 ) ( = |()| + |( )|

Onde tagset(u) corresponde ao conjunto de tags utilizado pelo usurio u

Social Similarity
1

= = 0 =
=

, +1

Onde path corresponde a uma ligao indireta entre dois usurios

Friendship Similarity

= + 1 ( ) ||

Onde a razo em destaque corresponde a uma probabilidade uniforme

Social Frequency ( , )
(, ) uma funo binria que retorna 1 caso o usurio tenha marcado com o rotulo e 0 caso contrrio. Define-se social frequency, denotada por , , como a importncia da recomendao de um documento que foi (ou no) marcado com o rtulo por um usurio . O valor de , calculado pela frmula: , =

(, )

Social Frequency
= , =

1 + 1 ( ) || (, )

, =

, + 1 , ] , = (, )

||

1 ( ) (, ))

Tag Expansion
No modelo (, ) determinado pela probabilidade de coocorrncia de dois rtulos no mesmo documento:

( ) ( ) , = = = () ()

Onde ( ) o nmero de documentos onde ambos os rtulos ocorrem. A expanso adiciona consulta apenas os rtulos que tem maior probabilidade de aparecerem juntos.

Social Score
Para calcular a pontuao (, ) de um documento que recebeu um rtulo em relao ao usurio que est realizando a consulta foi usado BM25: 1 + 1 (, ) , = () 1 + (, ) Onde 1 o coeficiente de sintonia e () a freqncia inversa do rtulo nos documentos e calculado nesse contexto como: = + 0.5 + 0.5

Com () representando o nmero de documentos onde o rtulo aparece.

BM25
Na recuperao da informao, Okapi BM25 uma funo de classificao usada por ferramentas de busca para classificar documentos de acordo com sua relevncia para uma consulta. baseado na estrutura de recuperao probabilstico desenvolvido entre as dcadas de 70 e 80. 1 + 1 , , = () 1 1 + + (, ) log + 0.5 = + 0.5 Onde corresponde ao tamanho mdio dos documentos, e 1 e so parmetros da funo.

Social Score
Dessa forma, a importncia de um documento para uma consulta a soma da importncia do documento para cada termo que compe a consulta e dada por:

, 1 =
1

(, )

Soluo do Modelo (2/2)


Embora o modelo seja parte essencial do trabalho, como a restrio do trabalho est relacionada ao custo computacional do algoritmo considerou-se tambm como soluo o algoritmo em si

Context Merge

O que o faz to bom?


Como o Social Score depende de quem est consultando totalmente invivel (e impossvel) pr-computar todos os dados necessrios, entretanto o Context Merge utiliza quatro diferentes tipos de listas de ndices processadas previamente e que so acessadas de forma seqencial. 1. () contem a lista de documentos que foram rotulados ao menos uma vez com e o valor de (, ) para cada documento 2. (, ) contem a lista de documentos que foram rotulados com pelo usurio

3. representa lista de usurios diretamente conectados


com e suas respectivas similaridades , ordenados de forma decrescente

4. () contem para um rotulo todos os rtulos similares


com seus respectivos (, ), ordenados de forma decrescente de acordo com , ( )

O que o faz to bom?


Basicamente, o que torna o algoritmo to eficiente so 3 fatores principais:
As quatro listas pr-processadas O fato de acessar os elementos da listas de forma seqencial O fato do algoritmo ser executado apenas enquanto os primeiros documentos podem ser alterados

Validao do Modelo
Validao do Modelo Conceitual
Comparao com outros Modelos Validade Aparente

Avaliao Disjuntiva dos Resultados

Validao do Modelo
Para realizar a validao do Context Merge foram utilizados dados de trs redes sociais diferentes: del.icio.us, Flicker e LibraryThing
Relevncia
user-specific ground truth user study

Eficincia Computacional
cost measure # clocks

Validao do Modelo
Precision@10 variando o alfa user specific ground truth

Validao do Modelo
NDCG-variando o alfa - user study

Validao do Modelo
Comparao com standard join-then-sort
Esse algoritmo l todas as listas relacionadas com a consulta do usurio, usa uma tabela hash em memria para sumarizar as entradas do mesmo documento e, finalmente, ordena, ainda em memria, os melhores k resultados

Validao do Modelo
Cost Measure

Validao do Modelo
# clocks

Empacotamento do Modelo

Manuteno do Modelo