Académique Documents
Professionnel Documents
Culture Documents
Dissertao de Mestrado
www.cin.ufpe.br/~posgraduacao
RECIFE
2014
RECIFE
2014
Dissertao de mestrado apresentada por Ricardo Batista Rodrigues ao programa de PsGraduao em Cincia da Computao do Centro de Informtica da Universidade Federal
de Pernambuco, sob o ttulo RecCloud: Um Modelo de Recomendao de Arquivos Para
Sistemas de Armazenamento em Nuvem, orientada pelo Prof. Vinicius Cardoso Garcia e
aprovada pela banca examinadora formada pelos professores:
Agradecimentos
Agradeo. . .
Em primeiro lugar a Deus por sua graa e pelas bnos derramadas constantemente
sobre mim de maneira maravilhosa;
A minha famlia, meus pais e meus irmos, pelo amor e por fornecer o suporte
emocional imprescindvel em todos os momentos de minha vida;
Aos professores Vinicius Garcia e Frederico Duro pela pacincia e dedicao na
orientao deste trabalho;
A todos os meus amigos e colegas que contriburam direto e indiretamente para a
realizao deste sonho;
A Fundao de Amparo Cincia e Tecnologia de Pernambuco (FACEPE) por
apoiar, financia e conceder bolsa para o desenvolver desta pesquisa, sob o processo
IBPG-0483-1.03/11.
Muito Obrigado!
Resumo
O desenvolvimento tecnolgico vivenciado nos ltimos anos proporcionou o crescimento
do universo digital de forma exponencial, e parte desse universo digital encontra-se armazenado
em sistemas de armazenamento em nuvem. A cada dia surgem mais destes sistemas, que
oferecem o armazenamento de dados de forma distribuda com alta taxa de disponibilidade,
o que tem impucionado cada vez mais usurios a migrarem seus dados para a nuvem. No
entanto, a grande quantidade de arquivos armazenada nestes sistemas dificulta a filtragem de
contedo relevante, demandando tempo e trabalho por parte do usurio na busca por arquivos
com contedo similar as suas preferncias. Diante deste cenrio, esta pesquisa prope um
modelo de recomendao para sistemas de armazenamento em nuvem, que tem como objetivo
utilizar caractersticas da nuvem associadas tcnica de recomendao baseada em contedo
para filtrar e recomendar arquivos com o contedo similar as preferncias dos usurios, alm
disso, recomendar arquivos que proporcione a melhor utilizao dos recursos do ambiente em
nuvem.
Palavras-chave: Sistema de recomendao, modelo de recomendao, computao em nuvem,
sistema de armazenamento em nuvem.
Abstract
The technological development in recent years has experienced the exponentially growth
of the digital universe, and part of this digital universe lies stored in cloud storage systems. With
each day, more of these systems come out, offering data storage in a distributed manner with
the proposal to provide high availability rate, what has driven more and more users who have
migrated your data to the cloud. However, the large amount of files stored in these systems
makes it difficult to filter relevant content, requiring time and labor by the user in searching
for files with similar content to your preferences. Face of this scenario, this study proposes a
model for recommendation of files in cloud storage systems, which aims to use cloud features
associated with the technique of content-based recommendation for filtering and recommending
files with similar content preferences of users, furthermore, recommend files that provide the
best use of the cloud environment resources.
Keywords: Recommendation system, recommendation model, cloud computing, cloud storage.
Lista de Figuras
Expectativa de crescimento da quantidade de dados digitais gerados GANTZ;
REINSEL (2011). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.1
30
2.2
34
2.3
35
36
36
37
3.1
55
3.2
55
3.3
57
3.4
57
3.5
59
3.6
60
3.7
61
3.8
62
4.1
Grfico comparando a taxa de preciso variando a quantidade de artigos recomendados para cada ranque de recomendao gerado. . . . . . . . . . . . . . .
68
68
Grfico comparando a taxa de recall variando a quantidade de artigos recomendados para cada ranque de recomendao gerado. . . . . . . . . . . . . . . . .
69
69
70
70
71
1.1
2.4
2.5
2.6
4.2
4.3
4.4
4.5
4.6
4.7
4.8
71
72
72
Lista de Tabelas
3.1
3.2
3.3
51
54
54
4.1
67
Lista de Acrnimos
CB
Content-based . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
CF
Filtragem Colaborativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
DTV
Televiso Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
IAAS
Infrastructure-as-a-Service . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
JDK
SAAS
Software-as-a-Service . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
SR
Sistemas de Recomendao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
SRN
Sumrio
1
Introduo
23
1.1
Contextualizao e Motivao . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1.2
Definio do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
1.3
Soluo Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
1.4
27
29
2.1
Computao em Nuvem . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.1.1
32
Sistemas de Recomendao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.2.1
35
37
2.3.1
38
2.3.2
39
Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.4.1
40
2.4.2
41
2.4.3
44
Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2
2.3
2.4
2.5
3
RecCloud
47
3.1
Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.2
O Modelo de Recomendao . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.2.1
51
3.2.2
Clculo de Recomendao . . . . . . . . . . . . . . . . . . . . . . . .
53
3.2.3
53
3.2.4
O Processo de Recomendao . . . . . . . . . . . . . . . . . . . . . .
55
Detalhes da Implementao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.3.1
Ustore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.3.2
Arquitetura do Ustore . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.3.3
58
3.3.4
60
Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
3.3
3.4
22
4
Avaliao
4.1 Testes . . . . . . . . . . . . . .
4.2 Coleo de Dados . . . . . . . .
4.3 Julgamento de Relevncias . . .
4.4 Ambiente de Teste . . . . . . .
4.5 Mtricas de Avaliao . . . . . .
4.6 Cenrios de Avaliao . . . . .
4.7 Resultados . . . . . . . . . . . .
4.7.1 Resultados do Cenrio I
4.7.2 Resultados do Cenrio II
4.8 Discusso dos Resultados . . . .
4.9 Possveis Ameaas Validade .
4.10 Consideraes Finais . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
64
64
65
66
67
67
70
73
74
74
77
77
78
Referncias
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
23
1
Introduo
Neste captulo, apresentada a contextualizao sobre a tmatica abordada nesta pesquisa,
alm de descrever os objetivos e as motivaes que conduziram esse trabalho.
1.1
Contextualizao e Motivao
Vivemos em uma era de efervescncia informacional, a cada dia se produz mais informao e, geralmente, estas informaes so armazenadas em meios digitais. O tamanho do universo
digital cresce de forma exponencial. Segundo relatrio publicado pela EMC Corporation 1
GANTZ; REINSEL (2011), em 2005, o volume de dados chegou a 130 exabytes2 ; em 2010,
superou 1 zettabyte e a previso que em 2015 chegue a quase 8 zettabytes 3 MACHADO (2013),
conforme mostrado na Figura 1.1.
Este universo digital citado em Gantz e Reinsel GANTZ; REINSEL (2011) expande
1 http://www.emc.com
24
CAPTULO 1. INTRODUO
e torna cada vez mais complexa a tarefa de filtragem de contedo relevante que atenda s
preferncias do usurio.
De acordo com Lopes a escassez de informao disponvel deu lugar a uma imensa
massa de dados ao alcance de todos LOPES (2012). Entretanto, esta inverso tambm acabou
gerando um problema: onde e como armazenar essa massa de dados digitais? Uma opo que
atende a est demanda a computao em nuvem.
Com o desenvolvimento tecnolgico surgiram diversas tecnologias como, a computao
em nuvem que, dentre as suas inovaes, trouxe os sistemas de armazenamento. Com o crescimento da utilizao dos sistemas de armazenamento em nuvem, a massa de dados disponvel
na base destes sistemas aumenta a cada dia. Este cenrio implica na ocultao de informaes
relevantes aos usurios, que deixam de descobrir novos contedos e gasto uma maior quantidade
de tempo na filtragem de contedo, por no disporem de meios eficientes que os auxiliem na
filtragem de contedo.
Outro problema gerado com a exploso de dados armazenados em nuvem, como encontrar e extrair informao relevante em tempo hbil no meio desta quantidade de informaes?
Dentre as tcnicas utilizadas na filtragem de contedo podemos citar os sistemas de busca que,
permitem ao usurio realizar buscas por informaes similares as suas preferncias SAMPAIO
(2006). Nesta pesquisa proposto como resposta para este questionamento o uso dos sistemas
de recomendao.
Quando preciso filtrar um grande conjunto de dados, podemos utilizar tcnicas de
recomendao para facilitar o processo de filtragem de informaes relevantes e similares com
as preferncias do usurio. Para isto, necessrio informaes sobre o indivduo alvo da
recomendao ou sobre o ambiente que influenciar na gerao da recomendao. A partir da,
um sistema de recomendao poder localizar os arquivos que apresentem maior similaridade
com as preferncias ou caractersticas do usurio, ou do seu ambiente.
No desenvolvimento de Sistemas de Recomendao (SR) existem variadas tcnicas, mas
duas delas possuem destaque na literatura: sistemas de recomendao Content-based (CB) e
sistemas de recomendao por Filtragem Colaborativa (CF) SU; KHOSHGOFTAAR (2009).
Sistemas de recomendao pela tcnica CB apiam-se no princpio de que os usurios
tendem a interessar-se por itens similares aos que demonstraram interesse no passado, como,
por exemplo, visualizao de um item em uma loja virtual. A preocupao deste tipo de sistema
definir a similaridade entre o contedo dos itens e uma das suas dificuldade conseguir
representar estes contedos.
Os sistemas de recomendao por CF foram desenvolvidos para superar as dificuldades
da abordagem baseada em contedo, uma das principais diferenas entre as tcnicas justamente
por no exigir a compreenso dos contedos dos itens, baseando apenas nas caractersticas do
usurio, normalmente disponibilizadas por ele mesmo ao sistema. A natureza desta tcnica
est na troca de experincia entre os usurios, baseando-se na teoria de que usurios com
caractersticas semelhantes demostram intresses pelos mesmos itens. O objetivo desta tcnica
25
definir a proximidade entre os usurios a partir de suas interaes com o sistema, como, por
exemplo, avaliao de itens.
Um dos principais problemas da tcnica por filtragem colaborativa a de existir poucos
usurios, informaes ou participao no sistema, este problema tambm conhecido como
esparsidade dos dados HERLOCKER (2000). Este problema foi um dos motivos que levaram
est pesquisa a no utilizar a tcnica de recomendao baseada em filtragem colaborativa, e sim
optar pela tcnica baseada em contedo para compor o modelo proposto. A esparsidade de dados
pode ser considerada frequente em sistemas de armazenamento em nuvem, observando que, no
momento em que um novo usurio entra no sistema, este pode disponibilizar poucas ou nenhuma
informao a seu respeito ou que represente suas preferncias e interesses. Isso torna complexa
a atividade de recomendar contedo que atenda s expectativas do usurio, sem informaes que
possibilitem o processo.
Tomando este cenrio como base, esta pesquisa prope um modelo para recomendao
de arquivos baseado em caractersticas da nuvem e em contedo. O modelo foi desenvolvido de
forma que seja possvel ser utilizado em diferentes sistemas de armazenamento em nuvem.
1.2
Definio do Problema
26
CAPTULO 1. INTRODUO
1.3
Soluo Proposta
O estudo apresentado neste trabalho investiga qual a melhor forma de utilizar caractersticas de sistemas de armazenamento em nuvem na gerao de recomendao de arquivos
nestes sistemas. Assim assume-se que ao associar as caractersticas do ambiente tcnica de
recomendao baseada em contedo, podem ser geradas recomendaes de arquivos por meio
de um modelo que atenda as preferncias do usurio e proporcione uma melhor utilizao dos
recursos disponveis pelos sistemas de armazenamento em nuvem.
Definida a proposta que solucione os problemas de pesquisa, apresentados ao longo
desse trabalho, investigada a aplicabilidade da proposta em um sistema de armazenamento em
nuvem Ustore7 . Desta forma, pode-se definir que o objetivo geral deste trabalho propor e
avaliar um modelo de recomendao de arquivos para sistemas de armazenamento em nuvem
que utilize caractersticas da nuvem no processo de recomendao.
Ao final deste trabalho, espera-se propor um modelo de recomendao de arquivos
para sistemas de armazenamento em nuvem. Esse modelo permitir recomendar contedo que
atenda as preferncias do usurio e que proporcionem amenizao do tempo gasto na filtragem
por contedo relevante e no tempo gasto no download desses arquivos, alm de recomendar
arquivos que apresentem as melhores taxas de disponibilidade. Para alcanar o objetivo principal
apresentado nesta seo, os seguintes passos foram definidos:
7 http://usto.re/
27
1.4
Neste captulo foi apresentada uma breve introduo sobre esta pesquisa, foram mostrados problemas que justificam e motivam a execuo de tal pesquisa, bem como apresentado os
objetivos da mesma. O resto deste trabalho est dividido nos seguintes captulos:
Captulo 2 apresenta a Fundamentao Terica acerca da pesquisa, recursos que contriburam para este trabalho e os trabalhos relacionados.
Captulo 3 apresenta o modelo RecCloud como desenvolvimento desta pesquisa e os
detalhes da implementao.
Captulo 4 apresenta a avaliao do modelo proposto e os resultados obtidos.
Captulo 5 apresenta a concluso da pesquisa apontando possveis trabalhos futuros.
8 http://usto.re/
29
2
Fundamentao terica e Trabalhos Relacionados
Neste captulo sero apresentados os conceitos de computao em nuvem, sistemas de
armazenamento em nuvem, sistemas de recomendao e suas principais tcnicas, conceitos-chave
desta dissertao, bem como alguns trabalhos relacionados ao tema desta pesquisa.
2.1
Computao em Nuvem
1 http://aws.amazon.com/
2 http://aws.amazon.com/ec2/
30
31
De acordo com Mell e Grance (2009) MELL; GRANCE (2009), computao em nuvem
possui algumas caractersticas que se destacam, so elas:
Servio sob demanda: o provimento automatizado de funcionalidades computacionais, no necessitando de interveno humana com o provedor do servio;
Amplo acesso a servios: permite a disponibilizao de recursos atravs da rede,
habilitando o acesso a clientes de diferentes e diversos dispositivos que podem ser
computadores, smartphones, dentre outros;
Multitenncia: permite o provimento de servios a mltiplos usurios, e tais servios
podem ser alocados dinamicamente de acordo com a demanda;
Elasticidade: correspondente escalabilidade. Oferece ao usurio a sensao de ter
os recursos disponveis de forma ilimitada e a qualquer instante;
Tarifao: segue o conceito pay-as-you-go, ou seja, o usurio paga somente pelo
que for usado.
32
2.1.1
33
diversos formatos e tamanhos (.pdf, .doc, HTML, XML, RTF, arquivos compactados, imagens,
arquivos de udio e diversos outros formatos de arquivos), alguns desses servios limitam o
tamanho mximo de um nico arquivo que pode ser armazenado, normalmente esta limitao
acontece em sistemas pblicos. Os sistemas de armazenamento em nuvem, em sua maioria
baseiam-se nos princpios de pay-as-you-go, ou seja, o usurio paga pelo espao que utilizar no
sistema.
As vantagens e atrativos apresentados por este tipo de sistemas atraem cada vez mais
usurios, o que acaba contribuindo para o crescimento da massa de dados na nuvem. O que torna
a atividade de filtragem de contedo considerado relevante, complexa e trabalhosa, fazendo com
que usurios demandem mais tempo na busca por contedo de seu interesse. Observando este
cenrio possvel afirmar que a utilizao de mecanismos de recomendao em sistemas de
armazenamento em nuvem torna-se imprescindvel, devido ao crescimento constante no volume
de dados nesses sistemas.
O sistema de armazenamento em nuvem Ustore utilizado como ambiente de avaliao da
proposta desta pesquisa pode ser classificado como PaaS (Plataforma como um servio). Por
ser um software que oferece ao usurio um servio para armazenamento e backup de dados em
nuvem privada ou pblica de forma mais barata por meio da utilizao de recursos ociosos j
existentes nas estaes de trabalho ou servidores SILVA A. MACHADO (2013).
2.2
Sistemas de Recomendao
(SR) so softwares e tcnicas que fornecem sugestes de itens que podem ser teis ao
usurio. As sugestes apresentadas tm como objetivo apoiar os seus utilizadores em vrios
processos de tomada de deciso, tais como que produto comprar, qual msica ouvir, ou que
notcia ler. Sistemas de recomendao provaram ser, meios valiosos para os usurios on-line
para lidar com a sobrecarga de informao e tornaram-se uma das ferramentas mais poderosas
e populares do comrcio eletrnico. Correspondentemente, vrias tcnicas para a gerao de
recomendao foram propostas durante a ltima dcada RICCI et al. (2011).
Os mecanismos de recomendao tentam automatizar a filtragem de dados buscados por
um item a partir dos dados desse mesmo usurio ou de outros similares que o sistema j tenha
incorporado. Esses dados costumam ser: visitas a determinadas pginas, dados geogrficos, sexo,
preferncias, entre outros. Devido a essa propriedade, mecanismos de recomendao tm sido
muito utilizados por empresas para tentar conhecer as preferncias de seus consumidores, assim
podendo encontrar sempre a melhor sugesto para um determinado cliente ADOMAVICIUS;
TUZHILIN (2005) CHAKOO; GUPTA; HIREMATH (2008).
Um sistema de recomendao normalmente se concentra em um tipo especfico de item
e usurio, por exemplo artigos acadmicos para professores e, consequentemente, a sua tcnica
de recomendao usada para fazer as recomendaes, so todas personalizadas para fornecer
informaes teis e eficazes para um tipo especfico de item e usurio RICCI et al. (2011).
34
Uma recomendao pode se basear nas preferncias de quem a faz e pode ser dirigida a
um indivduo especfico, ou para um pblico maior. Para a pessoa que recebe a recomendao,
ela funciona como um filtro ou uma viso particular de um universo de possibilidades geralmente
inacessvel. Ela pode levar em considerao tambm a preferncia de quem est procura de
sugestes e no apenas de quem a faz. possvel at mesmo fazer recomendao baseada nas
opinies de outras pessoas. Algum que no admirador do gnero Rock pode recomendar discos
baseado no que seus amigos que apreciem tal estilo costumam ouvir. Ainda, a recomendao
pode incluir explicaes sobre como ela foi gerada para permitir que o seu recebedor a avalie
SAMPAIO (2006) .
A Figura 2.2 ilustra o modelo geral para o processo de recomendao apresentado por
Terveen et al. TERVEEN; HILL (2001). Esta Figura ser til para entendermos o funcionamento
e a utilizao dos sistemas de recomendao.
35
2.2.1
Figura 2.3: Opinies dos usurios do site Netshoes sobre um item da loja NETSHOES.
DISPONVEL EM: <HTTP://WWW.NETSHOES.COM.BR/> (2013)
Mostrar os itens mais comumente acessados da base: Essa uma das tarefas
mais comumente presentes em sistemas de recomendao. comum em sites de
comrcio eletrnico haver uma lista de itens mais vendidos ou mais populares. Essa
caracterstica apoia-se no fato de que as pessoas frequentemente procuram saber a
opinio da maioria no momento de tomar uma deciso SAMPAIO (2006). Na Figura
2.4 apresentamos um exemplo de livros mais vendidos no site Submarino;
36
Figura 2.4: Lista dos livros mais vendidos do site Submarino SUBMARINO.
DISPONVEL EM: <HTTP://WWW.SUBMARINO.COM.BR/> (2013)
Mostrar uma lista de itens relevantes para um usurio com base no contexto
visualizado por ele em dado momento: Atualmente vrios sites de comrcio eletrnico como por exemplo, Mercado Livre10 , Amazon11 e Netshoes12 , so capazes de
identificar os itens nos quais o usurio demonstra interesse ao longo de uma sesso
de uso do sistema e, com base nisto, selecionar outros itens que podem ser relevantes
para ele. Geralmente, os itens que o sistema assume como sendo do interesse do
usurio so os que os usurios procuram, visualizam ou compram SAMPAIO (2006).
A Figura 2.5 mostra um exemplo em que um sistema fornece recomendaes de
outros discos, DVDs e livros que podem interessar a um usurio que est procurando
por um determinado lbum;
10 http://www.mercadolivre.com.br/
Acesso em 21/01/2014
Acesso em 21/01/2014
12 http://www.netshoes.com.br/Acesso em 21/01/2014
11 http://www.amazon.com.br/
37
Figura 2.5: Exemplo de uso da Amazon.com em que o sistema sugere outros produtos
relevantes para o usurio interessado no disco Kind Of Blue SAMPAIO (2006)
Figura 2.6: Recomendao gerada pelo sistema do IMDB a partir do filme As Good As It
Gets SAMPAIO (2006)
2.3
O desenvolvimento de sistemas de recomendao um esforo multidisciplinar, que envolve especialistas de diversas reas, como a inteligncia artificial, interao Humano-Computador,
minerao de dados, estatstica, sistemas de apoio deciso e marketing RICCI et al. (2011).
38
2.3.1
Filtro Colaborativo Baseado em Modelo: O objetivo desta tcnica de fazer predies de agrupamento de usurios, criando modelos, para realizar as recomendaes.
Para criar os agrupamentos, utilizam-se tcnicas como redes neurais;
Filtro Colaborativo Baseado em Memria: A tcnica Baseada em Memria um
mecanismo que gera recomendaes a partir de avaliaes anteriores dadas pelos
usurios e outros dados do sistema. Para isso, utiliza-se algoritmos de correlao
como a correlao de cossenos;
39
40
2.3.2
Esta categoria de sistemas recomenda ao usurio itens semelhantes queles em que ele
demonstrou interesse no passado. Para tanto, o sistema analisa as descries dos contedos dos
itens avaliados pelo usurio para montar o seu perfil, o qual utilizado para filtrar os demais
itens da base BLANCO-FERNANDEZ et al. (2008) PAZZANI; BILLSUS (1997) RICCI et al.
(2011). Esse contedo no qual ele se baseia so elementos explcitos como nome, descrio, tags,
contedo, categorizao ou rating do item a ser recomendado VIEIRA (2013). Os resultados so
o julgamento da relevncia daqueles itens para o usurio, e a consequente recomendao ou no
SAMPAIO (2006).
Uma das vantagem de implantar o Filtro Baseado em Contedo que a quantidade de
usurios no sistemas no interfere na eficcia do SR, j que se baseia somente no histrico do
que o usurio j acessou. Em contrapartida, um sistema assim precisa de itens bem descritos,
com informao suficiente para categoriz-los STORMER H.; WERRO; RISCH (2006). Outro
problema encontrado nesse tipo de recomendao a sugesto de itens sempre muito parecidos,
limitando os usurios de conhecer itens diferentes VIEIRA (2013).
O melhor uso do Filtro Baseado em Contedo descrito at agora se aplica em sistemas
com poucos usurios e muita informao sobre os itens. Quando um usurio novo em
um sistema, o Filtro Baseado em Contedo tambm possui muita utilidade, pois no temos
muita informao sobre aquele novo usurio e outras tcnicas como o Filtro Colaborativo, que
mostremos anteriormente, so pouco eficientes quando h pouca informao sobre o usurio
ADOMAVICIUS; TUZHILIN (2005) BURKE (2002).
O modelo proposto nesta pesquisa utiliza a tcnica de recomendao por filtragem
baseada em contedo associada s caractersticas da nuvem. Est tcnica foi a que mais se
encaixou no cenrio de aplicao desta proposta, onde sistemas de armazenamento em nuvem
nem sempre contm uma grande quantidade de usurios, e o sistema necessita recomendar
arquivos a partir das informaes de apenas um nico usurio. Outro ponto que motivou
a escolha desta tcnica foram os itens, que na maioria das vezes, so bem descritos nestes
ambientes, a partir do contedo dos mesmos. Alm destes aspectos, a partir desta proposta
pode-se amenizar um dos principais problemas desta tcnica, ponderando os critrios propostos
evitando assim a recomendao de itens muitos similares e no ocultando novos contedos ao
usurio.
2.4
Trabalhos Relacionados
41
2.4.1
2.4.2
Existem alguns trabalhos na literatura que discutem e apresentam sistemas de recomendao em nuvem. Nesta seo, sero apresentados alguns SRs destacando o modelo de
recomendao utilizado, objetivando avaliar as contribuies e diferenciais desta pesquisa.
42
43
44
2.4.3
Acessado em 05/12/2013
Acessado em 05/12/2013
15 https://drive.google.com, Acessado em 05/12/2013
16 http://aws.amazon.com/s3/, ltimo acesso em 05/12/2013
14 http://www.amazon.com/,
45
2.5
Consideraes Finais
Neste captulo, foi apresentada uma reviso dos conceitos de sistemas de recomendao,
computao em nuvem e sistemas de armazenamento de dados em nuvem. Alm disso, foi
detalhado o processo de um sistema de recomendao, as principais tcnicas utilizadas em
SR, suas principais funcionalidades e alguns sistemas de recomendaes que so utilizados
atualmente no mercado, assim como, alguns dos principais sistemas de armazenamento de dados
em nuvem.
Ainda neste captulo, foram apresentados alguns trabalhos relacionados sistemas de
recomendao em nuvem. A partir da reviso da literatura, foram analisados trabalhos que
apresentam relao com o modelo proposto neste trabalho ou que, de alguma forma, apresentem
contribuies para o desenvolvimento desta pesquisa. Foram realizadas anlises minuciosas na
literatura e nos trabalhos relacionados, com o objetivo de elencar as relaes entre o modelo
proposto, os modelos j validados e em uso na indstria e na comunidade acadmica.
Durante o decorrer desta pesquisa, no foram encontrados trabalhos que proponham
um modelo de recomendao que utilize as mesmas caractersticas da nuvem propostas neste
trabalho. Desta forma, podemos afirmar que esta proposta indita na literatura referente rea
de sistemas de recomendao para ambientes de armazenamento em nuvem.
A pesquisa bibliogrfica ocorreu durante os anos de 2012 e 2013, onde foram selecionados trabalhos relacionados ou com caractersticas semelhantes a proposta desta pesquisa. As
selees foram realizadas nas bibliotecas digitais ACM Library22 , IEEE Xplore Digital Library23 ,
Scopus 24 e Science Direct25 , de onde foram extrados os trabalhos que embasaram o desenvolver
da pesquisa.
Na maioria dos trabalhos analisados, so apresentados modelos e sistemas de recomendao que funcionam em ambientes em nuvem ou que recomendam arquivos e informaes
que esto armazenadas em nuvem. Este trabalho se diferencia dos demais por apresentar uma
17 http://www.dropbox.com,
Acessado em 05/12/2013
Acessado em 05/12/2013
19 http://www.wuala.com/, Acessado em 05/12/2013
20 https://www.icloud.com/, Acessado em 05/12/2013
21 http://www.zipcloud.com/, Acessado em 05/12/2013
22 http://dl.acm.org/, ltimo acesso em 08/12/2013
23 http://ieeexplore.ieee.org/, ltimo acesso em 08/12/2013
24 http://www.scopus.com/, ltimo acesso em 08/12/2013
25 http://www.sciencedirect.com/, ltimo acesso em 08/12/2013
18 http://www.sugarsync.com/,
46
47
3
RecCloud
Durante todo o perodo de execuo deste trabalho, foram realizados estudos e pesquisas
que tiveram como principal finalidade elaborar uma modelo capaz de gerar recomendaes de
arquivos para ambientes de armazenamento em nuvem. Para isto, foram realizados estudos
nas bibliografias pertinentes a este tema e os resultados destes estudos serviram para que fosse
possvel elaborar o modelo baseado em caractersticas da nuvem. Deste modo, este captulo
destinado a descrever o modelo proposto nesta pesquisa.
3.1
Proposta
48
3.2
CAPTULO 3. RECCLOUD
O Modelo de Recomendao
O modelo de recomendao proposto composto por cinco critrios, que foram utilizados
no processo de recomendao. Os critrios propostos foram definidos a partir da observao de
sistemas de armazenamento em nuvem. Os critrios so: Similaridade, Disponibilidade, Taxa de
Download, Tamanho do Arquivo e Popularidade do Arquivo.
A seguir foram detalhados cada critrio e o seu respectivo clculo:
AB
kAkkBk
3.1
49
3.2
Critrio Taxa de Download: Refere-se taxa disponvel para a realizao do download de um arquivo na nuvem. O objetivo que arquivos que proporcionam melhores
condies para a reduo no tempo gasto no download sejam melhor ranqueados
que os demais arquivos. A contribuio deste critrio na reduo do tempo gasto
no download de um arquivo recomendado produzida em conjunto com o critrio
Tamanho do Arquivo, apresentado no prximo item. Por exemplo, no caso de
termos dois arquivos similares s preferncias do usurio, onde o arquivo A tem o seu
tamanho igual a 10 (dez) Gigabytes e o arquivo B tem o seu tamanho igual a 2 (dois)
Gigabytes, o arquivo A ser melhor ranqueado que o arquivo B, por proporcionar
uma maior economia no tempo gasto em seu download. A taxa de download pode
modificar o ranque de recomendaes dependendo do momento em que a recomendao for calculada, principalmente em ambientes onde a taxa de download oscilante.
Este critrio tem valor de 0 (zero) a 3 (trs) Megabits por segundo (Mbps), este valor
50
CAPTULO 3. RECCLOUD
representa a media global de taxa de downloads apresentada pela Akamai 1 . Este
critrio calculado pela Equao 3.3:
1
T d = ns
n
3.3
3.4
1 http://www.akamai.com/stateoftheinternet/
Acessado em 27/11/2013
51
3.5
3.2.1
Critrio
Similaridade
Disponibilidade
Taxa de Download
Tamanho do Arquivo
Popularidade do Arquivo
Peso
4
2
2
1
1
52
CAPTULO 3. RECCLOUD
A seguir detalhamos a ponderao dos pesos para cada critrio.
53
3.2.2
Popularidade do Arquivo: atribudo o peso 1 (um). Este critrio tem o seu peso
inferior aos demais critrios, por no ser um critrio crtico. Portanto, um arquivo
que no seja popular na nuvem poder ser recomendado ao usurio, o mesmo ocorre
com os arquivos novos na rede, se o arquivo for bem ranqueado nos outros critrios
do modelo.
Clculo de Recomendao
3.6
3.2.3
54
CAPTULO 3. RECCLOUD
06, arquivo 07, arquivo 08, arquivo 09, arquivo 10 e arquivo 11. A seguir na Tabela ??, consta o
valor de cada critrio utilizado neste exemplo e o resultado do score de recomendao aps a
aplicao da Equao 3.6, que calcula as recomendaes do modelo RecCloud.
Tabela 3.2: Exemplo do Clculo de Recomendao do Modelo RecCloud.
Arquivos em Nuvem
Arquivo 02
Arquivo 03
Arquivo 04
Arquivo 05
Arquivo 06
Arquivo 07
Arquivo 08
Arquivo 09
Arquivo 10
Arquivo 11
Dp
1.0
0.9
0.0
0.5
0.4
0.2
0.6
0.9
1.0
1.0
Td
1.0
1.0
0.6
0.2
0.5
0.7
0.9
0.1
1.0
1.0
S
0.5
1.0
0.4
0.2
0.1
0.3
0.3
0.0
1.0
0.0
Sd
1.0
0.9
0.6
0.4
0.0
0.2
0.8
0.0
1.0
1.0
R
1.0
0.6
0.0
0.8
0.4
0.5
0.0
0.7
1.0
1.0
Score
0.8
0.5
0.0
0.0
0.0
0.0
0.2
0.0
0.7
1.0
Critrio
Arquivo 11
Arquivo 02
Arquivo 10
Arquivo 03
Arquivo 08
Peso
1
0.8
0.7
0.5
0.2
55
3.2.4
O Processo de Recomendao
3.3
Detalhes da Implementao
56
CAPTULO 3. RECCLOUD
de recomendao do modelo.
3.3.1
Ustore
3.3.2
Arquitetura do Ustore
A arquitetura do Ustore consiste de uma arquitetura P2P hbrida em trs camadas, onde
h peers representando papis distintos compondo a soluo final. Os peers so agrupados
em federaes de dados, o que traz diversas vantagens, como, minimizar a sobrecarga na rede,
em cada peer e reduzir a quantidade de mensagens trocadas. Este agrupamento permite uma
maior escalabilidade do sistema, j que no h limites para a quantidade de federaes criadas
DURO F. ASSAD (2013) MACHADO (2013) SILVA A. MACHADO (2013).
A comunicao entre as entidades internas do sistema feita atravs da plataforma
JXTA2 . O JXTA um projeto de software livre de protocolos P2P baseados em mensagens
XML para o desenvolvimento de aplicativos distribudos, permitindo que qualquer dispositivo
conectado em uma rede, independente de sua plataforma, natureza, ou protocolo de rede possa
interagir, compartilhar recursos, e formar uma rede distribuda, descentralizada e cooperativa.
Os peers podem possuir capacidades computacionais distintas, uma das grandes vantagens de
2 http://java.net/projects/jxta,
Acesso em 20/03/2014
57
JXTA garantir o uso racional e adequado dos recursos sem abrir mo da portabilidade HEISS
(2005). A Figura 3.3 representa a arquitetura do JXTA.
Cada peer JXTA cria uma rede sobreposta virtual, permitindo a interao com outros
pares normalmente inacessveis, como os protegidos por dispositivos reguladores de trfego ou
que utilizem outro tipo de transporte de rede. Estes peers tambm podem ser organizados em
grupos de uma forma descentralizada BAROLLI; XHAFA (2011). Na Figura 3.4 apresentada
os tipos de peers do Ustore SILVA A.; MEIRA (2012):
Cliente Ustore: Os clientes so os responsveis por armazenar os chunks dos arquivos, atravs deles que os usurios podem solicitar operaes de backup e recuperao de arquivos. Cada cliente possui um horrio de funcionamento determinado
58
CAPTULO 3. RECCLOUD
inicialmente, que utilizado para garantir a disponibilidade dos dados. No Ustore os
clientes para armazenar os chunks so escolhidos atravs de um algoritmo estatstico
que localiza os clientes que possuem o horrio de funcionamento similar ao horrio
determinado inicialmente ao cliente, desta forma o Ustore garante a disponibilidade
dos arquivos no horrio determinado DUARTE (2010). Com o objetivo de garantir
uma maior taxa de disponibilidade, os chunks so replicados dentro da prpria rede
MACHADO (2013).
3.3.3
Apache Lucene: O Apache Lucene uma biblioteca de cdigo aberto para consultas
full-text desenvolvida em Java. O principal objetivo do Lucene adicionar a funcionalidade de busca de forma fcil para uma aplicao ou pginas web. A biblioteca
3 https://lucene.apache.org/core/
4 http://tika.apache.org/
Acesso em 15/03/2014
Acesso em 15/03/2014
59
60
CAPTULO 3. RECCLOUD
formatos arquivos.
3.3.4
5 http://poi.apache.org/
Acessado em 15/03/2014
Acessado em 15/03/2014
6 http://pdfbox.apache.org/
61
Critrio Disponibilidade: No Ustore cada cliente possui um horrio de funcionamento determinado inicialmente, que utilizado para garantir a disponibilidade. Para
chegar ao valor da taxa de disponibilidade de um cliente, subtramos o tempo total
possvel para um cliente estar disponvel em um dia (24 horas), pelo tempo em que o
cliente ficou off-line. Desta forma, obtemos a quantidade de horas em que um cliente
esteve disponvel durante o dia. O clculo apresentado na Equao 3.7:
Dh = (Ht Ho)
3.7
n
A mdia de disponibilidade igual soma da disponibilidade em horas Dh de todos
os clientes, dividida pela quantidade de clientes n. Desta forma, a disponibilidade
em horas de um arquivo Dh ser igual a mdia de disponibilidade da nuvem Md.
62
CAPTULO 3. RECCLOUD
Na Figura 3.8 ilustrado o processo do clculo do critrio Disponibilidade, onde
calculada a mdia da disponibilidade dos clientes no Ustore.
63
3.4
Consideraes Finais
65
4
Avaliao
Neste captulo, ser apresentada uma srie de testes realizados com o objetivo de avaliar
o modelo de recomendao proposto. A avaliao consiste em diversos testes visando avaliar
diferentes aspectos do modelo RecCloud como, o desempenho do mecanismo de recomendao.
Na literatura podem ser encontradas diversas mtricas para avaliao de mecanismos de
recomendao, algumas das mais conhecidas so preciso, recall, F-measure, curva Roc, mtrica
de Breese, Npdm e o feedback do destinatrio da recomendao SAMPAIO (2006) YAO (1995).
Estas so algumas das opes dentre uma vasta lista de mtricas para avaliar recomendaes.
Herlocker (2000) HERLOCKER (2000) apresenta um estudo avanado sobre esses tipos de
mtricas. Neste trabalho, foram utilizadas as mtricas de preciso, recall, F-measure e tambm
foi avaliado o tempo gasto no download dos artigos recomendados. As tcnicas utilizadas nesse
trabalho foram as que mais se adequaram ao modelo proposto, por analisarem a preciso de cada
ranking de recomendao gerado, alm de mostrar a eficincia do modelo.
4.1
Testes
Os testes foram divididos em 3 (trs) partes:
a) Inicialmente, realizou-se uma anlise das recomendaes geradas, com o objetivo de
avaliar se os arquivos recomendados atendem as preferncias de contedo do usurio;
b) Foram realizados downloads dos arquivos recomendados pelo SR utilizando o modelo
RecCloud e pelo SR baseado puramente em contedo do Ustore. O objetivo foi observar se houve a amenizao do tempo gasto no download dos arquivos recomendados
pelo modelo RecCloud em relao ao SR baseado puramente em contedo;
c) Realizou-se tambm uma anlise das recomendaes para avaliar o desempenho do
mecanismo de recomendao utilizando o modelo proposto.
O objetivo destes experimentos foram avaliar o desempenho do mecanismo de recomendao em um sistema de armazenamento em nuvem, levando em considerao o modelo baseado
em caractersticas da nuvem.
66
CAPTULO 4. AVALIAO
4.2
Coleo de Dados
Para avaliao deste trabalho, foi utilizada uma base de dados composta por 469 (quatrocentos e sessenta e nove) artigos acadmicos publicados nos anos de 2012 e 2013, perodo no
qual se deu o desenvolver desta pesquisa. Os artigos utilizados foram publicados no Simpsio
Brasileiro de Sistemas de Informao e na conferncia ACM Conference on Recommendation
System, disponveis respectivamente nas bibliotecas BDBComp1 e ACM Digital Lybrari2 .
Estes artigos foram utilizados por serem de carter pblico e de fcil acesso, em sua
totalidade formando uma base de dados que tornou possvel a execuo dos testes desse trabalho.
Outro critrio que motivou a utilizao destes artigos foi similaridade entre o contexto dos
artigos publicados na RecSys com os artigos utilizados para representar as preferncias do
usurio, este critrio foi utilizado na gerao da lista de artigos mais relevantes para o ranque de
recomendao.
4.3
Julgamento de Relevncias
Para a realizao dos testes necessrio que os arquivos tenham uma classificao que
indique quais so os mais relevantes para o ranque de recomendao que ser gerado. Para fazer
essa classificao no conjunto de dados foi utilizada a similaridade entre o contexto dos artigos
com o contedo dos artigos utilizados para representar as preferncias do usurio. Desta forma,
todos os artigos que forem relacionados ao termo sistemas de recomendao, foram considerados
relevantes para o ranque de recomendao. As preferncias do avaliador foram representadas
por artigos acadmicos que descrevem sistemas de recomendao. A quantidade de artigos
relevantes utilizados foi de 156 (cento e cinquenta e seis) artigos, representando 33% (trinta e
trs) da base de dados utilizada na realizao dos testes.
4.4
Ambiente de Teste
67
Foram armazenados 479 (quatrocentos e setenta e nove) artigos em uma conta de usurio
no sistema de armazenamento Ustore. Em seguida solicitamos recomendaes para 10 (dez)
arquivos diferentes e foram recomendados 100 (cem) artigos pelo sistema. Para representar as
preferncias do usurio foram utilizados artigos escritos sobre esta pesquisa, discorrendo sobre
sistemas de recomendaes.
4.5
Mtricas de Avaliao
Para avaliao deste trabalho foi utilizada a metodologia proposta por Jain em 1991 JAIN
(1991), onde defendido que para realizar uma avaliao preciso definir objetivos, mtricas,
fatores e nveis MACHADO (2013).
As mtricas escolhidas para avaliar o desempenho do modelo RecCloud, esto descritas
a seguir:
a) Preciso: a taxa de itens relevantes recomendados no resultado. dada atravs da
proporo entre o nmero de arquivos relevantes recomendados e o nmero total de
arquivos recomendados BAEZA-YATES; RIBEIRO-NETO (1999) LEE; LEE; LEE
(2010), representada pela Equao 4.1:
| {arquivos relevantes} {arquivos recomendados} |
Preciso =
{arquivos recomendados}
T
4.1
Na Equao 4.1, arquivos relevantes a quantidade de arquivos recomendados que fazem parte do ranking de relevncia apresentado na Tabela ??, e arquivos recomendados
a quantidade de arquivos recomendados para cada solicitao de recomendao. O
resultado representado por valores entre 0 (zero) e 1 (um). Quanto mais prximo
de 1 (um) mais preciso o sistema.
b) Recall: a taxa de itens relevantes recomendados em relao a quantidade total de
itens relevantesLEE; LEE; LEE (2010), dado pela Equao 4.2:
| {arquivos relevantes} {arquivos recomendados} |
Recall =
{arquivos relevantes}
T
4.2
Na Equao4.2, arquivos relevantes a quantidade de arquivos recomendados que fazem parte do ranking de relevncia apresentado no anexo??, e arquivos recomendados
a quantidade de arquivos recomendados para cada solicitao de recomendao. O
resultado representado por valores entre 0 (zero) e 1 (um). Quanto mais prximo
de 1 (um) mais o sistema satisfaz a solicitao da recomendao.
c) F-measure: a mdia ponderada da preciso e recall. Pode ser representada pela
68
CAPTULO 4. AVALIAO
Equao 4.3 BAEZA-YATES; RIBEIRO-NETO (1999) LEE; LEE; LEE (2010).
F measure =
(1 + ) preciso recall
( preciso) + recall
4.3
T = Tc Tn
i=0
i=0
4.4
O tempo total amenizado no download dos arquivos recomendados dado pela subtrao do resultado da soma do tempo gasto no download de todas as recomendaes
realizadas pelo modelo RecCloud ni=0 T n pela soma do tempo gasto no download de
todas as recomendaes do modelo utilizado para comparao de resultado ni=0 T c.
Calculada a mdia do tempo economizado no download por recomendao, dado
pela Equao 4.5.
ni=0 T c ni=0 T n
T=
4.5
Nrec
A mdia do tempo amenizado no download de cada arquivo recomendado dada pelo
resultado da soma do tempo gasto em todos os downloads baseadas em caractersticas
da nuvem ni=0 T n subtraido pelo resultado da soma do tempo gasto no download
de todos os arquivos recomendados do modelo utilizado para avaliao ni=0 T c,
dividido pelo nmero total de recomendaes utilizado para a avaliao Nrec.
69
4.6
Cenrios de Avaliao
A avaliao foi dividida em 2 (dois) cenrios. A diviso em cenrios tem como objetivo
detalhar o que est sendo avaliado e torna mais fcil o entendimento de todo o processo. Todos
os cenrio e testes deste trabalho foram realizados em um ambiente controlado simulando uma
nuvem. Na execuo dos experimentos em todos os cenrios no foram utilizados usurios reais.
Todos os experimentos foram realizados somente pelo avaliador, em alguns pontos a utilizao
do sistema por usurios foi simulada, para melhor se aproximar do cenrio real. Na execuo, os
cenrios foram montados da seguinte forma:
4.7
Nveis
5, 10, 15
Cenrio II: o objetivo foi medir o tempo gasto no download de arquivos recomendados e comparar os resultados com um modelo baseado em contedo. Com isso,
foi possvel avaliar se o modelo proposto atingiu um dos objetivos que amenizar o
tempo gasto no download dos arquivos recomendados. Neste cenrio avaliamos a
mtrica 4 (quatro), analisando o tempo gasto no download de 100 artigos recomendados, 50 artigos de cada modelo avaliado. Nesta mtrica foi utilizado ranques de
recomendao com 5 (cinco) artigos retornado para cada solicitao de recomendao.
Resultados
4.7.1
Resultados do Cenrio I
No primeiro cenrio a avaliao foi dividida em 3 (trs) nveis, cada nvel retorna uma
quantidade diferente de artigos para cada solicitao de recomendao, o primeiro nvel retornou
70
CAPTULO 4. AVALIAO
5 (cinco) artigos, o segundo 10 (dez) artigos e o terceiro 15 (quize) artigos. Foram solicitadas recomendaes para 10 (dez) artigos no modelo RecCloud, estas solicitaes resultaram
respectivamente em 50 (cinquenta), 100 (cem) e 150 (cento e cinquenta) artigos recomendados.
A Figura 4.1, apresenta a preciso alcanada utilizando o modelo RecCloud para cada
solicitao de recomendao e variando a quantidade de artigos recomendados 5 (cinco), 10
(dez) e 15 (quinze). Os resultados apresentados mostraram que as maiores taxas de preciso
foram obtidas no nvel 1, e o nvel 3 apresentou as menores taxas de preciso. Na Figura
4.2, apresentada uma comparao da taxa de preciso atingida por cada nvel.
A partir dos resultados apresentados nos grficos das Figuras 4.1 e 4.2, percebemos
que a taxa de preciso obtida no nvel 1 (0.68) foi maior que a taxa obtida no nvel 2
71
4.7. RESULTADOS
(0.46) e nvel 3 (0.44), onde so recomendados 5 (cinco) artigos para cada solicitao de
recomendao. Diante destes resultados, observamos que a maior parte dos artigos relevantes
foram recomendados no incio dos ranques. Este resultado se justifica pelo peso do critrio
similaridade ser superior ao peso dos demais critrios utilizados na gerao das recomendaes,
desta forma os arquivos com maior similaridade foram recomendados no incio dos ranques
e os artigos que se mostraram recomendveis, mas que no apresentaram uma alta taxa de
similaridade foram recomendados no final dos ranques de recomendao. Na Figura 4.3 so
apresentados os resultados da taxa de recall obtidos nesta avaliao.
A Figura 4.3, Apresenta a taxa de recall alcanada utilizando o modelo RecCloud para
cada solicitao de recomendao e variando a quantidade de artigos recomendados 5 (cinco),
10 (dez) e 15 (quinze).
Figura 4.4: Grfico apresentando a comparao da taxa de recall obtida nos 3 (nveis) de
variao na quantidade de artigos recomendados.
72
CAPTULO 4. AVALIAO
na quantidade de artigos recomendados. A partir dos resultados apresentados nos grficos das
Figuras 4.3 e 4.4, percebemos que a taxa de recall obtida no nvel 3 (0.42) foi maior que a taxa
obtida no nvel 1 (0.21) e nvel 2(0.29).
A partir das taxas de preciso e recall definidas calculamos a taxa F-measure. A Figura
4.5, apresenta a taxa de F-Measure alcanada para cada solicitao de recomendao e variando
a quantidade de artigos recomendados.
A partir dos resultados apresentados nos grficos das Figuras 4.5 e 4.6, observamos que
a taxa de F-Measure obtida no nvel 3 (0.42) foi maior que a taxa obtida no nvel 2 (0.35) e
nvel 1 (0.32).
73
4.7.2
4.7. RESULTADOS
Resultados do Cenrio II
Figura 4.7: Tempo gasto no download dos arquivos recomendados pelo modelo
RecCloud.
74
CAPTULO 4. AVALIAO
Figura 4.8: Tempo gasto no download dos arquivos recomendados pelo modelo baseado
em contedo.
Figura 4.9: Comparao do tempo gasto no download dos arquivos recomendados pelos
dois modelos avaliados.
porm, tambm obteve o maior tempo, enquanto o modelo RecCloud teve uma menor variao
no tempo dos downloads. A partir dos resultados apresentados na Figura 4.10, pode ser afirmado
que o modelo proposto nesta pesquisa proporcionou reduo no tempo gasto no download das
recomendaes. A reduo mdia de tempo gasto nos downloads foi de 207,06 milissegundos, o
que representa uma reduo de 17,8%. Est amenizao aplicada a ambientes onde so realizados
centenas ou at milhares de downloads por hora, pode proporcionar ganhos significativos na
economia de tempo gasto em downloads de arquivos armazenados em nuvem e ao mesmo tempo
recomendar contedo relevante aos usurios do sistema.
75
Figura 4.10: Mdia, mnimo e mximo do tempo gasto no download das recomendaes.
4.8
76
CAPTULO 4. AVALIAO
4.9
77
4.10
Consideraes Finais
79
5
Concluses e Trabalhos Futuros
Esta dissertao abordou o problema de filtragem de contedo em meio imensido de
dados em sistemas de armazenamento em nuvem. A identificao de caractersticas da nuvem
possibilita gerar recomendaes similares as preferncias dos usurios, como tambm proporcionem a melhor utilizao de recursos da nuvem. Com o objetivo de amenizar este problema, foi
apresentado um modelo para a gerao de recomendaes em sistemas de armazenamento em
nuvem, formado por caractersticas da nuvem somadas a tcnica de recomendao baseada em
contedo.
Os testes realizados neste trabalho foram executados em um sistema real de armazenamento em nuvem, o Ustore. Na execuo dos testes foi observado o tempo gasto no download de
arquivos recomendados, com objetivo de avaliar se o modelo RecCloud proporciona amenizao
desse tempo, em comparao a tcnica baseada em contedo. Na execuo dos testes tambm
foi avaliado o desempenho do modelo proposto.
5.1
Contribuies
A seguir apresentamos as principais contribuies deste trabalho:
Cinco artigos foram escritos com o objetivo de difundir o conhecimento produzido nesta
pesquisa, os quais foram aceitos para publicao:
80
Rodrigues, Ricardo B., Silva, C., Ferreira, W., Campos, G., Assad, R., Duro, F.,
Garcia, V. A Cloud-based Recommendation System. IADIS International Conference
WWW-INTERNET (ICWI), Out., 2013, Fort Worth, Texas.
Rodrigues, Ricardo B., Assad, R., Duro, F., Garcia, V. RecCloud: Um Sistema de
Recomendao Baseado em Nuvem. Workshop de Teses e Dissertaes do Congresso
Brasileiro de Software (WTDSoft). Set., 2013, Braslia, Distrito Federal, Brasil.
Rodrigues, Ricardo B., Duro, F., Assad, R., Garcia, V. Um Sistema de Recomendao Baseado em Nuvem. III Escola Regional de Informtica de Pernambuco (ERIPE).
Nov., 2013, Garanhuns, Pernambuco, Brasil.
Rodrigues, Ricardo B., Duro, F., Assad, R., Garcia, V. A Cloud-based Recommendation Model. 7th Euro American Association on Telematics and Information Systems,
2014, Valparaso, Chile.
5.2
Rodrigues, Ricardo B., Duro, F., Assad, R., Garcia, V. RecCloud: A Recommendation Model for Cloud Storage Systems. 10th International Conference on Web
Information Systems and Technologies, 2014, Barcelona, Espanha.
Trabalhos Futuros
Realizar experimentos com usurios reais, afim de, avaliar o contedo recomendado
pelo modelo proposto.
Aplicar outras tcnicas de avaliao de sistemas de recomendao ao modelo, com
objetivo de comparar os resultados obtidos neste trabalho.
Realizar os experimentos com pesos diferentes para cada fator do modelo proposto,
com o objetivo de comparar os resultados e propor a melhor combinao de pesos,
para proporcionar os melhores resultados ao modelo RecCloud.
81
Expanso dos critrios utilizados: podem ser adicionados ao modelo novos critrios
oriundos da nuvem, assim como, caractersticas de sistemas de armazenamento em
nuvem.
Utilizar a tcnica de recomendao por filtragem colaborativa, que associada aos
critrios propostos neste modelo podem trazer resultados positivos.
Propor um modelo de recomendao hbrido, utilizando as duas tcnicas de recomendao mais populares entre os sistemas de recomendao (Filtragem colaborativa e
filtragem baseada em contedo), associadas s caractersticas da nuvem.
83
Referncias
ADOMAVICIUS, G.; TUZHILIN, A. Toward the next generation of recommender systems: a
survey of the state-of-the-art and possible extensions. Knowledge and Data Engineering,
IEEE Transactions on, [S.l.], v.17, n.6, p.734749, 2005.
ANSARI, A.; ESSEGAIER, S.; KOHLI, R. Internet recommendation systems. JOURNAL OF
MARKETING RESEARCH, [S.l.], v.37, n.3, p.363375, 2000.
ASSAD R. MACHADO, M. S. P. S. A. S. T. G. V. Desafios em cloud computing:
armazenamento, banco de dados e big data. Tpicos em Multimdia, Hipermdia e Web,
[S.l.], p.7611, 2012.
BAEZA-YATES, R. A.; RIBEIRO-NETO, B. Modern Information Retrieval. Boston, MA,
USA: Addison-Wesley Longman Publishing Co., Inc., 1999.
BAROLLI, L.; XHAFA, F. JXTA-Overlay: a p2p platform for distributed, collaborative, and
ubiquitous computing. Industrial Electronics, IEEE Transactions on, [S.l.], v.58, n.6,
p.21632172, June 2011.
BLANCO-FERNANDEZ, Y. et al. Providing entertainment by content-based filtering and
semantic reasoning in intelligent recommender systems. IEEE Trans. Consumer Electronics,
[S.l.], v.54, n.2, p.727735, 2008.
BLANK, I.; ROKACH, L.; SHANI, G. Leveraging the Citation Graph to Recommend
Keywords. In: ACM CONFERENCE ON RECOMMENDER SYSTEMS, 7., New York, NY,
USA. Proceedings. . . ACM, 2013. p.359362. (RecSys 13).
BURKE, R. Hybrid Recommender Systems: survey and experiments. User Modeling and
User-Adapted Interaction, [S.l.], v.12, n.4, p.331370, 2002.
CARVALHO, J. F. S. Um Mapeamento Sistematico de Estudos em Cloud Computing. 2012.
Dissertao (Mestrado em Cincia da Computao) Universidade Federal de Pernambuco
(UFPE).
CHAKOO, N.; GUPTA, R.; HIREMATH, J. Towards Better Content Visibility in Video
Recommender Systems. In: FRONTIER OF COMPUTER SCIENCE AND TECHNOLOGY,
2008. FCST 08. JAPAN-CHINA JOINT WORKSHOP ON. Anais. . . [S.l.: s.n.], 2008.
p.181185.
CHEN, Y.-C.; HUANG, H.-C.; HUANG, Y.-M. Community-based program recommendation for
the next generation electronic program guide. Consumer Electronics, IEEE Transactions on,
[S.l.], v.55, n.2, p.707712, 2009.
DENG, J. et al. Research and Application of Cloud Storage. In: INTELLIGENT SYSTEMS
AND APPLICATIONS (ISA), 2010 2ND INTERNATIONAL WORKSHOP ON. Anais. . .
[S.l.: s.n.], 2010. p.15.
DUARTE, M. Um algoritmo de disponibilidade em sistemas de backup distribudo seguro
usando a plataforma peer-to-peer. 2010. Dissertao (Mestrado em Cincia da Computao)
Centro de Informtica UFPE.
84
REFERNCIAS
DURO, F. A. Applying a semantic layer in a source code retrieval tool. 2008. Dissertao
(Mestrado em Cincia da Computao) Centro de Informtica, Universidade Federal de
Pernambuco (UFPE).
DURO F. ASSAD, R. F. A. F. J. G. V. T. F. USTO.RE: a private cloud storage software system.
In: DANIEL, F.; DOLOG, P.; LI, Q. (Ed.). Web Engineering. [S.l.]: Springer Berlin
Heidelberg, 2013. p.452466. (Lecture Notes in Computer Science, v.7977).
GANTZ, J.; REINSEL, D. Extracting Value from Chaos State of the Universe : an
executivesummary. 1-12.
GARCIA, V. C. et al. From Specification to Experimentation: a software component search
engine architecture. In: GORTON, I. et al. (Ed.). Component-Based Software Engineering.
[S.l.]: Springer Berlin Heidelberg, 2006. p.8297. (Lecture Notes in Computer Science, v.4063).
HATCHER, E.; GOSPODNETIC, O. Lucene in Action (In Action Series). Greenwich, CT,
USA: Manning Publications Co., 2004.
HEISS, J. J. Jxta technology brings the internet back to its origin. [S.l.]: Oracle, 2005.
HERLOCKER, J. L. Understanding and improving automated collaborative filtering
systems. 2000. Tese (Doutorado em Cincia da Computao) University of Minnesota.
AAI9983577.
JAIN, R. K. The Art of Computer Systems Performance Analysis: techniques for
experimental design, measurement, simulation, and modeling. 1.ed. [S.l.]: Wiley, 1991.
JAVA Platform, Standard Edition <ttp://www.oracle.com/technetwork/java>. ultimo acesso em
07/06/2013.
JIANG, Y. et al. Recommending Academic Papers via Users Reading Purposes. In: SIXTH
ACM CONFERENCE ON RECOMMENDER SYSTEMS, New York, NY, USA.
Proceedings. . . ACM, 2012. p.241244. (RecSys 12).
JUNG, G. et al. CloudAdvisor: a recommendation-as-a-service platform for cloud configuration
and pricing. In: SERVICES (SERVICES), 203 IEEE NINTH WORLD CONGRESS ON.
Anais. . . [S.l.: s.n.], 2013. p.456463.
KONG, D.; ZHAI, Y. Trust Based Recommendation System in Service-oriented Cloud
Computing. In: CLOUD AND SERVICE COMPUTING (CSC), 2012 INTERNATIONAL
CONFERENCE ON. Anais. . . [S.l.: s.n.], 2012. p.176179.
LAI, C.-F. et al. CPRS: a cloud-based program recommendation system for digital tv platforms.
Future Gener. Comput. Syst., Amsterdam, The Netherlands, The Netherlands, v.27, n.6,
p.823835, June 2011.
LEE, S.; LEE, D.; LEE, S. Personalized DTV Program Recommendation System Under a Cloud
Computing Environment. IEEE Trans. on Consum. Electron., Piscataway, NJ, USA, v.56, n.2,
p.10341042, May 2010.
LENK, A. et al. Whats inside the Cloud? An architectural map of the Cloud landscape. In:
SOFTWARE ENGINEERING CHALLENGES OF CLOUD COMPUTING, 2009.
CLOUD.ICSE WORKSHOP ON, Washington, DC, USA. Anais. . . IEEE, 2009. p.2331.
(CLOUD 09, v.0).
85
REFERNCIAS
86
REFERNCIAS