Académique Documents
Professionnel Documents
Culture Documents
Monografia apresentada ao Centro de Matemtica, Computao e Cognio - CMCC/UFABC como parte dos requisitos necessrios obteno
do ttulo de Bacharel em Cincia da Computao.
R ESUMO
Rede complexa uma forma de modelar a natureza onde dado um grupo de elementos constituintes
de um sistema natural qualquer, deve-se determinar alguma regra para estabelecer uma ligao entre
esses elementos. Esses elementos podem ser pessoas, protenas, internet, aeroportos entre outras
coisas. Neste trabalho, o foco ser dado ao grupo constitudo por humanos. As ligaes entre esses
elementos dependem da caracterstica a ser observada. Por exemplo, pessoas podem estar ligadas
por conexes de amizade ou devido ao compartilhamento de alguma opinio.
Nos ltimos anos presencia-se uma considervel expanso nestas redes complexas, mais especificamente nas redes nas quais os elementos constituintes so seres humanos. Mesmo est expanso
sendo algo relativamente novo, as questes levantadas so possivelmente respondidas pela teoria
das redes sociais, que desde sempre esto presentes na humanidade. A teoria das redes fornece explicaes para uma mirade de fenmenos sociais, como por exemplo, criatividade individual, rentabilidade nas empresas, como indivduos podem se combinar para criar sociedades duradouras e
funcionais. No entanto, para se analisar esse vasto campo necessrio focar-se em objetivos claros. Devido imensido de dados disponveis encontra-se a necessidade de utilizar abordagens que
facilitem o tratamento de tantos dados.
Neste trabalho proposto um estudo frente aos dados presentes nas redes complexas, mais especificamente nas redes sociais. Atravs da minerao de dados, espera-se fornecer arcabouo suficiente e slido, para que seja possvel a construo de um panorama no qual se possa analisar e
representar determinadas redes complexas.
S UMRIO
Resumo
ii
Sumrio
iv
Introduo
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
5
6
7
8
9
9
9
10
10
10
10
10
11
11
12
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
16
16
17
17
18
18
18
18
19
21
21
21
22
23
23
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
SUMRIO
3.3
3.2.5.1.1
Classificao . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1.2
Regresso . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1.3
Agrupamento ou Clustering . . . . . . . . . . . . . . . .
3.2.5.1.4
Sumarizao . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1.5
Modelagem de Dependncia . . . . . . . . . . . . . . .
3.2.5.1.6
Deteco de Mudana ou Desvios (Outliers) . . . . . .
3.2.5.2
Algoritmos Utilizados em Data Mining . . . . . . . . . . . . . . .
3.2.5.3
Extrao de Padres . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.4
Definio de Parmetros . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.5
Reduo de Atributos . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.6
Generalizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.7
Mudanas dos Dados . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.8
Compreenso de Padres . . . . . . . . . . . . . . . . . . . . . . .
3.2.6 Interpretao e Avaliao de Padres . . . . . . . . . . . . . . . . . . . . . .
3.2.7 Consolidao do Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . .
Representao e Processamento de Dados da Web para Minerao . . . . . . . . .
3.3.1 Estado da Arte: Aplicaes de Minerao de Dados na Web . . . . . . . . .
3.3.1.1
Minerao de Contedo . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1.2
Minerao de Estruturas na Web . . . . . . . . . . . . . . . . . . .
3.3.1.3
Minerao de Redes Sociais e Similares . . . . . . . . . . . . . . .
3.3.1.4
Minerao de Registros de Acesso (logs) a Servidores e Similares
3.3.1.5
Outros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
24
24
25
25
25
27
27
27
27
28
28
28
28
28
29
29
29
30
30
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
32
32
33
33
33
33
34
35
35
35
37
37
38
38
39
39
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
41
41
42
42
43
44
45
45
.
.
.
.
.
.
.
.
.
.
SUMRIO
5.3.4
vi
Mdulo: Processando-Informao . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.4.1
Mdulo IP: Atributos Individuais . . . . . . . . . . . . . . . . . . . . .
5.3.4.2
Mdulo IP: Regras para Determinar o Grau de Homophilia . . . . . .
46
46
46
49
49
49
50
50
50
53
54
55
57
57
59
Consideraes Finais
61
R Referncias
63
CAPTULO
I NTRODUO
O interesse no estudo de redes complexas permeia todo o sculo XX. Iniciado pelas cincias exatas,
notoriamente matemticos e fsicos trouxeram contribuies significativas para o estudo das redes,
que depois foram absorvidas pela Sociologia, na perspectiva da anlise estrutural das redes sociais.
Os primeiros passos da teoria das redes encontram-se principalmente nos trabalhos do matemtico
uler [Euler 1741] que criou o primeiro teorema da teoria dos grafos. Um grafo uma representao de um conjunto de ns conectados por arestas que, em conjunto, formam uma rede. Tendo
como base esta nova idia, vrios estudiosos [Barabsi 2003, Buchanan 2003, Watts 1999, Watts 2003]
dedicaram-se ao trabalho de compreender quais eram as propriedades de diversos tipos de grafos e
como se dava o processo de sua construo, ou seja, como seus ns se agrupavam. Essa forma de
percepo dos elementos como redes seria crucial para a compreenso das relaes complexas do
mundo atual.
Mais especificamente dentro do assunto de redes complexas a anlise das redes sociais parte de
duas grandes vises do objeto de estudo: as redes inteiras (whole networks) e as redes personalizadas
(ego-centered networks) ( [Watts 2003, Degenne e Forse 1999, Wellman 1997, Wellman et al. 2003, Garton, Haythornthwaite e Wellman 1997]). O primeiro aspecto focado na relao estrutural da rede
com o grupo social. Para [Watts 2003] As redes, de acordo com esta viso, so assinaturas de identidade social - o padro de relaes entre os indivduos est mapeando as preferncias e caractersticas
dos prprios envolvidos na rede.". O segundo foco est no papel social de um indivduo, compreendido no apenas atravs dos grupos (redes) a que ele pertence, mas igualmente atravs das posies
que ele tem dentro dessas redes. A diferena entre os dois focos est no corpus da anlise escolhida
pelo pesquisador [Recuero 2004].
Garton [Garton, Haythornthwaite e Wellman 1997] explica que a anlise de redes sociais foca principalmente nos padres de relaes entre as pessoas. O estudo de redes sociais reflete uma mudana
do individualismo comum nas cincias sociais em busca de uma anlise estrutural. Para ir alm dos
atributos individuais e considerar as relaes entre os atores sociais, a anlise das redes sociais busca
focar-se em novas unidades de anlise", tais como: relaes (caracterizadas por contedo, direo
e fora), laos sociais (que conectam pares de atores atravs de uma ou mais relaes), multiplexidade (quanto mais relaes um lao social possui, maior a sua multiplexidade) e composio do lao
social (derivada dos atributos individuais dos atores envolvidos). O estudo de redes sociais procura
tambm levar para a sociedade os elementos principais estudados em uma rede, tais como densidade
da rede, clusterizao, etc [Recuero 2004].
A princpio, os socilogos acreditavam que as unidades bsicas das redes sociais eram as dades,
ou seja, as relaes entre duas pessoas seriam a menor estrutura relacional da sociedade. E com
isso, as relaes entre indivduos que formaria um grupo se dariam de modo randmico [Wellman
1
1.1. Objetivos
1997]. Uma outra vertente para a anlise das redes sociais defendiam que as unidades bsicas seriam
constitudas pelas trades, de formato triangular. Nesse modelo, por exemplo, duas pessoas possuem
um amigo em comum. Assim essas duas pessoas possuem maiores chances de se conhecerem entre
si e fazerem parte de um mesmo grupo.
Partindo dessa perspectiva, a anlise estrutural das redes sociais procura focar no estabelecimento das relaes sociais entre os agentes humanos, que originaro as redes sociais, tanto no mundo
concreto, quanto no mundo virtual. Isso porque em uma rede social, as pessoas so os ns e as arestas
so constitudas pelos laos sociais gerados atravs da interao social [Recuero 2004].
Por sua complexidade as redes sociais (virtuais ou no) acabam gerando mais dados do que a capacidade humana possui de interpret-los e compreend-los. Por essa razo, so necessrias novas
tcnicas e ferramentas capazes de analisar automaticamente essa quantidade de dados produzidos,
fornecendo o conhecimento necessrio para ajudar nos mais diversos processos de tomada de deciso.
A rea da Computao conhecida como Extrao de Conhecimento em Base de Dados (do ingls
Knowledge Discovery in Databases - KDD), surgiu para auxiliar a anlise de grande volume de dados,
sendo assim ideal para o cenrio de redes sociais. As pesquisas nesta rea tm o objetivo de estudar a
aplicao de novas metodologias, tcnicas e ferramentas capazes de extrair conhecimento embutido
em um grande volume de dados [Oliveira 2000].
O processo de KDD pode ser entendido como uma rea interdisciplinar pois utiliza conceitos de
diversas frentes do conhecimento: bases de dados, mtodos estatsticos, ferramentas de visualizao
e tcnicas de Inteligncia Artificial (IA). Assim, as inovaes feitas nestas reas so refletidas diretamente nas metodologias, tcnicas e ferramentas usadas para a descoberta de conhecimento nos
dados [Oliveira 2000].
Deste modo, o escopo do presente trabalho se conteve no estudo dos dados que compem essas
redes complexas, mais especificamente as redes sociais. De forma a fornecer uma viso ampla de
quais so as principais organizaes de dados nessas redes, como os dados so organizados, quais as
maneiras de extrair os dados destas redes, como extra-los e em seguidas transformar essa quantidade
de dados em informaes relevantes.
1.1 Objetivos
Este projeto de graduao concentrou-se em investigar questes relacionadas anlise de dados em
sistemas complexos. Mais especificamente na dinmica de redes sociais, tendo como base as teorias
de Redes Complexas, Teoria dos Grafos, Redes Sociais, Extrao e Minerao de Dados. Devido ao
amplo leque de possveis escopos de anlise, foi necessrio definir uma aplicao especfica para o
estudo das tcnicas de minerao e anlise de dados. Nesta pesquisa o domnio escolhido para o
estudo de caso foi o de Redes Sociais. Para o alcance deste objetivo principal cinco (05) objetivos
especficos foram considerados.
O primeiro objetivo especfico preocupou-se com o estudo dos referenciais terico e tcnico das
reas de Redes Complexas e Teoria dos Grafos, nos quais conteve-se em delinear o estado da arte nos
temas que serviram de base desta pesquisa.
O segundo objetivo especfico correspondeu ao estudo sobre Extrao e Minerao de Dados e
Redes Sociais, procurando conhecer tcnicas e solidificar o embasamento terico para o desenvolvimento do trabalho.
O terceiro objetivo, foi focado em analisar como ocorre a organizao de dados em Redes Complexas e Redes Sociais. Estudando modelos de dados aplicados em tais redes, foi possvel formalizar
a estrutura de determinadas redes, assim como delinear uma rea de escopo para esse projeto.
O quarto objetivo diz respeito ao estudo dos modelos de Extrao e Minerao de Dados aplicados em Redes Sociais. Analisando a literatura [Oliveira 2000], [Cazella 2005], [Castilho 2004] observouse que existem diversas caracterizaes sobre tal assunto.
1.1. Objetivos
A partir dos modelos conceituais estudados foi feito um estudo de caso sobre a extrao de dados em determinada rede, de forma que implementou-se um dos modelos estudados no intuito de
alcanar o quinto e ltimo objetivo especfico. Encontrando assim subsdios para obter uma anlise
sobre o sistema social estudado.
CAPTULO
Figura 2.1: Exemplo de uma Rede Complexa entre Jogadores e Treinadores [Evans 2009,].
Antes de aprofundar o assunto tema deste projeto importante que alguns conceitos sejam estabelecidos e explicados, visando estabelecer um arcabouo terico a ser usado neste trabalho. Deste
modo, a prxima seo trata alguns conceitos relevantes sobre Teoria dos Grafos [Feofiloff, Kohayakawa e Wakabayashi 2009].
O complemento de um grafo (V, A) o grafo (V, V (2) \A). O complemento de um grafo G ser
denotado por G. A Figura 2.3 mostra um grafo G e seu complemento H (G).
Um grafo G completo se A(G)=V (G)(2) e vazio se A(G)=;. A expresso G um K n uma abreviatura de G um grafo completo com n vrtices. A expresso G um K n uma abreviatura de
G um grafo vazio com n vrtices. A Figura 2.4 mostra um exemplo de grafo completo K 6 [Feofiloff,
Kohayakawa e Wakabayashi 2009].
(v) (igual cardinalidade de (v)). Dessa forma o grau de v em um grafo G denotado por g(v). O
grau mnimo de um grafo G o nmero (G) := mi n{g (v) : v V (G)}. O grau mximo do grafo o
nmero (G) := max{g (v) : v V (G)}. Um grafo G dito como regular se todos os seus vrtices tem o
mesmo grau, ou seja, se (G) = (G). Um grafo k-regular se g(v)=k para todo vrtice v. A Figura 2.5
exemplifica um grafo 3-regular.
S
Um circuito um grafo da forma ({v 1 , v 2 , ..., v n }, {v i , v i +1 : 1 i < n}) v n v 1 , com n > 3. Em outras
palavras, um circuito um grafo O com n(O) 3 cujo conjunto de vrtices admite uma permutao
({v 1 , v 2 , ..., v n }) tal que:
{v 1 v 2 , v 2 v 3 , ..., v n }
{v n v 1 } = A(O)
O comprimento de um caminho ou circuito o nmero de arestas do grafo, um caminho de comprimento k tem k + 1 vrtices e um circuito de comprimento k tem k vrtices. Um tringulo, quadrado,
pentgono e hexgono o mesmo que um circuito de comprimento 3, 4, 5 e 6 respectivamente. Um
caminho ou circuito par se tem comprimento par, e mpar se tem comprimento mpar. A Figura 2.7
mostra um circuito de comprimento 8.
O contedo em Teoria dos Grafos muito extenso para o escopo desse projeto. O objetivo desta
Seo foi introduzir os principais tpicos bsicos para que o mesmo possa ser entendido. Para uma
anlise mais detalhada sobre grafos consulte [Netto 2006,Feofiloff, Kohayakawa e Wakabayashi 2009].
das por pouco menos de vinte cliques do mouse, confirmando assim os estudos sobre o efeito small
world [Milgram 1967, Viana 2007].
2.2.2 Propriedades
As redes complexas apresentam algumas propriedades. Tais propriedades podem auxiliar em anlises dos mais variados aspectos das redes, e com os mais diferenciados propsitos. Nesta seo so
apresentadas algumas das principais caractersticas das redes complexas.
3 #4
#v
(2.1)
10
pk0
(2.2)
k 0 =k
Em um dgrafo1 , por outro lado, cada vrtice tem um grau de entrada e de sada, acarretando
em uma equao diferente para o clculo da distribuio de graus. Essa nova equao escrita em
funo de p j k com duas variveis, representando a frao de vrtices que tm, simultaneamente, um
grau de entrada j e um grau de sada k.
A distribuio de graus nas redes aleatrias segue a distribuio de Poisson. No entanto, em muitas redes reais a distribuio de graus segue a Lei de Potncia, em que p k 0 k para uma constante
qualquer [Metz et al. 2007].
2.2.2.3 Robustez
Indica a capacidade de resistncia da rede quanto s remoes de alguns vrtices, sem que haja perda
de sua funcionalidade. Essa propriedade est diretamente relacionada com a distribuio de graus
dos vrtices, pois a remoo de vrtices pode resultar na perda de conexo entre pares de vrtices ou,
ainda, aumentar significativamente o caminho de um vrtice a outro [Metz et al. 2007].
11
Desse modo, uma distribuio de conexes que possui um valor caracterstico de conexes
dado pelo grau mdio da rede, conforme mostra a Equao 2.3.
k = p(N 1)
(2.3)
(2.4)
Esse mecanismo de construo implica que a vizinhana de cada vrtice ser fracamente conectada entre si se a probabilidade p for baixa, ou seja, o coeficiente de aglomerao mdio, C A = k
N ,
ser baixo em uma rede esparsa (N k). O que vlido na maioria das redes reais, implicando que
C A 1 [Rocha 2007].
A aleatoriedade das conexes gera uma quebra de simetria que faz com que o caminho mdio entre quaisquer dois vrtices da rede seja muito pequeno se comparado ao tamanho da rede
ln(N )
), quando a rede esparsa. Esse fenmeno da distncia mdia entre quaisquer vrtices
(d E R ln[k]
de uma rede ser pequena conhecido como o efeito small world (mundo pequeno), e foi inicialmente descoberto numa rede social construda a partir de um experimento conduzido por Stanley
Milgram em 1967 [Milgram 1967].
12
definida no espao Euclidiano. Alm disso, as conexes so distribudas somente entre os vizinhos
topolgicos de cada vrtice. Na Fsica do Estado Slido, a rede regular uma ferramenta indispensvel para a representao dos tomos em um estrutura e suas interaes locais. A Figura 2.9 mostra um
exemplo de uma rede regular com condies de contorno, onde cada um dos vrtices est conectado
aos seus primeiros vizinhos topolgicos [Viana 2007].
O efeito small world observado nas redes em que a maioria dos vrtices se conecta a outros
atravs de um caminho mnimo. O caminho mnimo, tambm chamado de caminho geodsico ou
distncia geodsica, aquele formado pelo menor nmero de arestas que conectam um vrtice origem e um vrtice destino [Milgram 1967]. O comprimento do caminho mnimo mdio (CM) entre
pares de vrtices em um grafo no direcionado dado pela Equao 2.5, onde d i j a distncia geodsica do vrtice i at o vrtice j [Metz et al. 2007].
l=
1
2 n(n + 1) i j
di j
(2.5)
13
Essa definio apresenta problemas nas redes com mais de um componente. Um componente
representado por um nico vrtice, ou por um conjunto de vrtices e de arestas que conectam os
pares de vrtices. Nas redes com mais de um componente no h um caminho conectando um vrtice qualquer de um componente com um outro vrtice qualquer de outro. Em outras palavras, h
um subconjunto de vrtices interconectados entre si, mas sem qualquer conexo com um outro subconjunto da rede. Para evitar problemas no clculo da distncia mdia geodsica, so considerados
apenas os pares de ns em que h um caminho entre eles [Metz et al. 2007].
O efeito observado no modelo small world tem implicaes relevantes na dinmica de redes sociais. Por exemplo, um boato pode se espalhar muito mais rpido, se ao invs de cem passos, levarem
apenas seis para chegar de um indivduo ao outro.
(a)
14
(b)
Figura 2.11: (a) Amostra da Rede Complexa de Barabsi-Albert - o concetrador que emerge na
estrutura aparece em cinza escuro - e (b) Distribuio de graus terica resultante da convexo
preferencias - no normalizada [Rocha 2007]
CAPTULO
15
16
Vlidos: os padres descobertos devem possuir algum grau de certeza, ou seja, devem satisfazer funes ou limiares que garantam que os exemplos cobertos e os casos relacionados ao
padro encontrado sejam aceitveis;
Novos: um padro encontrado deve fornecer novas informaes sobre os dados. O grau de
novidade serve para determinar o quo novo ou indito um padro. Ele pode ser medido
atravs de comparaes entre as mudanas ocorridas nos dados, ou no conhecimento anterior;
teis: os padres descobertos devem ser incorporados de forma a serem utilizados;
Compreensveis: um dos objetivos de realizar-se KDD fazer com que os padres possam ser
entendidos em alguma linguagem descritiva pelos usurios, de forma a permitir uma compreenso mais profunda dos dados;
Conhecimento: o conhecimento definido em termos dependentes do domnio que esto relacionados fortemente com medidas de utilidade, originalidade e compreenso.
Vale ressaltar que em diversos trabalhos o termo KDD utilizado como Data Mining. Porm,
tem-se nesse trabalho uma distino entre esses termos. Na qual Data Mining est inserido dentro
do contexto do KDD, como componente deste processo. A matria prima do KDD composta pelos
dados, que podem estar em diferentes estruturas de armazenamento.
17
Com relao aos dados arquivados, os DWs mantm dados histricos (arquivados) para que se
possa analis-los durante o tempo. Este tipo de dado til para os padres mais exigentes e anlise
de tendncias.
Com relao aos dados externos, normalmente no so adequados com os formatos de dados
internos. Deste modo, necessrio que se execute converses de dados para seus formatos internos
e tipos de dados. importante que haja organizao nas transmisses de dados a partir de fontes
externas. Algumas fontes podem fornecer informaes desde intervalos regulares a intervalos estipulados.
18
3.1.1.5 Metadados
Os metadados em DW se assemelham aos metadados de outros similares como: dados do dicionrio
ou como catlogo de dados em um sistema de gerenciamento de banco de dados. Os metadados
possuem dados sobre os dados contidos nos DWs.
19
Tabela 3.1: Principais Diferenas entre Base de Dados Operacionais e Data Warehouse.
Apesar de no ser obrigatria, a construo de um DW pode reduzir drasticamente a complexidade e a durao do processo de KDD.
20
21
22
O tamanho do conjunto pode apresentar alguns problemas, pois a quantidade de dados reunida,
s vezes, pode impossibilitar a realizao do processo de KDD uma vez que algoritmos usados em
Data Mining conseguem tratar apenas um nmero limitado de registros. Por isso, deve-se utilizar
algumas tcnicas de amostragem para que se possa reduzir o tamanho de dados obtendo um subconjunto que seja relevante e representativo.
A realizao de amostragem crtica dentro do processo de KDD pois, se no forem utilizadas
tcnicas estatsticas adequadas, pode-se gerar um subconjunto de dados no representativo, resultando em anlise que no demonstra a verdadeira situao dos fatos registrados na base de dados
ou distorcendo resultados. Nesse interim, devem ser observados os seguintes aspectos para se fazer
amostragem dos dados:
O tamanho da amostra;
Estratgias para obteno da amostra (tcnicas estatsticas podem ser utilizadas, bem como o
apoio do especialista do domnio);
Homogeneidade dos dados;
Dinmica dos dados (mudana de valores de atributos ao longo do tempo).
Durante a coleta de dados, pode ocorrer dos dados conterem informaes replicadas, campos
faltantes"e rudos. Assim preciso limpar e pr-processar estes dados para que possam ser aplicadas
tcnicas de Data Mining (DM) [Oliveira 2000].
23
Para melhor entender as tcnicas existentes tem-se como exemplo de dados a Tabela 3.2, a qual
possui sete (07) registros e cada um tem seis (06) atributos (A 1 A 5 e classe). Os atributos A 1 A 4 so
numricos, possivelmente representados por escalas diferentes. O atributo A 5 discreto, representado por um caracter (I ou P). A classe discreta, podendo assumir valores como: baixo, mdio
ou alto. Para alguns dados, o valor deste atributo no se encontra disponvel, sendo representado
pelo smbolo ?.
Com estas definies possvel descrever as vrias tcnicas usadas para criar os modelos usados
em minerao de dados. Estas tcnicas podem ser categorizadas nos modelos usados em minerao
24
de dados. Nos seguintes tipos [Santos 2009]: classificao, regresso, agrupamento, sumarizao,
modelagem de dependncia, deteco de mudanas entre outros.
Estas tcnicas no so mutuamente exclusivas entre si, ou seja, tcnicas de classificao como
rvores de deciso [Quinlan 1993] ou regresso so muito usadas para sumarizao. Classificadores
so usados para criar modelos para deteco de desvios, tcnicas de modelagem de dependncia
podem ser usadas para determinar subconjuntos de dados para processamento especializado, e at
mesmo tcnicas hbridas que combinam aspectos de classificao e agrupamento podem ser usadas
quando no for possvel usar dados e categorias de forma confivel.
3.2.5.1.1 Classificao
Descoberta de uma, funo preditiva que consegue classificar um dado em uma de vrias classes discretas que so pre-definidas ou conhecidas. Como por exemplo, segundo a Tabela 3.2, seria a
classificao do contedo de um documento a partir de atributos medidos do mesmo, no caso, determinao do valor do atributo classe"para cada registro, a partir dos valores dos atributos A 1 a A 5 .
A funo de classificao criada usando-se os atributos de vrios exemplos existentes de dados e de
suas classes fornecidas de forma supervisionada. O algoritmo de classificao aprender que testes e
valores devem ser aplicados aos atributos para decidir por uma classe. A classe deve ser um atributo
de tipo discreto, e para que um bom modelo seja gerado, necessrio ter um conjunto razovel de
dados completos para cada uma das classes consideradas para a tarefa [Santos 2009].
3.2.5.1.2 Regresso
Descoberta de uma funo preditiva de forma similar feita na tcnica de Classificao, mas com
o objetivo de calcular o valor numrico real ao invs de obter uma classe discreta. Algoritmos de
regresso podem ser usados para atribuir uma nota numrica (como um fator de indicao) para um
filme baseado em seus atributos. Assim como no caso da Classificao, a funo que calcula a nota
poder ser criada analisando exemplos de filmes, seus atributos e notas j existentes, onde a nota
deve ser um atributo numrico [Santos 2009].
3.2.5.1.4 Sumarizao
Tcnicas que permitem a identificao de uma descrio compacta e inteligvel para os dados (ou
para um subconjunto dos mesmos). Frequentemente possvel sumarizar os dados mesmo com alguma impreciso, e o valor das tcnicas na capacidade de descrever os dados, no necessariamente
25
Tabela 3.3: Classificao dos Algoritmos de AM usados em Data Mining [Oliveira 2000].
em sua preciso. Uma sumarizao grosseira pode ser feita com os dados da Tabela 3.2 e expressa
com regras: documentos classificados como alto"tem o valor do atributo A 2 maior do que 50 e documentos classificados como mdio"tem os valores de A 1 maiores que 100 [Santos 2009].
26
so, regras de produo, rede semntica, etc. Os mtodos de aprendizado podem ser tratados
como: proposicional e relacional [Tecuci et al. 1995].
Paradigma Estatstico: as tcnicas estatsticas, em geral, tendem a focar tarefas em que todos os
atributos tm valores contnuos. Vrios modelos matemticos so utilizados para se construir
os modelos dos dados [Elder IV e Pregibon 1996]
Paradigma Instance-Based: uma forma de classificar um caso lembrar de um caso similar cuja
classe conhecida e assumir que o novo caso ter a mesma classe. Esta filosofia exemplifica os
sistemas instance-based, que classificam casos nunca vistos atravs de casos similares conhecidos [Aha, Kibler e Albert 1991, Quinlan 1993].
Paradigma Conexionista: as redes neurais artificiais (RNA) so construes matemticas relativamente simples que utilizam o mecanismo de paralelismo, onde so conectados um grande
nmero de pequenas unidades de processamento ligadas em rede. As RNA possuem a capacidade de aprender por exemplos e fazer interpolaes e extrapolaes do que aprenderam.
No paradigma conexionista no se procura obter regras como na abordagem simblica, mas
determinar a intensidade de conexes entre neurnios [Braga, Carvalho e Ludermir 2007].
Paradigma Gentico: um classificador gentico consiste de uma populao de elementos de classificao que competem para fazer uma predio, onde os elementos que possuem uma performance fraca so descartados e os mais fortes proliferam, produzindo variaes de si mesmos.
Os algoritmos deste paradigma so conhecidos por algoritmos genticos, os quais baseiam-se
nos mecanismos de seleo natural e gentico para fazer otimizaes e buscas [Goldberg].
Em um sistema de aprendizado preciso representar exemplos, conceitos ou a teoria do domnio
da aplicao na forma de linguagens de descrio. Estas linguagens so [Oliveira 2000]:
Linguagem de descrio de exemplos ou instncias: descreve os exemplos utilizados pelo programa
para aprender conceitos, estabelecendo limites sobre tipos de padres que o sistema pode
aprender;
Linguagem de descrio de hipteses ou conceitos aprendidos: descreve o estado interno de um programa de aprendizado, correspondente a teoria dos conceitos ou padres que existem nos dados, estabelecendo limites sobre o que pode ou no pode ser aprendido (e.g. regras de deciso,
rvores de deciso);
Linguagem de descrio da teoria de domnio ou conhecimento de fundo: descreve todo o conhecimento prvio que o programa possui a respeito do domnio.
Os algoritmos de aprendizado indutivo tambm podem ser classificados de acordo com a possibilidade de integrao de novos exemplos aos modelos encontrados, podendo ser classificados
como [Oliveira 2000]:
No incremental: necessita de que todos os exemplos de treinamento, simultaneamente, estejam
disponveis para que seja induzido um conceito. vantajoso usar esses algoritmos para problemas de aprendizado onde todos os exemplos esto disponveis e, provavelmente, no iro
ocorrer mudanas;
Incremental: rev a definio do conceito corrente, se necessrio, em resposta a cada nova instncia
de treinamento observada. Os exemplos observados so considerados um a um pelo sistema.
Isto , o sistema considera o primeiro exemplo e, de acordo com esse exemplo, constri uma
determinada hiptese; a seguir considera um segundo exemplo, que pode ou no modificar a
primeira hiptese, baseando-se em como esta classifica o segundo exemplo
27
Alguns dos algoritmos utilizados para fazer extrao de padres [Tecuci et al. 1995, Kohavi et al.
1994] so listados na Tabela 3.4. Estes algoritmos so classificados em funo de tipo de aprendizado,
paradigma de aprendizado, linguagem de descrio e modo que novos exemplos so incorporados.
3.2.5.6 Generalizao
Um algoritmo deve ser capaz de reconhecer padres desconhecidos e no decorar exemplos apresentados. Para isso, deve-se utilizar tcnicas estatsticas que reforam a generalizao de um preditor
ou descritor, alm de garantir pequenas taxas de erros. Para isso, as amostras so dividas em conjuntos separados de treinamento e teste, possibilitando dessa forma medir a taxa de erro atravs do
conjunto de teste. Essas tcnicas so [Oliveira 2000]:
Holdout: divide fixamente a amostra de exemplos em dois teros para treinamento e um tero
para teste. A estimativa deste mtodo adequada para grandes conjuntos de dados.
Resampling: realizam experimentos com diferentes parties das instncias em teste e treinamento. Possui como taxa de erro a mdia das taxas de erros calculadas sobre o conjunto de
teste e treinamento, e possui como taxa de erro a mdia das taxas de erros calculadas sobre
o conjunto de teste em casa experimento. Um mtodo bastante utilizado de resampling o
28
29
Minerao de Uso da Web, que envolve a anlise de dados coletados sobre o acesso documentos na Web (em particular logs), geralmente com a inteno de descobrir padres de acesso a
sites ou conjuntos de documentos apara melhorar a qualidade da experincia do usurio ou
para modelar o comportamento dos mesmos.
Segundo Rafael Santos [Santos 2009] esses trs enfoques no so mutuamente exclusivos. Frequentemente usa-se um conjunto de dados como suporte a outro. Algumas abordagens ( [Wu et
al. 2008] e [Utard e Frnkranz 2005]) usam dados de contedo dos documentos e das ligaes entre
documentos para tarefas especficas de minerao, e outras [Berendt et al. 2002] usam logs de servidores juntamente com as estruturas correspondentes dos sites para melhor caracterizar os padres
de acesso dos usurios.
A natureza dos dados que podem ser usados diferenciam-se bastante dependendo do enfoque
dado: dados de contedo so geralmente textuais, com alguma estrutura, dependendo do formato
(HTML, e-mails), que indica sees ou identifica metadados dos documentos. Dados sobre o uso
na Web, em geral so estruturalmente bem mais simples, representados como entradas temporais
em uma base de dados textual (logs) que podem ser praticamente considerados como uma tabela de
banco de dados relacionais. Dados de estruturas da Web so representados como grafos onde vrtices
representam objetos na Web e arestas representam conexes entre estes objetos [Santos 2009].
30
[Utard e Frnkranz 2005] mostram uma nova maneira de incorporar informaes sobre o contedo de dois documentos na Web conectados por hyperlinks. Ao invs de usar todo o texto ou um
sumrio dos documentos, eles usam parte das pginas prximas das declaraes dos hyperlinks. Seu
trabalho apresenta vrias abordagens para identificar proximidade estrutural e textual entre os documentos, e avalia estas abordagens.
[Bhagat, Cormode e Rozenbaum 2007] usam informaes de relaes entre blogs para classificlos atravs de uma abordagem de rotulao de grafos de forma semi-supervisionada. A tcnica demonstrada classificando blogs como semelhantes a alguns j rotulados usando atributos como idade,
sexo e localizao.
31
a descoberta de picos sazonais em registros. A abordagem proposta pelos autores extrai automaticamente perodos densos"de acesso e padres de comportamento frequentes.
3.3.1.5 Outros
[Escudeiro e Jorge 2005] apresentam uma metodologia de recuperao automtica de contedo (colees de documentos) da Web baseada em tpicos que adaptativa e dinmica (podendo mudar de
acordo com mudanas de interesse do usurio). O artigo tambm apresenta uma detalhada anlise
de sistemas semelhantes desenvolvidos anteriormente, por outros autores.
[Markov, Last e Kandel 2006]propem o uso de informao estrutural e contextual para classificao de documentos, e mostram que o uso deste tipo de informao (ordem e proximidade das
palavras, localizao da palavra no documento, marcadores de texto como HTML) oferece resultados
melhores do que os obtidos com classificadores que usam vetores de atributos dos textos.
CAPTULO
4.1.1 Atores
Os Atores so um dos principais elementos das redes sociais, os quais so representados pelos ns.
Estes, geralmente, so pessoas que atuam de forma a moldar as estruturas sociais, atravs da interao e da constituio de laos sociais. No entanto, quando se foca em redes sociais na Internet
o atores podem assumir papis um pouco diferente do padres convencionais. Isso por causa do
distanciamento entre os envolvidos na interao social, principal caracterstica da comunicao mediada por computador, os atores no so imediatamente discernveis. Estes, no ciberespao, podem
ser representados por um weblog, por um fotolog, por um twitter, etc [Recuero 2009].
A importncia destes atores frente s redes sociais est presente em trabalhos como: [Dring
2002], [Lemos 2002], [Sibilia 2003], [Sibilia 2004] entre outros.
32
33
4.1.2 Conexes
Sem juzo de valores as conexes entre os ns das redes sociais so as relaes existentes entre os
mesmos. Estas por usa vez, podem ser percebidas de diversas maneiras. As conexes em uma rede
social so constitudas dos laos sociais, que so formados atravs da interao social entre os atores
[Recuero 2009].
Por determinar as alteraes dentro das estruturas das redes sociais, as conexes so o grande
foco de estudo na anlise de redes sociais. Essas conexes, na Internet, so percebidas graas possibilidade de manter os rastros sociais dos indivduos, que persistem. Um comentrio em um weblog,
por exemplo, permanece ali at algum o delete ou o weblog saia do ar. Essas relaes permanecem
no ciberespao, permitindo ao pesquisador a percepo das trocas sociais.
4.1.3.1 Interaes
A interao pode ser vista como a matria prima das relaes e dos laos sociais. Para autores como
[Cardoso e Iaani 1966], a interao implica em uma reciprocidade da satisfao entre os envolvidos e
compreende tambm as intenes e atuaes de cada um. A interao , portanto, aquela que tem
um reflexo comunicativo entre o indivduo e seus pares, como reflexo social. Deste modo, o estudo
da interao social compreende o estudo da comunicao entre os atores. As interaes dentro do
ciberespao podem ser classificadas como [Recuero 2009]:
Sncrona: aquela que simula uma interao em tempo real (e.g. chats, sistema de mensagens, etc);
Assncrona: aquela que no possui uma expectativa de resposta imediata (e.g. e-mails).
No mbito virtual, as interaes entre atores ocorrem de forma um pouco diferente. Segundo Raquel, [Recuero 2009], h vrios fatores, dentre os quais dois possuem maior relevncia. O primeiro
que os atores no se do imediatamente a conhecer, no existe pistas da linguagem no verbal
e da interpretao do contexto da interao. tudo construdo pela mediao do computador. O
segundo a influncia das possibilidades de comunicao das ferramentas utilizadas pelos atores.
Essas permitem que a interao entre os usurios perdurem mesmo quando os mesmos se encontram desconectados do ciberespao. Com isso, pode-se atribuir a esse ltimo fator o aparecimento
de interaes assncronas.
4.1.3.2 Relaes
O conjunto de interaes sociais forma relaes sociais. Segundo [Wasserman e Faust 1994] so os
padres de interao, que definem uma relao social que envolve dois ou mais agentes ou indivduos
comunicantes. Esses padres (ou regularidades) nas interaes fazem surgir as estruturas.
A relao considerada a unidade bsica de anlise em uma rede social. Entretanto, uma relao
sempre envolve uma quantidade grande de interaes. Por exemplo, dar suporte, pode acontecer
atravs de uma troca de mensagens no Google Talk ou mesmo de um comentrio, ou de ambos.
Receber suporte tambm resultado dessas interaes. No entanto, as relaes no precisam ser
compostas apenas de interaes capazes de construir, ou acrescentar algo. Elas tambm podem ser
conflituosas, ou compreender aes que diminuam a fora do lao social [Recuero 2009].
As relaes podem ser mediadas pelo computador, da mesma forma que as interaes. A mediao pelo computador traz aspectos importantes para a relao social. Este distanciamento proporciona, por exemplo, anonimato sob muitas formas, j que a relao entre o corpo fsico e a personalidade do ator j no imediatamente dada a conhecer. Logo, mais fcil iniciar e terminar relaes,
34
pois muitas vezes, elas no envolvem o eu"fsico do ator. Alm do mais, barreiras como sexualidade,
cor, limitaes fsicas e outras no so imediatamente dadas a conhecer, proporcionando uma maior
liberdade aos atores envolvidos na relao, que podem reconstruir-se no ciberespao [Recuero 2009].
4.1.3.3 Laos
Wellman [Wellman 2001] define laos como,
Laos consistem em uma ou mais relaes especficas, tais como proximidade, contato frequente,
fluxos de informao, conflito ou suporte emocional. A interconexo destes laos canaliza recursos
para localizaes especficas na estrutura dos sistemas sociais. Os padres destas relaes - a estrutura
da rede social - organiza os sistemas de troca, controle, dependncia, cooperao e conflito
Physical Place and Cyberplace: The Rise of Personalized Networking - BARRY WELLMAN
O lao a efetiva conexo entre os atores que so envolvidos na interaes. Laos so formas mais
institucionalizadas de conexo entre atores, constitudos no tempo e atravs da interao social. Um
lao constitudo a partir das interaes e das relaes, sendo denominado lao relacional [Recuero
2009].
No entanto, Breiger [Breiger 1974] tambm explica que os laos podem ter outra constituio,
atravs da associao. Para ele as relaes sociais constituem a conexo entre os indivduos. Entretanto, a conexo entre um indivduo e uma instituio ou grupo torna-se um lao de outra ordem,
representado unicamente por um sentimento de pertencimento. Essa caracterstica representa um
lao associativo.
Para Breiger o lao social no depende apenas das interaes. Deste modo, laos relacionais so
constitudos atravs de relaes sociais, ou seja, somente acontecem atravs da interao social. Laos de associao independem dessa ao, sendo necessrio apenas um pertencimento a um determinado local, instituio ou grupo.
possvel classificar os laos em mais dois tipos [Recuero 2009]:
Laos fortes: so aqueles que se caracterizam pela intimidade, pela proximidade e pela intencionalidade em criar e manter uma conexo entre duas pessoas. Em outras palavras, esses laos
caracterizam as relaes duradouras entre amigos, por exemplo. Laos fortes constituem-se
em vias mais amplas e concretas para as trocas sociais.
Laos fracos: caracterizam-se por relaes esparsas, as quais no so ntimas ou prximas.
possvel observar esse tipo de relao quando se faz referncia amigos de pessoas conhecidas,
os quais no se tem uma relao intima ou prxima. Nesses tipos de laos as trocas sociais so
mais difusas. Laos fracos so fundamentais, pois conectam os clusters nas redes sociais.
Vale ressaltar que ambos os laos, fortes e fracos, so sempre relacionais pois so consequncia
da interao que, atravs do contedo e das mensagens constituem uma conexo entre os atores envolvidos. Um outro aspecto que deriva da caracterstica da fora dos laos que nem todos estes
laos so recprocos. Por exemplo, considere um ator A que tem como melhor amigo outro ator B
(lao forte) e que B, em retorno, no considera A como uma pessoa ntima ou at mesmo um amigo
(lao mais fraco). Isso mostra que os laos que conectam esses dois indivduos possuem foras diferentes, tratando-se de laos assimtricos. Os laos so considerados simtricos quando possuem a
mesma fora em ambos os sentidos de conexo [Recuero 2009].
Laos sociais mediados pelo computador costumam ser do tipo multiplexo. Laos desse tipo so
caracterizados por possurem, em sua constituio, diversos tipos de relaes sociais. Por exemplo,
um mesmo grupo de amigos interage entre si dentro do ambiente de trabalho, na academia e em
momentos de lazer. Laos multiplexos refletem interaes que acontecem em diversos espaos e
sistemas.
35
36
Essas redes comumente so pequenas, pois a quantidade de comentrios recprocos, que realmente representam trocas sociais, concentrada em poucos ns, tanto pelo investimento, quanto
pelo tempo necessrio para que as trocas sociais aconteam. Em outras palavras, a redes emergentes dependem do tempo (assim como seu comprometimento e investimento) disponvel para que
as interaes entre os atores sociais no computador ganhem fora. Nesse tipo de rede os atores so
responsveis por manter um certo fluxo de dados, de modo a no deixar que esses sejam cessados
e a rede esquecida, e assim perdendo seu valor/contribuio para o todo da rede. Assim, quando
analisadas, as redes desse tipo mostram clusters altamente conectados, conforme mostra a Figura
4.2 [Recuero 2009].
37
Para analisar as trocas sociais nesse tipo de rede investiga-se os comentrios trocados, as conversaes, a rede viva". Deste modo, redes emergentes so centradas na interao, constitudas
atravs da interao do tipo mtuo. Essa interao social mtua forma redes sociais nas quais os laos so constitudos de um pertencimento relacional, que emergente, caracterizado pelo sentir-se
parte"atravs das trocas comunicacionais [Primo 2003].
(a)
(b)
38
utilizam essa tecnologia para seus negcios, e a chamam de Anlise de Redes Sociais Organizacionais
(ARSO).
39
Grupo Um grupo definido como um conjunto finito de atores que esto relacionados entre si.
Ponte Segundo Wasserman [Wasserman e Faust 1994] os laos fracos so de grande importncia nas
redes sociais, uma vez que estes apresentam a funo de ligar partes de uma rede social que no
so ligadas diretamente atravs de laos fortes, o que d origem ao conceito de ponte (bridges).
Pontes so atores que interligam grupos. Retirando-se os atores pontes, a rede ficaria isolada.
Densidade A densidade talvez a mtrica mais comummente utilizada na conectividade das redes.
Esta calculada como a proporo do nmero de reais ligaes com o nmero de possveis
ligaes. Como as conexes podem ser bi-direcionais (entrando e saindo do ator), para relaes
no-direcionas (e.g. colaborao, compartilhamento) a densidade da rede calculada como
mostra a equao 4.1:
Densi d ad e = n/(N (N 1)/2)
(4.1)
4.3.2.1 Centralidade
Posies estratgicas tambm fornecem poderes aos indivduos de controlarem a circulao de recursos na rede. Outras medidas de centralidade calculam quanto um ator permanece frente a outros
na rede (betweenness), e como eles so posicionados na rede como um todo para se tornarem caminhos de recursos e informaes que circulam a rede. Atravs de qualquer medida atores que ocupam
posies centrais desempenham papis importantes nas redes [Mika 2007].
Atores no-centrais tambm so importantes para se identificar. Atores isolados, e outros perifricos so deixados de lado do fluxo central (mainstream") de atividades da rede. Estes podem receber
recursos com um certo atraso, e talvez at depois que sua utilidade seja expirada. Esses atores esto,
geralmente, insatisfeitos com seu papel na rede, e esto propensos a sairem da mesma [Mika 2007].
4.3.2.2 Cliques
Outra medida importante para redes a medida em que os membros da rede interna formam panelinhas", clusters ou componentes. Novamente, configuraes bsicas dos laos podem revelar quem
est ligado a quem nos subgrupos da rede. Como um membro do grupo, isto pode ser bvio, mas
as associaes podem parecer que no so as esperadas, com base em critrios inesperados. Novamente, essas caractersticas so teis para entender como uma rede est operando [Mika 2007].
CAPTULO
40
41
5.1.3 Tempo
Tempo o terceiro elemento no processo de difuso. A incluso do tempo como uma varivel na
pesquisa sobre difuso um de seus pontos fortes. Vale ressaltar que mensurar o tempo uma tarefa
um tanto quanto delicada, desse modo v-se necessrio tratar essa varivel de forma a representar
ao mximo a realidade. A dimenso de tempo envolvida na difuso nos seguintes cenrios [Rogers
2003]:
Processo inovao-deciso: processo de aceitar/rejeitar uma inovao. Composto por: conhecimento, persuaso, deciso, implementao e confirmao;
Demora na aceitao a inovao de um indivduo ou outra unidade de adoo: a demora
ou precocidade cuja uma inovao adotada - comparando-se com outros membros de um
sistema;
Taxa de aceitao de inovao em um sistema: geralmente mensurada atravs do nmero de
membros de um sistema que adotam a inovao em um perodo dado.
42
43
44
o alcance de seu objetivo. A homophilia entre os agentes em uma vizinhana a informao que os
agentes devem ponderar para decidir entre um espao fsico em detrimento de outros, caracterizando um ciclo de incerteza. Essa incerteza surge da inabilidade do agente em determinar o escopo
fsico onde ele pode obter a maior homophilia do sistema. Enquanto que a inovao caracterizada
quando um agente decide seguir um grupo, seu lder em potencial presente, ou no [Noronha et al.
2009].
O modelo multiagente proposto considera os seguintes elementos em sua composio:
A arquitetura do agente Pessoa, que representa um indivduo submetido ao processo de inovaodeciso;
O ambiente fsico, que representa o local onde os agentes esto fisicamente distribudos e iteragem uns com os outros.
Figura 5.2: Viso do Ambiente para Definio da Vizinhana [Noronha et al. 2009].
A topologia representada em uma grade de duas dimenses (2D Grid) e, durante a simulao,
cada clula pode conter somente um nico agente. A interao dos agentes com o ambiente fsico
ocorre por meio de um mecanismo de leitura delimitado pelos quandrantes. Esse mecanismo considera que um agente direcionado a um rea onde, em mdia, os agentes possuem um maior grau
de homphilia com ele. A escolha dessa rea baseada na definio de quatro quadrantes. O comprimento e largura cada um so determinados pelo raio do escopo do agente (que definido de acordo
com sua categoria). A Figura 5.2 ilustra o cenrio descrito [Noronha et al. 2009].
No exemplo ilustrado o agente em questo possui um raio de trs (03) unidades de leitura, e a
partir de sua posio ele divide sua vizinhana em quadrantes de um (01) a quatro(04). Para realizar
tal tarefa, o agente efetua os seguintes passos:
1. Estabelecimento dos pontos de referncia para a escolha do quadrante, ilustrado na Figura 5.3;
45
Agente
Figura 5.3: Pontos de Referncia para Estabelecer a Vizinhana [Noronha et al. 2009].
46
Nvel
0
1
2
3
Escopo
Raio Categoria
12
OL
9
IN
6
WF
3
SF
Onde OL, IN, WF eSF significam respectivamente: Lderes de Opinio, Inovadores, Seguidores
Fracos e Seguidores Fortes.
O atributo imagem prria (mostrado na Tabela 5.2) modelado como uma varivel discreta aleatria que varia de 0 100.
O atributo sociabilidade (mostrado na Tabela 5.3) modelado como uma varivel discreta aleatria que varia de 0 25.
47
Nvel
0
1
2
3
Imagem Prria
Escala
Categoria
0 25
SF
26 50
WF
51 75
OL
76 100
OL e IN
Nvel
0
1
2
3
Sociabilidade
Escala Categoria
05
IN
6 10
IN e WF
11 16
WF e SF
17 25
OL
estabelece o quo similar ele com outros agentes. As regras so descritas pelas Tabelas 5.4, 5.5, 5.7 e
5.6. O formato dessas tabelas mostra, em cada uma, como cada categoria de agente visualiza o grau
de homophilia relacionado a um agente observado. As linhas de cada tabela representam os atributos
do agente observado, os quais so: escopo (EP), imagem prpria (SI) e sociabilidade (SC). As colunas,
por sua vez, representam a escala de similaridade, a qual consegue-se encontrar um representante
na escala de diferena relacionado ao agente observado, para cada um destes atributos. Na escala
que vai de -3 3, o valor zero (0) representa o total de similaridade entre o agente observador e o
agente observado. As escalas negativa e positiva representam respectivamente, que o atributo do
agente observado est em uma diferena inferior ou superior. Desse modo, tem-se que o grau de
homophilia entre dois agentes vai de 0,0 1,0. Isso significa que zero (0,0) no existe similaridade
alguma, e que um (1,0) representa uma total similaridade para a homophilia [Noronha et al. 2009].
Tabela 5.4: Ponto de Vista do Agente Lder de Opinio
Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade
Lderes de Opinio.
-3
-2
-1
0
1,00 0,75 0,50 0,00
0,50 0,75 1,00 0,00
0,00 0,25 0,50 0,75
1
0,25
0,25
0,00
2
0,00
0,00
0,00
3
0,00
0,00
0,00
A Tabela 5.4 mostra o ponto de vista dos Adotantes Precoces (Lderes de Opinio). Nessa temse que a semelhana total acrescenta uma pontuao pequena para o grau de homophilia. Neste
caso essa categoria de agente procura ser um nodo central em seu escopo, evitando outros Lderes de
Opinio, de forma que minimize seu grau de incerteza sobre sua liderana dentro de seu escopo. No
caso de houver uma aproximao junto a outro Lder de Opinio, sua liderana ameaada, uma vez
que essa situao oferece a opo de escolha para sua liderana. Essa categoria de agente tem como
objetivo difundir sua liderana sobre os outros agentes no ambiente fsico. De acordo com o valores
da escala que vo de -3 -1 percebe-se que existe um certo equilibrio entre homophilia e heterophilia.
Analisando o atributo Escopo, quanto maior a diferena maior ser o grau de homophilia observado
para esse atributo. Isso por causa que o agentes representando a Maioria Precoce (Seguidores Fracos)
possuem o menor valor de nvel de escopo, e os Lderes de Opinio possuem interesse em seguidores
em seu escopo. Os atributos Imagem Prpria e Sociabilidade atribuem um fator de equilibrio entre
48
as extremidades da escala. Isso causa uma atrao por agentes com um certo grau de semelhana
[Noronha et al. 2009].
Tabela 5.5: Ponto de Vista do Agente Inovador.
Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade
-3
0,00
0,25
0,00
Inovador
-2
-1
0,00 0,00
0,50 0,75
0,00 0,00
0
0,50
1,00
1,00
1
0,00
0,00
0,25
2
0,00
0,00
0,50
3
0,00
0,00
0,75
No caso dos Inovadores percebe-se uma maior homophilia entre agentes semelhantes. Tambm
possvel visualizar que na maior parte da escala no existe ponutao de similaridade para o grau de
homophilia. Os Inovadores possuem um alto valor de Imagem Prpria, assim essa categoria possui
uma baixa afinidade com outros agentes. Isso est realcinado a sua natureza cosmopolitana, que
faz com que os agentes Inovadores se concentrem na periferia do sistema, na fronteira com outros
agentes. Vale ressaltar que a varivel Escopo marca apenas 0,5 no grau de homophilia, e o atributo
Sociabildiade fornece um fator de equilibrio entre homophilia e heterophilia. Nesse caso, o atributo
Sociabilidade fornece uma certa atrao de Inovaderes para Lderes de Opinio. A Tabela 5.5 mostra
o ponto de vista dos agentes Inovadores.
Tabela 5.6: Ponto de Vista do Agente Seguidor Fraco.
Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade
-3
0,00
0,50
0,00
Seguidor Fraco.
-2
-1
0
0,00 0,25 1,00
0,75 1,00 0,00
0,25 0,50 0,75
1
0,50
0,25
1,00
2
0,75
0,00
0,75
3
0,75
0,00
0,75
A caracterstica comportamental mais importantes do agentes Seguidores Fracos (Maioria Precoce) e Seguidores Fortes (Retardatrios) a tendncia em formar grupos mais uniformes ao redor
dos Lderes de Opinio. O valores do grau de homophilia dessas duas categorias so baseados nessa
tendncia. E suas atraes para com as outras categorias. A Tabela 5.6 representa a viso dos agentes
Seguidores Fracos, e a Tabela 5.7 a viso do agente Seguidores Fortes.
Tabela 5.7: Ponto de Vista do Agente Seguidor Forte
Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade
-3
0,00
0,00
0,00
Seguidor Forte.
-2
-1
0
0,00 0,00 0,25
0,00 0,00 0,25
0,25 0,50 0,75
1
0,50
0,50
1,00
2
0,75
0,75
0,00
3
1,00
1,00
0,00
CAPTULO
Categoria
Inovadores
Lderes de Opinio
Seguidores Fracos
Seguidores Fortes
%
2,5
13,5
68,8
16,0
Experimento 02
07
20
98
22
49
50
zao dos lderes de opinio de seus seguidores e (iii) como ocorre a dinmica do contedo social em
um sistema de agentes difusores de informao ?
Grid (a)
Grid (b)
Grid (c)
Figura 6.1: Visualizao do Comportamento dos Seguidores Fortes [Noronha et al. 2009].
Vale ressaltar que esses agentes permanecem juntos quando encontram outros da mesma categoria. Com essa configurao possvel responder as questes (i) e (ii) sobre os aspectos levantados
durante os experimentos.
51
Analisando a categoria de agentes Inovadores possvel identificar seu comportamento conforme citado na Seo 5.2. Suas ligaes so heterogneas, a cada passo da simulao se liga com
agentes diferentes do que estava ligado anteriormente, conforme mostram as Figuras 6.2, 6.3 e 6.4.
Devido ao seu comportamento cosmopolitano no percebe-se sua intereo com mais de um agente
por passo de simulao. Devido as suas caractersticas sociais, tambm possvel encontr-los em
regies perifricas de rede. Na Figura 6.2 percebe-se que este forma relaes frente a agentes em
regies afastadas do centro do sistema social. Na Figura 6.3, mesmo fazendo parte do grupo mais
interconectado da rede, esse agente se localiza em sua periferia, no interagindo com o centro da
rede. Nesse mesmo ciclo de simulao (400) outro agente Inovador tambm se encontra afastado
do centro do sistema. Na Figura 6.4 o comportamento desses agentes permanece quase que inalterado. No entanto, devido baixa densidade de agentes, nos ciclos 400 e 600 o agente Inovador-2
estabelece uma relao fraca com outros dois agentes: Maioria Precoce-28 e Maioria Precoce16. Essa baixa densidade de agentes proporciona uma menor variedade de relacionamentos durante
a simulao, fazendo com que muitas relaes se formem.
52
A categoria de agentes Adotantes Precoces se concentra, em grande parte, em grupos que proporcionam muitas relaes diversificadas. Na Figura 6.2 o mximo de agentes ligados aos adotantes
precoces um, isso talvez pelo fato dessa etapa da simulao estar com a configurao inicial do
sistema. Na Figura 6.3 o papel dessa categoria ganha um papel importante para a dinmica dos grupos, alguns agentes adotantes precoces comeam a possuir mais seguidores e agente Adotante
Precoce-6 representa uma ponte entre dois grandes grupos. Esse agente possui um papel importante nessa etapa da simulao, pois consegue unir dois grupos heterogneos. Na Figura 6.4 a configurao desses similar a da Figura 6.2, mas os grupos agora se mostram mais condensados. O
nmero de agentes Adotantes Precoces em grupos mais densos aumentou, e cerca de 100% dos
agentes dessa categoria se encontram em grupos com quatro ns ou mais.
53
54
Fig(a)
Fig(b)
Fig(c)
Fig(d)
Figura 6.5: Visualizao do Comportamento dos Seguidores Fortes [Noronha et al. 2009].
Grid (a)
Grid (b)
Grid (c)
55
Os agentes Inovadores durante todos os passos da simulao mais estabelecem ligaes do que
as recebem. Na Figura 6.7 os agentes Inovador-2 e Inovador-3 estabelecem relaes formando
dades, enquanto o agente Inovador-1 faz parte de uma trade, e recebe uma ligao. Na Figura 6.8
a proporo de ligaes feitas e recebidas mantm a mesmo proporo, de dois para um. J na Figura
6.9 todos os agentes Inovadores estabelecem relaes, ou seja, no existe nenhuma seta entrante
em seu n.
56
Para o escopo dos agentes da categoria adotantes precoces escolheu-se observar a dinmica de
dois agentes: Adotante Precoce-13 e Adotante Precoce-12. curioso como a densidade de
agentes influencia nas relaes estabelecidas por eles. Na Figura 6.7 o agente Adotante Preococe13 se encontra um um grupo denso, no qual existem muitas relaes, e este exerce um papel de lder
de opinio junto com um agente Adotante Precoce-11. J o agente Adotante Precoce-12 se encontra em uma situao que, de acordo com [Rogers 2003] no confortvel para seu esteretipo.
Esse agente faz parte de uma relao direta com outro agente adotante precoce. Na Figura 6.8 os
papis comeam a se inverter, o agente Adotante Precoce-13 deixa de fazer parte de um grupo
grande para formar uma dade, e o agente Adotante Precoce-12 deixa sua posio desconfortvel
e passa a exercer influncia em um agente de categoria diferente da sua. Na Figura 6.9 observa-se um
inverso de papis entre esse dois agentes, agora o agente Adotante Precoce-13 se encontra na
mesma situao em que o agente Adotante Precoce-12 se encontrava no comeo da simulao,
ou seja, divide uma relao com um agente de mesma categoria. J o agente Adotante Precoce-12
alm de fazer parte de uma trade, estabele relao com um agente da categoria maioria precoce, a
qual mais interessante para ele.
57
Observando o comportamento da categoria de agentes retardatrios e maioria precoce percebese uma inverso de papis. No to especfica quanto a dos adotantes precoces, mas de uma maneira
mais geral. Olhando somente para o escopo de categoria, na Figura 6.7 existe um agente (Maioria
Precoce) que no se relaciona com nenhum outro tipo de agente. Na Figura 6.8 agentes dos tipo
retardatrio e maioria preoce dividem essa condio. E na Figura 6.9 somente agentes da categoria
retardatrio ficam sem estabelecer relao alguma.
58
copo desse experimento. Para isso coletou-se a seguinte amostragem de agentes: AgentEarlyMajority9, AgentEarlyMajority-23, AgentEarlyMajority-24, AgentLaggard-35 e AgentLaggard-40.
Os atributos para esses agentes so descritos na Seo 6.1.2.
Nesse experimento, como descrito na Seo 6.1.1.1, existe uma baixa densidade de agentes, ou
seja, as interes ficam mais limitadas. Os agentes no possuem tantos lderes para que possam, a
cada instante, sofrer mudanas drsticas em seu comportamento. Portanto a rvore de deciso que
descreve as aes tomadas ao longo da simulao tendem a ser mais simples. A Figura 6.10 mostra
as decises que, ao longo da simulao, direcionaram alguns agentes a seguirem ou no o agente
AgentEarlyAdopter-3. As interaes com outros agentes no influenciam na tomada de deciso,
em decorrncia da baixa densidade populacional.
Na Figura 6.11, por se tratar de um agente mais interconectado, seus seguidores se deparam com
outros agentes. Fazendo com que a deciso de seguir, ou no este lder de opinio se torne um pouco
mais trabalhosa. Logo prximo raiz da rvore percebe-se que os agentes que interagem com o
agente AgentEarlyAdopter-4 levam em consideraao a homophilia pelos lderes de opinio em sua
proximidade. Na raiz da rvore de deciso possvel ver que todos os agentes que possuem um grau
de homophilia igual, ou inferior 0.403, em relao aos agentes lderes de opinio acabaram por no
seguir o lder de opinio em questo (AgentEarlyAdopter-4) Segundo a Figura 6.11 2835 instncias
no o seguiram nessa etapa de decises. Os que obtiveram um grau de homophilia superior a 0.403
foram direcionados a outro n de deciso, no qual mostra que agentes com um grau de homophilia
inferior a 0.473 seguiram o lder analisado, mas os que possuiam tal valor superior 0.473 foram
segregados em outro n de deciso. De forma anloga agentes com grau de homophilia entre os
59
lderes de opinio, inferior ou igual, 0.675 no seguiram o lder analisado. J os que obtiveram um
grau superior a 0.675 passaram a considerar outro tipo de homophilia para seguir ou no o agente
AgentEarlyAdopter-4, a homophilia mdia do quadrante. Nesse ltimo n da rvore de deciso, os
agentes que obtiveram um grau mdio de homophilia (sob o quandrante analisado) inferior a 0.197
no estabeleceram relao alguma com o lder em questo, mas os que obtiveram um grau superior
a 0.197 o seguiram com sucesso.
Nesse experimento, conforme descrito na Seo 6.1.1.2, existe uma alta concentrao de agentes
espalhados pelo Ambiente F
sico. Desse modo, o nmero de interaes entre os agentes superior
quando comparado com as do primeiro experimento. Os lderes de opinio analisados nesse experimento mostram comportamentos mais complexos, em relao ao primeiro experimento, e mais
divergentes quando comparados entre si. A Figura 6.12 mostra a rvore de deciso formada pelos
agentes que possuem como lder de opinio o agente AgentEarlyAdopter-17, com mais ramificaes e mais variveis envolvidas. Mesmo com muitos agentes percebe-se que os ns da rvore levam
em considerao apenas caractersticas relacionadas homophilia com os lderes de opinio, com o
quadrante e com o lder de opinio em questo.
O nmero de ramificaes observado nessa rvore representa o quanto interconectado o agente
AgentEarlyAdopter-17 . A disposio da rvore apresentada possibilita observar que, em quase
todos os ns possvel separar um agente que est ou no seguindo o lder de opinio analisado.
importante ressaltar que o algortmo utilizado est sujeito a uma porcentagem de erros, e portanto
representa parcialmente a simulao. A notao false(7660/1), para o atributo homophilia com o
lder, mostra que de 7660 instncias analisadas corretamente um erro ocorreu. Em outras palavras,
60
indica que o agente AgentEarlyAdopter-17 no est sendo seguido (atributo false) deveria estar
sendo seguido (atributo true).
A Figura 6.13 mostra a rvore de deciso que descreve o comportamento dos agentes que seguem,
ou no, o agente AgentEarlyAdopter-18. Mesmo em um ambiente com muitos agentes o lder
de opinio analisado no se mostra to interconectado quanto o agente AgentEarlyAdopter-17.
Apresentando, desse modo, uma rvore de deciso menos complexa e com menos caractersticas
levadas em considerao. No entanto, mesmo com um padro de aes menos complexas os agentes
analisados esto sob a influncia de outros lderes de opinio, o que os leva a consider-los antes de
tomar alguma deciso. Isso visto logo na raz da rvore onde o atributo HomophilyEarlyAdopter
considerado para a tomada de decises. Em linhas gerais o agente AgentEarlyAdopter-18 se
mostra muito menos "seguido"do que o agente AgentEarlyAdopter-17, o qual mostra um padro
extremamente complexo com relao aos agentes que o seguem.
CAPTULO
C ONSIDERAES F INAIS
Redes Sociais podem ser entendidas, de forma geral, como um conjunto de ns scio-relevantes conectados por uma ou mais relaes. Estes ns, tambm conhecidos como membros da rede, so as
unidades que so conectadas pelas relaes cujos padres estuda-se neste trabalho. Muitas vezes
essas unidades so pessoas ou organizaes, mas a princpio toda unidade que se conecta a outras
unidades pode ser estudada como ns dentro de uma rede. As redes sociais, sejam elas virtuais ou
no, possuem elementos que no so to facilmente identificados quanto em uma rede comum.
Nesse trabalho analisou-se uma rede social virtual que tem como objetivo simular as interaes
sociais entre diversos tipos de unidades: lderes de opinio, inovadores, seguidores fortes e seguidores
fracos. Onde todos representam seres humanos, com caractersticas prprias que os levam a tomar
decises diferentes. Mesmo que sejam de um mesmo tipo, durante as simulaes possvel observar que, assim como em um mundo real, as pessoas mesmo pertencendo a um mesmo grupo acabam mostrando comportamentos distintos. O grupo no obrigatoriamente dita o comportamento
do indivduo, mas o caracteriza em alguns pontos. Essa condio, ao mesmo tempo que permite a
caracterizao dos agentes e de seu grupo, faz com que haja um certo padro em suas aes. No
entanto, em um sistema social com muitos agentes presentes e interagindo entre si, possibilita um
comportamento complexo que emerge de suas aes. Representando dessa forma o quo complexo
um sistema social .
Este trabalho se deteve analise da dinmica e do contedo social sobre o ambiente de difuso
de informao proposto por [Rogers 2003], utilizando-se suas mtricas e adaptando-se suas teorias
para que fosse possvel observar a relao entre os agentes que so formadores de opinio e os outros agentes em um sistema social. Muitas caractersticas de um sistema social real precisaram ser
omitidas em pr de um estudo direcionado anlise das relaes entre difusores de informao,
baseando-se em suas homophilia. Isso porque em uma rede social real muitos fatores esto presentes como: psicologia cognitiva, gostos pessoais, nicho social, entre outros. O que tornaria a tarefa de
simular e analisar um sistema social impossvel. Mesmo simplificando o modelo teorizado por [Rogers 2003], a dinmica social que envolve a difuso de informao, baseada nas homophilias entre
os agentes propostos, e ainda assim obtm-se uma grande complexidade no assunto. Tal complexidade levanta inmeras possibilidades de pesquisas, cada uma focando um aspecto social relevente.
De forma que em estudos futuros seja possvel integrar novas tecnologias e teorias consolidando o
conhecimento obtido e retratando com mais fidelidade a realidade.
Sob o vis do escopo desse trabalho contribui-se para que estudos futuros. Envolvendo redes
socias, possam ser trilhados. Estabeleceu-se uma linha de trabalho iniciada desde a difinio de
sistemas complexos (ver Seo 2) at um estudo vertical sobre uma rede social em especfico. Deste
61
62
modo, prximos estudos nessa rea podem continuar sem que haja a necesidade de recriar as bases
tericas aqui utilizadas.
R
R EFERNCIAS
[Aha, Kibler e Albert 1991]AHA, D. W.; KIBLER, D. F.; ALBERT, M. K. Instance-based learning algorithms. Machine Learning, v. 6, p. 3766, 1991.
[Anand, Mulvenna e Chevalier 2003]ANAND, S. S.; MULVENNA, M. D.; CHEVALIER, K. On the deployment of web usage mining. In: EWMF. [S.l.: s.n.], 2003. p. 2342.
[Baeza-Yates, Jr. e Ziviani 2006]BAEZA-YATES, R. A.; JR., . R. P.; ZIVIANI, N. Understanding content
reuse on the web: Static and dynamic analyses. In: WEBKDD. [S.l.: s.n.], 2006. p. 227246.
[Barabsi 2003]BARABSI, A.-L. Linked:
How Everything Is Connected to Everything Else
and What It Means for Business, Science, and Everyday Life. Plume Books, 2003. Paperback. Set book for Open University course T214. ISBN 0452284392. Disponvel em:
<http://www.worldcat.org/isbn/0452284392>.
[Berendt et al. 2002]BERENDT, B. et al. The impact of site structure and user environment on session
reconstruction in web usage analysis. In: WEBKDD. [S.l.: s.n.], 2002. p. 159179.
[Bhagat, Cormode e Rozenbaum 2007]BHAGAT, S.; CORMODE, G.; ROZENBAUM, I. Applying linkbased classification to label blogs. In: WebKDD/SNA-KDD. [S.l.: s.n.], 2007. p. 97117.
[Borgatti, Everett e Freeman 2002]BORGATTI, S. P.; EVERETT, M. G.; FREEMAN, L. C.
UCINET 6 For Windows: Software for Social Network Analysis. 2002. Disponvel em:
<http://www.analytictech.com/>.
[Bourdieu 1986]BOURDIEU, P. The forms of capital. In: In J. Richardson (Ed.), Handbook of Theory
and Research for the Sociology of Education. [S.l.: s.n.], 1986.
[Braga, Carvalho e Ludermir 2007]BRAGA, A. de P.; CARVALHO, A. P. de Leon F. de; LUDERMIR, T. B.
Redes Neurais Artificiais. Brasil: LTC, 2007. ISBN 9788521615644.
[Branding 2008,]BRANDING, T. Organizaes e Marcas como Propriedades Emergentes. 2008,.
[Breiger 1974]BREIGER, R. L. The duality of persons and groups. Social Forces, v. 53, n. 2, p. 181190,
1974. Disponvel em: <http://www.jstor.org/stable/2576011>.
[Buchanan 2003]BUCHANAN, M. Nexus: Small Worlds and the Groundbreaking Theory of Networks.
[S.l.: s.n.], 2003. Paperback. ISBN 0393324427.
63
64
[Cardoso e Iaani 1966]CARDOSO, F. H.; IAANI, O. Book. Homem e sociedade : leituras basicas de sociologia geral / [Organizacao e introducao de] Fernando Henrique Cardoso e Octavio Innie. 3 ed. rev..
ed. [S.l.]: Companhin Editora Nacional, Sao Paulo :, 1966. 317 p. ; p.
[Castilho 2004]CASTILHO, C. Effective Web Crawling. 1148 p. Tese (Doutorado) University of
Chile, Novembro 2004.
[Cazella 2005]CAZELLA, S. C. Minerao de Dados na WEB. 1033 p. Dissertao (Mestrado) Universidade Federal do Rio Grande do Sul, UFRGS - Instituto de Informtica - Programa de PsGraduao em Computao, Novembro 2005.
[Coleman 1988]COLEMAN, J. S. Social capital in the creation of human capital. The American Journal of Sociology, The University of Chicago Press, v. 94, 1988. ISSN 00029602. Disponvel em:
<http://dx.doi.org/10.2307/2780243>.
[Costa et al. 2007]COSTA, L. da F. et al. Characterization of complex networks:
A survey of measurements. Advances In Physics, v. 56, p. 167, 2007. Disponvel em:
<http://dx.doi.org/10.1080/00018730601170527>.
[Creamer et al. 2007]CREAMER, G. et al. Segmentation and automated social hierarchy detection through email network analysis. In: WebKDD/SNA-KDD. [S.l.: s.n.], 2007. p. 4058.
[Creamer e Stolfo 2009]CREAMER, G.; STOLFO, S. J. A link mining algorithm for earnings forecast and
trading. Data Min. Knowl. Discov., v. 18, n. 3, p. 419445, 2009.
[Degenne e Forse 1999]DEGENNE, A.; FORSE, M. Introducing Social Networks. [S.l.]: Sage Publications, 1999.
[Dring 2002]DRING, N. chpersonal home pages on the web: A review of resear. Journal of
Computer-Mediated Communication, v. 3, n. 7, Abril 2002.
[Durant e Smith 2006]DURANT, K. T.; SMITH, M. D. Predicting the political sentiment of web log posts
using supervised machine learning techniques coupled with feature selection. In: WEBKDD. [S.l.:
s.n.], 2006. p. 187206.
[Elder IV e Pregibon 1996]ELDER IV, J. F.; PREGIBON, D. A statistical perspective on knowledge discovery in databases. American Association for Artificial Intelligence, Menlo Park, CA, USA, p. 83113,
1996.
[Escudeiro e Jorge 2005]ESCUDEIRO, N. F.; JORGE, A. M. Semi-automatic creation and maintenance
of web resources with webtopic. In: EWMF/KDO. [S.l.: s.n.], 2005. p. 82102.
[Esposito et al. 2003]ESPOSITO, F. et al. Evaluation and validation of two approaches to user profiling.
In: In: Proc. of the ECML/PKDD-2003 First European Web Mining Forum. [S.l.: s.n.], 2003. p. 5163.
[Euler 1741]EULER, L. Solutio problematis ad geometriam situs pertinentis. Commentarii Academiae
Scientiarum Imperialis Petropolitanae, v. 8, p. 128 140, 1741.
[Evans 2009,]EVANS, M. K. 175 Data Visualization Resources Logo. 2009,.
[Fayyad et al. 1996]FAYYAD, U. et al. The kdd process for extracting useful knowledge from volumes
of data. Communications of the ACM, v. 39, p. 2734, 1996.
[Feofiloff, Kohayakawa e Wakabayashi 2009]FEOFILOFF, P.; KOHAYAKAWA, Y.; WAKABAYASHI, Y.
Uma Introduo Sucinta Teoria dos Grafos. IME-USP: [s.n.], Maio 2009. Online. Disponvel em:
<http://www.ime.usp.br/ pf/teoriadosgrafos/>.
65
[Garton, Haythornthwaite e Wellman 1997]GARTON, L.; HAYTHORNTHWAITE, C.; WELLMAN, B.
Studying online social networks. Journal of Computer-Mediated Communication, v. 3, n. 1, p. 0, 1997.
Disponvel em: <http://dx.doi.org/10.1111/j.1083-6101.1997.tb00062.x>.
[Goldberg]GOLDBERG, D. E. Genetic Algorithms in Search, Optimization, and Machine Learning. 1.
ed. [S.l.]: Addison-Wesley Professional. Hardcover. ISBN 0201157675.
[Group 2010]GROUP, S. D. Swarm Main Web Page. [S.l.]:
Http://www.swarm.org/.
[Gryc et al. 2007]GRYC, W. et al. Looking for great ideas: Analyzing the innovation jam. In: ZHANG, H.
et al. (Ed.). WebKDD/SNA-KDD. [S.l.]: Springer, 2007. (Lecture Notes in Computer Science, v. 5439),
p. 2139. ISBN 978-3-642-00527-5.
[Kim e Chan 2005]KIM, H. rae; CHAN, P. K. Personalized search results with user interest hierarchies
learnt from bookmarks. In: WEBKDD. [S.l.: s.n.], 2005. p. 158176.
[Kohavi et al. 1994]KOHAVI, R. et al. Mlc++: A machine learning library in c++. In: ICTAI. [S.l.: s.n.],
1994. p. 740743.
[Lemos 2002]LEMOS, A. A arte da vida: Dirios pessoais e webcams na internet. X COMPOS, Junho
2002.
[Linstead et al. 2009]LINSTEAD, E. et al. Sourcerer: mining and searching internet-scale software repositories. Data Min. Knowl. Discov., v. 18, n. 2, p. 300336, 2009.
[Mandelbrot 1983]MANDELBROT, B. The Fractal Geometry of Nature. [S.l.]: W. H. Freeman (1983),
1983. ISBN 0716711869.
[Markov, Last e Kandel 2006]MARKOV, A.; LAST, M.; KANDEL, A. Fast categorization of web documents represented by graphs. In: WEBKDD. [S.l.: s.n.], 2006. p. 5671.
[Masseglia et al. 2008]MASSEGLIA, F. et al. Web usage mining: extracting unexpected periods from
web logs. Data Min. Knowl. Discov., v. 16, n. 1, p. 3965, 2008.
[Metz et al. 2007]METZ, J. et al. Redes Complexas: conceitos e aplicaes. Caixa Postal 668, 13560-970
- So Carlos, SP, Brasil, Janeiro 2007.
[Mika 2007]MIKA, P. Social Networks and the Semantic Web. [S.l.]: Springer, 2007. (Semantic Web And
Beyond Computing for Human Experience, v. 5). ISBN 978-0-387-71000-6.
[Milgram 1967]MILGRAM, S. The small world problem. Psychology Today, v. 2, p. 6067, 1967.
[Mobasher, Jin e Zhou 2003]MOBASHER, B.; JIN, X.; ZHOU, Y. Semantically enhanced collaborative
filtering on the web. In: Proceedings of the First EuropeanWeb Mining Forum EWMF 2003. [S.l.]:
Springer, 2003. p. 5776.
[Netto 2006]NETTO, P. O. B. Grafos: Teoria, Modelos, Algoritmos. 4. ed. [S.l.: s.n.], 2006. ISBN
8521203918.
[Newman 2003]NEWMAN, M. E. J. The structure and function of complex networks. SIAM Review,
v. 45, p. 167256, 2003.
[Noronha et al. 2009]NORONHA, E. A. et al. Multiagent simulation of the difusion of information. February 2009.
[Oliveira 2000]OLIVEIRA, R. B. T. de. O Processo de Extrao de Conhecimento de Base de Dados Apoiado por Agentes de Software. 528 p. Dissertao (Mestrado) Universidade de So Paulo - USP So Carlos, Outubro 2000.
66
[Piatetsky-Shapiro 2007]PIATETSKY-SHAPIRO, G. Data mining and knowledge discovery 1996 to
2005: overcoming the hype and moving from "university"to "business"and "analytics". Data Min.
Knowl. Discov., v. 15, n. 1, p. 99105, 2007.
[Ponniah 2001]PONNIAH, P. Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. [S.l.]: A Wiley-Interscience Publication, 2001. ISBN 0-471-22162-7.
[Primo 2003]PRIMO, A. Interao Mediada por Computador: A comunicao e a educao a distncia segundo uma perspectiva sistmico-relacional. Tese (Doutorado) Universidade Federal do Rio
Grande do Sul - UFRGS, Maro 2003.
[Putnam 2000]PUTNAM, R. D. Bowling Alone: The Collapse and Revival of American Community.
[S.l.]: Simon & Schuster, 2000. Hardcover. ISBN 0684832836.
[Quinlan 1993]QUINLAN, J. R. C4.5: Programs for Machine Learning (Morgan Kaufmann Series in
Machine Learning). 1. ed. [S.l.]: Morgan Kaufmann, 1993. Paperback. ISBN 1558602380.
[Quinlan 1993]QUINLAN, R. J. C4.5: programs for machine learning. San Francisco, CA, USA: Morgan
Kaufmann Publishers Inc., 1993. ISBN 1-55860-238-0.
[Recuero 2009,]RECUERO, R. Redes Sociais, Dunbars Number e Redes Emergentes: o que sabemos?
2009,.
[Recuero 2009]RECUERO, R. Redes Sociais Na Internet. 1. ed. [S.l.: s.n.], 2009. (Cibercultura, 1). ISBN
8520505252.
[Recuero 2004]RECUERO, R. da C. Redes sociais na Internet: Consideraes iniciais. Setembro 2004.
Ncleo de Pesquisa (NP-08) de Tecnologias da Comunicao e Informao do do IV Encontro dos
Ncleos de Pesquisa da XXVII INTERCOM.
[Rocha 2007]ROCHA, L. E. C. da. Redes Acopladas:
Estrutura e Dinmica. Dissertao (Mestrado) Instituto de Fsica de So Carlos - USP, Julho 2007. Disponvel em:
<http://www.teses.usp.br/teses/disponiveis/76/76132/tde-11092007-183106/>.
[Rogers 2003]ROGERS, M. E. Diffusion of Innovations. 5th. ed. [S.l.]: Paperback, 2003.
[Santos 2009]SANTOS, R. Conceitos de minerao de dados na web. In: TEIXEIRA, M. M. et al. (Ed.).
XV Simpsio Brasileiro de Sistemas Multimdia e Web, VI Simpsio Brasileiro de Sistemas Colaborativos Anais. [S.l.: s.n.], 2009. p. 81124.
[Semeraro et al. 2006]SEMERARO, G. et al. Discovering user profiles from semantically indexed scientific papers. In: WebMine. [S.l.: s.n.], 2006. p. 6181.
[Shah et al. 2002]SHAH, H. S. et al. Mining ebay: Bidding strategies and shill detection. In: ZAANE,
O. R. et al. (Ed.). WEBKDD. [S.l.]: Springer, 2002. (Lecture Notes in Computer Science, v. 2703), p.
1734. ISBN 3-540-20304-4.
[Sibilia 2003]SIBILIA, P. P.os dirios ntimos na internet e a crise da interioridade psicolgica do sujeito. XII Congresso da Associao Nacional de Programas de Ps-Graduao em comunicao COMPOS, 2003.
[Sibilia 2004]SIBILIA, P. A vida como relato na era do fast-forward e do real time: algumas reflexes
sobre o fenmeno dos blog. XII Congresso da Associao Nacional de Programas de Ps-Graduao
em comunicao - COMPOS, 2004.
[Tecuci et al. 1995]TECUCI, G. et al. Machine learning and knowledge acquisition: integrated approaches. London, UK, UK: Academic Press Ltd., 1995. ISBN 0-12-685120-4.
67
[Utard e Frnkranz 2005]UTARD, H.; FRNKRANZ, J. Link-local features for hypertext classification.
In: EWMF/KDO. [S.l.: s.n.], 2005. p. 5164.
[Valente e Davis 1999]VALENTE, T. W.; DAVIS, R. L. Accelerating the diffusion of innovations using
opinion leaders. The ANNALS of the American Academy of Political and Social Science, v. 566, n. 1, p.
5567, 1999.
[Viana 2007]VIANA, M. P. Metodologia das Redes Complexas para Caracterizao do Sistema de Havers.
Dissertao (Mestrado) Instituto de Fsica de So Carlos - USP, Fevereiro 2007. Disponvel em:
<http://www.teses.usp.br/teses/disponiveis/76/76132/tde-15032007-135024/>.
[Wang et al. 2008]WANG, J. et al. Web search results clustering based on a novel suffix tree structure.
In: ATC. [S.l.: s.n.], 2008. p. 540554.
[Wasserman e Faust 1994]WASSERMAN, S.; FAUST, K. Social Network Analysis: Methods and Applications. [S.l.]: Cambridge University Press, 1994.
[Watts 1999]WATTS, D. J. Small worlds : the dynamics of networks between order and randomness. [S.l.:
s.n.], 1999.
[Watts 2003]WATTS, D. J. Six degrees: The science of a connected age. [S.l.]: WW Norton & Company,
2003.
[Weka Machine Learning Project 2008]Weka Machine Learning Project. Weka. [S.l.]: University of
Waikato, 2008. URL http://www.cs.waikato.ac.nz/ml/weka.
[Wellman 1997]WELLMAN, B. Structural analysis: From method and metaphor to theory and substance. In: WELLMAN, B.; BERKOWITZ, S. D. (Ed.). Social structures: A network approach. Greenwich,
CT: JAI Press, 1997. cap. Structural analysis: From method and metaphor to theory and substance,
p. 1961.
[Wellman 2001]WELLMAN, B. Physical place and cyberplace: The rise of personalized networking.
International Journal of Urban and Regional Research, v. 25, n. 2, 2001.
[Wellman et al. 2003]WELLMAN, B. et al. The social affordances of the internet for networked individualism. Journal of Computer-Mediated Communication, v. 8, n. 3, p. 0, 2003. Disponvel em:
<http://dx.doi.org/10.1111/j.1083-6101.2003.tb00216.x>.
[Williams et al. 2006]WILLIAMS, C. et al. Detecting profile injection attacks in collaborative filtering:
A classification-based approach. In: WEBKDD. [S.l.: s.n.], 2006. p. 167186.
[Wu et al. 2008]WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information
Systems, Springer, London, v. 14, n. 1, p. 137, jan. 2008. ISSN 0219-1377. Disponvel em:
<http://dx.doi.org/10.1007/s10115-007-0114-2>.
[Zaane, Chen e Goebel 2009]ZAANE, O. R.; CHEN, J.; GOEBEL, R. Mining research communities in
bibliographical data. Springer-Verlag, Berlin, Heidelberg, p. 5976, 2009.