Vous êtes sur la page 1sur 73

Terry Lima Ruas

Minerao de Dados em Redes Complexas: Um Estudo sobre a


Dinmica do Contedo Social
Monografia apresentada ao Centro de Matemtica, Computao e Cognio - CMCC/UFABC como parte dos requisitos necessrios obteno
do ttulo de Bacharel em Cincia da Computao.

Orientadora: Prof.a Dr.a Maria das Graas Bruno Marietto

Universidade Federal do ABC


29 de Julho de 2010

Terry Lima Ruas

Minerao de Dados em Redes Complexas: Um Estudo sobre a Dinmica do Contedo Social

Monografia apresentada ao Centro de Matemtica, Computao e Cognio - CMCC/UFABC como parte dos requisitos necessrios obteno
do ttulo de Bacharel em Cincia da Computao.

Orientadora: Prof. Dr.a Maria das Graas Bruno Marietto

Universidade Federal do ABC


29 de Julho de 2010

R ESUMO
Rede complexa uma forma de modelar a natureza onde dado um grupo de elementos constituintes
de um sistema natural qualquer, deve-se determinar alguma regra para estabelecer uma ligao entre
esses elementos. Esses elementos podem ser pessoas, protenas, internet, aeroportos entre outras
coisas. Neste trabalho, o foco ser dado ao grupo constitudo por humanos. As ligaes entre esses
elementos dependem da caracterstica a ser observada. Por exemplo, pessoas podem estar ligadas
por conexes de amizade ou devido ao compartilhamento de alguma opinio.
Nos ltimos anos presencia-se uma considervel expanso nestas redes complexas, mais especificamente nas redes nas quais os elementos constituintes so seres humanos. Mesmo est expanso
sendo algo relativamente novo, as questes levantadas so possivelmente respondidas pela teoria
das redes sociais, que desde sempre esto presentes na humanidade. A teoria das redes fornece explicaes para uma mirade de fenmenos sociais, como por exemplo, criatividade individual, rentabilidade nas empresas, como indivduos podem se combinar para criar sociedades duradouras e
funcionais. No entanto, para se analisar esse vasto campo necessrio focar-se em objetivos claros. Devido imensido de dados disponveis encontra-se a necessidade de utilizar abordagens que
facilitem o tratamento de tantos dados.
Neste trabalho proposto um estudo frente aos dados presentes nas redes complexas, mais especificamente nas redes sociais. Atravs da minerao de dados, espera-se fornecer arcabouo suficiente e slido, para que seja possvel a construo de um panorama no qual se possa analisar e
representar determinadas redes complexas.

S UMRIO

Resumo

ii

Sumrio

iv

Introduo
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
2

Um Panorama sobre Redes Complexas


2.1 Teoria dos Grafos: Arcabouo Conceitual . . . . . .
2.1.1 Vizinhana e Graus . . . . . . . . . . . . . . .
2.1.2 Caminhos e Circuitos . . . . . . . . . . . . .
2.2 Redes Complexas . . . . . . . . . . . . . . . . . . . .
2.2.1 Redes Complexas Modeladas Como Grafos
2.2.2 Propriedades . . . . . . . . . . . . . . . . . .
2.2.2.1
Coeficiente de Aglomerao . . .
2.2.2.2
Distribuio de Graus . . . . . . .
2.2.2.3
Robustez . . . . . . . . . . . . . . .
2.2.2.4
Mistura de Padres . . . . . . . . .
2.2.2.5
Correlao de Graus . . . . . . . .
2.2.3 Modelos de Redes Complexas . . . . . . . .
2.2.3.1
Redes Aleatrias . . . . . . . . . .
2.2.3.2
Redes Regulares . . . . . . . . . .
2.2.3.3
Redes Small World . . . . . . . . .
2.2.3.4
Redes de Barabsi e Albert . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

4
5
6
7
8
9
9
9
10
10
10
10
10
11
11
12
13

Extrao e Minerao de Conhecimento em Base de Dados: Principais Conceitos


3.1 Definies: Extrao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1.1
Fonte de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1.2
Dados de Teste . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1.3
Armazenamento de Dados . . . . . . . . . . . . . . . . . . . .
3.1.1.4
Entrega de Informaes . . . . . . . . . . . . . . . . . . . . . .
3.1.1.5
Metadados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1.6
Controle e Gerenciamento . . . . . . . . . . . . . . . . . . . .
3.1.2 Base de Dados e Data Warehouse . . . . . . . . . . . . . . . . . . . . . .
3.2 Processo de Extrao de Conhecimento de Base de Dados . . . . . . . . . . . .
3.2.1 Compreenso do Domnio de Aplicao . . . . . . . . . . . . . . . . . .
3.2.2 Seleo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Preparao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Limpeza e Pr-Processamento de Dados . . . . . . . . . . . . . . . . . .
3.2.5 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1
Tcnicas Bsicas de Data Mining . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

15
15
16
16
17
17
18
18
18
18
19
21
21
21
22
23
23

iv

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

SUMRIO

3.3

3.2.5.1.1
Classificao . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1.2
Regresso . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1.3
Agrupamento ou Clustering . . . . . . . . . . . . . . . .
3.2.5.1.4
Sumarizao . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.1.5
Modelagem de Dependncia . . . . . . . . . . . . . . .
3.2.5.1.6
Deteco de Mudana ou Desvios (Outliers) . . . . . .
3.2.5.2
Algoritmos Utilizados em Data Mining . . . . . . . . . . . . . . .
3.2.5.3
Extrao de Padres . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.4
Definio de Parmetros . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.5
Reduo de Atributos . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.6
Generalizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.7
Mudanas dos Dados . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.8
Compreenso de Padres . . . . . . . . . . . . . . . . . . . . . . .
3.2.6 Interpretao e Avaliao de Padres . . . . . . . . . . . . . . . . . . . . . .
3.2.7 Consolidao do Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . .
Representao e Processamento de Dados da Web para Minerao . . . . . . . . .
3.3.1 Estado da Arte: Aplicaes de Minerao de Dados na Web . . . . . . . . .
3.3.1.1
Minerao de Contedo . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1.2
Minerao de Estruturas na Web . . . . . . . . . . . . . . . . . . .
3.3.1.3
Minerao de Redes Sociais e Similares . . . . . . . . . . . . . . .
3.3.1.4
Minerao de Registros de Acesso (logs) a Servidores e Similares
3.3.1.5
Outros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

24
24
24
24
25
25
25
27
27
27
27
28
28
28
28
28
29
29
29
30
30
31

Redes Sociais: Referencial Terico


4.1 Elementos des Redes Sociais . . . . . . . . . . . . . . . .
4.1.1 Atores . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Conexes . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Interao, Relao e Laos Sociais . . . . . . . .
4.1.3.1
Interaes . . . . . . . . . . . . . . . .
4.1.3.2
Relaes . . . . . . . . . . . . . . . . .
4.1.3.3
Laos . . . . . . . . . . . . . . . . . . .
4.1.4 Capital Social . . . . . . . . . . . . . . . . . . . .
4.2 Tipos de Redes Sociais . . . . . . . . . . . . . . . . . . .
4.2.1 Redes Sociais Emergentes . . . . . . . . . . . . .
4.2.2 Redes Sociais de Filiao ou Redes Associativas
4.3 Anlise de Redes Sociais . . . . . . . . . . . . . . . . . .
4.3.1 Arcabouo Conceitual . . . . . . . . . . . . . . .
4.3.2 Conceitos Chave e Mtricas . . . . . . . . . . .
4.3.2.1
Centralidade . . . . . . . . . . . . . .
4.3.2.2
Cliques . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

32
32
32
33
33
33
33
34
35
35
35
37
37
38
38
39
39

Rede Social para Difuso da Informao


5.1 Exemplos da Difuso da Informao . . . . . . . . . .
5.1.1 Inovao . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Canais de Comunicao . . . . . . . . . . . . .
5.1.3 Tempo . . . . . . . . . . . . . . . . . . . . . . .
5.1.4 Sistema Social . . . . . . . . . . . . . . . . . . .
5.2 Modelo Estudado para Difuso de Informao . . . .
5.3 Um Modelo Multiagente para Difuso de Informao
5.3.1 O Ambiente Fsico . . . . . . . . . . . . . . . .
5.3.2 Arquitetura do Agente Pessoa . . . . . . . . .
5.3.3 Mdulo: Procurando-Informao . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

40
41
41
41
41
42
42
43
44
45
45

.
.
.
.
.
.
.
.
.
.

SUMRIO
5.3.4

vi
Mdulo: Processando-Informao . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.4.1
Mdulo IP: Atributos Individuais . . . . . . . . . . . . . . . . . . . . .
5.3.4.2
Mdulo IP: Regras para Determinar o Grau de Homophilia . . . . . .

46
46
46

Anlise da Difuso da Informao Via a Integrao de Redes Sociais e Minerao de Dados


6.1 Configurao da Simulao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Anlise das Simulaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1.1
Primeiro Experimento: Baixa Densidade de Agentes . . . . . . . . . .
6.1.1.1.1
Movimento Coletivo e Comunicao Indireta . . . . . . . .
6.1.1.1.2
Dinmica Social em Baixa Densidade . . . . . . . . . . . . .
6.1.1.2
Segundo Experimento: Alta Densidade de Agentes . . . . . . . . . . .
6.1.1.2.1
Movimento Coletivo e Comunicao Indireta . . . . . . . .
6.1.1.2.2
Dinmica Social em Alta Densidade . . . . . . . . . . . . . .
6.1.2 Minerao de Dados no Sistema Social . . . . . . . . . . . . . . . . . . . . . . . .
6.1.2.1
Primeiro Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.2.2
Segundo Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49
49
49
50
50
50
53
54
55
57
57
59

Consideraes Finais

61

R Referncias

63

CAPTULO

I NTRODUO
O interesse no estudo de redes complexas permeia todo o sculo XX. Iniciado pelas cincias exatas,
notoriamente matemticos e fsicos trouxeram contribuies significativas para o estudo das redes,
que depois foram absorvidas pela Sociologia, na perspectiva da anlise estrutural das redes sociais.
Os primeiros passos da teoria das redes encontram-se principalmente nos trabalhos do matemtico
uler [Euler 1741] que criou o primeiro teorema da teoria dos grafos. Um grafo uma representao de um conjunto de ns conectados por arestas que, em conjunto, formam uma rede. Tendo
como base esta nova idia, vrios estudiosos [Barabsi 2003, Buchanan 2003, Watts 1999, Watts 2003]
dedicaram-se ao trabalho de compreender quais eram as propriedades de diversos tipos de grafos e
como se dava o processo de sua construo, ou seja, como seus ns se agrupavam. Essa forma de
percepo dos elementos como redes seria crucial para a compreenso das relaes complexas do
mundo atual.
Mais especificamente dentro do assunto de redes complexas a anlise das redes sociais parte de
duas grandes vises do objeto de estudo: as redes inteiras (whole networks) e as redes personalizadas
(ego-centered networks) ( [Watts 2003, Degenne e Forse 1999, Wellman 1997, Wellman et al. 2003, Garton, Haythornthwaite e Wellman 1997]). O primeiro aspecto focado na relao estrutural da rede
com o grupo social. Para [Watts 2003] As redes, de acordo com esta viso, so assinaturas de identidade social - o padro de relaes entre os indivduos est mapeando as preferncias e caractersticas
dos prprios envolvidos na rede.". O segundo foco est no papel social de um indivduo, compreendido no apenas atravs dos grupos (redes) a que ele pertence, mas igualmente atravs das posies
que ele tem dentro dessas redes. A diferena entre os dois focos est no corpus da anlise escolhida
pelo pesquisador [Recuero 2004].
Garton [Garton, Haythornthwaite e Wellman 1997] explica que a anlise de redes sociais foca principalmente nos padres de relaes entre as pessoas. O estudo de redes sociais reflete uma mudana
do individualismo comum nas cincias sociais em busca de uma anlise estrutural. Para ir alm dos
atributos individuais e considerar as relaes entre os atores sociais, a anlise das redes sociais busca
focar-se em novas unidades de anlise", tais como: relaes (caracterizadas por contedo, direo
e fora), laos sociais (que conectam pares de atores atravs de uma ou mais relaes), multiplexidade (quanto mais relaes um lao social possui, maior a sua multiplexidade) e composio do lao
social (derivada dos atributos individuais dos atores envolvidos). O estudo de redes sociais procura
tambm levar para a sociedade os elementos principais estudados em uma rede, tais como densidade
da rede, clusterizao, etc [Recuero 2004].
A princpio, os socilogos acreditavam que as unidades bsicas das redes sociais eram as dades,
ou seja, as relaes entre duas pessoas seriam a menor estrutura relacional da sociedade. E com
isso, as relaes entre indivduos que formaria um grupo se dariam de modo randmico [Wellman
1

1.1. Objetivos

1997]. Uma outra vertente para a anlise das redes sociais defendiam que as unidades bsicas seriam
constitudas pelas trades, de formato triangular. Nesse modelo, por exemplo, duas pessoas possuem
um amigo em comum. Assim essas duas pessoas possuem maiores chances de se conhecerem entre
si e fazerem parte de um mesmo grupo.
Partindo dessa perspectiva, a anlise estrutural das redes sociais procura focar no estabelecimento das relaes sociais entre os agentes humanos, que originaro as redes sociais, tanto no mundo
concreto, quanto no mundo virtual. Isso porque em uma rede social, as pessoas so os ns e as arestas
so constitudas pelos laos sociais gerados atravs da interao social [Recuero 2004].
Por sua complexidade as redes sociais (virtuais ou no) acabam gerando mais dados do que a capacidade humana possui de interpret-los e compreend-los. Por essa razo, so necessrias novas
tcnicas e ferramentas capazes de analisar automaticamente essa quantidade de dados produzidos,
fornecendo o conhecimento necessrio para ajudar nos mais diversos processos de tomada de deciso.
A rea da Computao conhecida como Extrao de Conhecimento em Base de Dados (do ingls
Knowledge Discovery in Databases - KDD), surgiu para auxiliar a anlise de grande volume de dados,
sendo assim ideal para o cenrio de redes sociais. As pesquisas nesta rea tm o objetivo de estudar a
aplicao de novas metodologias, tcnicas e ferramentas capazes de extrair conhecimento embutido
em um grande volume de dados [Oliveira 2000].
O processo de KDD pode ser entendido como uma rea interdisciplinar pois utiliza conceitos de
diversas frentes do conhecimento: bases de dados, mtodos estatsticos, ferramentas de visualizao
e tcnicas de Inteligncia Artificial (IA). Assim, as inovaes feitas nestas reas so refletidas diretamente nas metodologias, tcnicas e ferramentas usadas para a descoberta de conhecimento nos
dados [Oliveira 2000].
Deste modo, o escopo do presente trabalho se conteve no estudo dos dados que compem essas
redes complexas, mais especificamente as redes sociais. De forma a fornecer uma viso ampla de
quais so as principais organizaes de dados nessas redes, como os dados so organizados, quais as
maneiras de extrair os dados destas redes, como extra-los e em seguidas transformar essa quantidade
de dados em informaes relevantes.

1.1 Objetivos
Este projeto de graduao concentrou-se em investigar questes relacionadas anlise de dados em
sistemas complexos. Mais especificamente na dinmica de redes sociais, tendo como base as teorias
de Redes Complexas, Teoria dos Grafos, Redes Sociais, Extrao e Minerao de Dados. Devido ao
amplo leque de possveis escopos de anlise, foi necessrio definir uma aplicao especfica para o
estudo das tcnicas de minerao e anlise de dados. Nesta pesquisa o domnio escolhido para o
estudo de caso foi o de Redes Sociais. Para o alcance deste objetivo principal cinco (05) objetivos
especficos foram considerados.
O primeiro objetivo especfico preocupou-se com o estudo dos referenciais terico e tcnico das
reas de Redes Complexas e Teoria dos Grafos, nos quais conteve-se em delinear o estado da arte nos
temas que serviram de base desta pesquisa.
O segundo objetivo especfico correspondeu ao estudo sobre Extrao e Minerao de Dados e
Redes Sociais, procurando conhecer tcnicas e solidificar o embasamento terico para o desenvolvimento do trabalho.
O terceiro objetivo, foi focado em analisar como ocorre a organizao de dados em Redes Complexas e Redes Sociais. Estudando modelos de dados aplicados em tais redes, foi possvel formalizar
a estrutura de determinadas redes, assim como delinear uma rea de escopo para esse projeto.
O quarto objetivo diz respeito ao estudo dos modelos de Extrao e Minerao de Dados aplicados em Redes Sociais. Analisando a literatura [Oliveira 2000], [Cazella 2005], [Castilho 2004] observouse que existem diversas caracterizaes sobre tal assunto.

1.1. Objetivos

A partir dos modelos conceituais estudados foi feito um estudo de caso sobre a extrao de dados em determinada rede, de forma que implementou-se um dos modelos estudados no intuito de
alcanar o quinto e ltimo objetivo especfico. Encontrando assim subsdios para obter uma anlise
sobre o sistema social estudado.

CAPTULO

U M PANORAMA SOBRE R EDES C OMPLEXAS


O estudo de redes complexas um tema interdisciplinar que abrange diversas reas de conhecimento, tais como a Cincia da Computao, Matemtica, Fsica, Biologia e Sociologia. O termo redes
complexas refere-se a um grafo que apresenta uma estrutura topogrfica no trivial, composto por
um conjunto de vrtices (ns) que so interligados por meio de arestas [Barabsi 2003]. O estudo de
redes na forma de grafos um dos pilares da matemtica discreta e teve incio em 1735, quando Euler
props uma soluo para o problema das pontes de Knigsberg, originando a Teoria dos Grafos.
Desse modo, diversos aspectos do mundo real podem ser representados por meio de redes complexas a partir de analogias para a resoluo de problemas especficos. possvel, por exemplo, modelar toda a estrutura fsica de uma grande rede de computadores tal como a Internet. Nesse caso, os
computadores conectados Internet referem-se aos vrtices da rede enquanto que os cabos e meios
de transmisso representam as arestas do grafo. Outras analogias podem ser tambm utilizadas, tais
como o contedo de pginas WEB World Wide Web, relaes sociais entre grupos de pessoas, redes
organizacionais ou de negcios entre companhias, redes neurais, redes metablicas, cadeia alimentar, entre outras [Metz et al. 2007]. A Figura 2.1 um exemplo de uma rede complexa.

2.1. Teoria dos Grafos: Arcabouo Conceitual

Figura 2.1: Exemplo de uma Rede Complexa entre Jogadores e Treinadores [Evans 2009,].

Antes de aprofundar o assunto tema deste projeto importante que alguns conceitos sejam estabelecidos e explicados, visando estabelecer um arcabouo terico a ser usado neste trabalho. Deste
modo, a prxima seo trata alguns conceitos relevantes sobre Teoria dos Grafos [Feofiloff, Kohayakawa e Wakabayashi 2009].

2.1 Teoria dos Grafos: Arcabouo Conceitual


Para qualquer conjunto V denota-se por V (2) o conjunto de todos os pares no ordenados de elementos de V. Se V tem n elementos ento V (2) tem (n2 ) := n(n1)
elementos. Os elementos de V (2) so
2
identificados com os subconjuntos de V que tm cardinalidade 2. Assim, cada elemento de V (2) ter
a forma {v,w}, sendo v e w dois elementos distintos de V. Um grafo um par (V,A) em que V um
conjunto arbitrrio e A um subconjunto de V (2) . Os elementos de V so chamados vrtices e os de
A so chamados arestas [Feofiloff, Kohayakawa e Wakabayashi 2009].
Um grafo simples no pode ter duas arestas diferentes com o mesmo par de pontas (ou seja, no
pode ter arestas paralelas). Tambm no pode ter uma aresta com pontas coincidentes (ou seja, no
pode ter laos). Muitas vezes conveniente dar um nome ao grafo como um todo. Se o nome do grafo
for G, o conjunto dos seus vrtices ser denotado por V(G) e o conjunto das suas arestas por A(G). O
nmero de vrtices de G denotado por n(G) e o nmero de arestas por m(G). Portanto, n(G) = |V (G)|
e m(G) = |A(G)|
A Figura 2.2 mostra um tipo de grafo simples na qual t, u, v, w, x e z so vrtices e vw, uv, xw, xu, yz
e xy so arestas.

2.1. Teoria dos Grafos: Arcabouo Conceitual

Figura 2.2: Grafo Simples [Feofiloff, Kohayakawa e Wakabayashi 2009].

O complemento de um grafo (V, A) o grafo (V, V (2) \A). O complemento de um grafo G ser
denotado por G. A Figura 2.3 mostra um grafo G e seu complemento H (G).

Figura 2.3: Grafo Simples no qual G o Grafo e H seu Complemento (G).

Um grafo G completo se A(G)=V (G)(2) e vazio se A(G)=;. A expresso G um K n uma abreviatura de G um grafo completo com n vrtices. A expresso G um K n uma abreviatura de
G um grafo vazio com n vrtices. A Figura 2.4 mostra um exemplo de grafo completo K 6 [Feofiloff,
Kohayakawa e Wakabayashi 2009].

Figura 2.4: Exemplo de um Grafo Completo K 6 .

2.1.1 Vizinhana e Graus


A vizinhana de um conjunto X de vrtices de um grafo G o conjunto de todos os vrtices que tm
algum vizinho em X. Esse conjunto denotado por (X ). A vizinhana de um vrtice v o conjunto
(v). O corte associado a (ou cofronteira, cociclo etc) um conjunto X de vrtices o conjunto de
todas as arestas que tm uma ponta em X e outra em V (G)\X , denotado por (X ). evidente que
(;) = (V (G)) = ; [Feofiloff, Kohayakawa e Wakabayashi 2009].
Um corte em um grafo qualquer conjunto da forma (X ), onde X um conjunto de vrtices.
O grau de um vrtice v o nmero de arestas que incidem em v, ou seja, a cardinalidade do corte

2.1. Teoria dos Grafos: Arcabouo Conceitual

(v) (igual cardinalidade de (v)). Dessa forma o grau de v em um grafo G denotado por g(v). O
grau mnimo de um grafo G o nmero (G) := mi n{g (v) : v V (G)}. O grau mximo do grafo o
nmero (G) := max{g (v) : v V (G)}. Um grafo G dito como regular se todos os seus vrtices tem o
mesmo grau, ou seja, se (G) = (G). Um grafo k-regular se g(v)=k para todo vrtice v. A Figura 2.5
exemplifica um grafo 3-regular.

Figura 2.5: Exemplo de Grafo 3-regular.

2.1.2 Caminhos e Circuitos


Um caminho qualquer grafo da forma ({v 1 , v 2 , ..., v n }, {v i , v i +1 : 1 i < n, v i A}). Em outras palavras, um caminho um grafo C cujo conjunto de vrtices admite uma permutao (v 1 , v 2 , ..., v n ) tal
que:
{v 1 v 2 , v 2 v 3 , ..., v n1 v n }
Os vrtices v 1 e v n so os extremos do caminho. O caminho descrito pode ser denotado por
{v 1 v 2 , v 2 v 3 , ..., v n }. A Figura 2.6 mostra uma caminho.

Figura 2.6: Grafo Representando um Caminho.

S
Um circuito um grafo da forma ({v 1 , v 2 , ..., v n }, {v i , v i +1 : 1 i < n}) v n v 1 , com n > 3. Em outras
palavras, um circuito um grafo O com n(O) 3 cujo conjunto de vrtices admite uma permutao
({v 1 , v 2 , ..., v n }) tal que:

{v 1 v 2 , v 2 v 3 , ..., v n }

{v n v 1 } = A(O)

O comprimento de um caminho ou circuito o nmero de arestas do grafo, um caminho de comprimento k tem k + 1 vrtices e um circuito de comprimento k tem k vrtices. Um tringulo, quadrado,
pentgono e hexgono o mesmo que um circuito de comprimento 3, 4, 5 e 6 respectivamente. Um
caminho ou circuito par se tem comprimento par, e mpar se tem comprimento mpar. A Figura 2.7
mostra um circuito de comprimento 8.
O contedo em Teoria dos Grafos muito extenso para o escopo desse projeto. O objetivo desta
Seo foi introduzir os principais tpicos bsicos para que o mesmo possa ser entendido. Para uma
anlise mais detalhada sobre grafos consulte [Netto 2006,Feofiloff, Kohayakawa e Wakabayashi 2009].

2.2. Redes Complexas

Figura 2.7: Grafo Representando um Circuito.

2.2 Redes Complexas


Os estudos das redes complexas foram iniciados em meados de 1930, quando socilogos utilizavam
essas redes com a finalidade de estudar o comportamento da sociedade e a relao entre os indivduos. Essas pesquisas eram baseadas em caractersticas muito peculiares das redes, como a centralidade (o vrtice mais central) e a conectividade (vrtices com maior nmero de conexes). As redes
sociais eram constitudas por indivduos, representados por vrtices, e pelas interaes entre eles, as
arestas. A centralidade e a conectividade eram usadas, por exemplo, para determinar os indivduos
que melhor se relacionavam com os demais ou para identificar os indivduos mais influentes [Metz
et al. 2007].
Com o avano da tecnologia de informao e a disponibilidade de computadores e redes de comunicao, que permitem a anlise de dados em grandes quantidades, houve uma mudana significativa na rea. As pesquisas, antes focadas nas pequenas redes e nas propriedades de vrtices
individuais ou arestas, passaram a considerar propriedades estatsticas em larga-escala. Atualmente,
so comuns estudos com redes envolvendo milhes ou bilhes de vrtices, as quais antes eram compostas por dezenas ou, em casos extremos, centenas de vrtices. A mudana de paradigma revelou
vrias caractersticas que diferem substancialmente as redes do mundo real das redes aleatrias, tidas por muitos anos como o principal modelo de redes. Descobriu-se que a topologia e a evoluo
das redes do mundo real apresentam propriedades organizacionais bastante robustas e distintas das
redes aleatrias. Essa a principal razo pela qual as redes passaram a ser chamadas de redes complexas [Metz et al. 2007].
Em geral sistemas complexos possuem grande nmero de elementos fundamentais, cuja constituio simples e o comportamento coletivo no trivial. Henri Poincar foi o primeiro a mostrar
que sistemas relativamente simples podem ter um comportamento evolutivo indeterminado. Poincar percebeu este fato aps notar que matematicamente impossvel encontrar a trajetria de trs
planetas interagindo gravitacionalmente entre si. Com o passar dos anos novas reas surgiram (e.g
sistemas no lineares, redes neurais, caos e sistemas auto organizveis) para pesquisa de sistemas to
peculiares. Por exemplo, nos anos 90 pesquisadores perceberam que muitas estruturas naturais so
auto similares como os fractais [Mandelbrot 1983].
As atenes voltadas cincia dos sistemas complexos comearam a mudar de foco a partir de
1999, quando Albert, Jeong e Barabsi realizaram uma descoberta surpreendente, baseada em estudos do psiclogo Stanley Milgram [Milgram 1967]. Albert, Jeong e Barbasi aplicaram os estudos
de Milgram rede mundial de computadores (World Wide Web - WWW ). Esta rede formada por
pginas WEB interligadas por hiperlinks que tornam possvel a navegao entre elas. O estudo procurou encontrar o nmero mdio de hiperlinks que separavam duas pginas escolhidas aleatoriamente nesta rede. Os resultados mostraram que, em mdia, as pginas da Internet esto separa-

2.2. Redes Complexas

das por pouco menos de vinte cliques do mouse, confirmando assim os estudos sobre o efeito small
world [Milgram 1967, Viana 2007].

2.2.1 Redes Complexas Modeladas Como Grafos


Uma rede complexa definida por um conjunto V()={v i : i = 1, 2, ..., N } de vrtices (ou ns, ou
indivduos) e um conjunto E () = {(v i , v j ) : v i e v j V ()} de arestas (ou conexes, ou links) que
conectam pares de vrtices de acordo com regras especficas [Costa et al. 2007]. No so considerados vrtices com auto-conexo, (v i , v j ) 6 E () onde i = j, e os elementos de E () devem ser
nicos, (v i , v j ) (v i , v k ), se, e somente se, v j v k , ou seja, no podem existir mltiplas conexes
entre um nico par de vrtices. Alm disso, as arestas no possuem direo preferencial, ou seja ,
(v i , v j ) (v j , v i ). Existe um conjunto W () = {w i , j : w i , j } de pesos, tal que cada elemento do
conjunto E () est mapeado num elemento de W ()((v i , v j ) 7 w i , j ) [Rocha 2007].
Uma sub-rede de definida por um conjunto de vrtices V (), tal que V () V () e E ()
{(v i , v j ) : (v i , v j ) R() e v i , v j V ()}. Por exemplo, uma sub-rede pode ser definida contendo apenas um vrtice tal que V () = {v i V ()} e E () = ;, contendo a prpria rede original ou contendo
um nmero nulo de vrtices V () = ; e E () = ; (rede vazia) [Rocha 2007].
Por definio uma sub-rede conectada (ou conexa) se qualquer um dos seus vrtices puder ser
alcanado a partir de quaisquer outros vrtices da mesma sub-rede , ou seja, se existir um caminho
que passe por todos os vrtices da sub-rede . Tanto o caminho quanto seu comprimento (d) so
anlogos aqueles apresentados na Seo 2.1.2.
Dado que um conjunto V () possui N elementos, a rede pode ser escrita na forma de uma matriz de pesos WN xM , onde cada elemento w i , j da matriz W representa o elemento (v i , v j ) do conjunto
E () cujo valor dado pelo respectivo mapeamento no conjunto W (). Usando o processo de limiarizao [Costa et al. 2007] possvel obter uma nova rede 0 , esta nova rede pode ser representada por
uma matriz de adjacncias A N xM , onde a i , j = 1 se o elemento (v i , v j ) E () e a i , j = 0 se o elemento
(v i , v j ) 6 E (). Deste modo, apenas as conexes existentes entre os vrtices so consideradas e no
os seus respectivos pesos.

2.2.2 Propriedades
As redes complexas apresentam algumas propriedades. Tais propriedades podem auxiliar em anlises dos mais variados aspectos das redes, e com os mais diferenciados propsitos. Nesta seo so
apresentadas algumas das principais caractersticas das redes complexas.

2.2.2.1 Coeficiente de Aglomerao


Os agrupamentos intrnsecos s redes so qualificados por meio do coeficiente de aglomerao, tambm conhecido como fenmeno de transitividade. Esse fenmeno ocorre quando um vrtice A est
conectado a um vrtice B, e o vrtice B est conectado a um vrtice C, aumentando as chances do
vrtice A tambm estar conectado ao vrtice C. Em outras palavras, a transitividade indica a presena
de um nmero elevado de tringulos na rede, i.e., conjuntos de trs vrtices conectados uns aos outros. Para entender melhor, considere a analogia com uma rede social. Nesse caso, pode-se dizer que
se A amigo de B e B amigo de C, existem grandes chances de A e C tambm serem amigos.
O coeficiente de aglomerao CA de uma rede obtido a partir da Equao 2.1, onde #4 referese ao nmero de tringulos na rede, e #v representa o nmero de vrtices triplamente conectados,
i.e., vrtices com arestas no direcionadas para o outro par de ns. O fator 3 no numerador referese ao fato de que cada tringulo apresenta trs triplas e tambm para garantir que o coeficiente de
aglomerao seja um valor entre 0 (zero) e 1 (um) [Metz et al. 2007].
CA=

3 #4
#v

(2.1)

2.2. Redes Complexas

10

2.2.2.2 Distribuio de Graus


O grau de um vrtice qualquer em uma rede define o nmero de arestas que incidem (conectam)
quele vrtice. Desse modo, a distribuio de graus uma funo de distribuio probabilstica que
indica a probabilidade de um determinado vrtice ter grau fixo. Isto se uma rede for criada, caso essa
j exista esse valor pode ser dado. Uma maneira de quantificar essa distribuio por meio de uma
funo de distribuio cumulativa (Equao 2.2), onde p k a frao de ns da rede com grau k e P k
a funo cumulativa de distribuio de probabilidades.
Pk =

pk0

(2.2)

k 0 =k

Em um dgrafo1 , por outro lado, cada vrtice tem um grau de entrada e de sada, acarretando
em uma equao diferente para o clculo da distribuio de graus. Essa nova equao escrita em
funo de p j k com duas variveis, representando a frao de vrtices que tm, simultaneamente, um
grau de entrada j e um grau de sada k.
A distribuio de graus nas redes aleatrias segue a distribuio de Poisson. No entanto, em muitas redes reais a distribuio de graus segue a Lei de Potncia, em que p k 0 k para uma constante
qualquer [Metz et al. 2007].

2.2.2.3 Robustez
Indica a capacidade de resistncia da rede quanto s remoes de alguns vrtices, sem que haja perda
de sua funcionalidade. Essa propriedade est diretamente relacionada com a distribuio de graus
dos vrtices, pois a remoo de vrtices pode resultar na perda de conexo entre pares de vrtices ou,
ainda, aumentar significativamente o caminho de um vrtice a outro [Metz et al. 2007].

2.2.2.4 Mistura de Padres


Alguns tipos de redes apresentam uma mistura de padres diferentes onde os vrtices podem representar diferentes tipos de objetos. Nas redes de cadeias alimentares, por exemplo, existem vrtices
que representam plantas, animais herbvoros e animais carnvoros. Em geral, a probabilidade de
conexo entre esses vrtices dependente do seu tipo. Nesse caso especfico, existem arestas conectando os herbvoros s plantas e os herbvoros aos carnvoros. Por outro lado, existem poucas
conexes entre herbvoros e herbvoros ou entre animais carnvoros e plantas.
As redes de relaes sociais tambm apresentam essa propriedade, pois so constitudas por vrtices que representam pessoas de diferentes etnias. Nesse tipo de rede h uma tendncia de existirem
mais conexes entre vrtices do mesmo tipo, uma vez que as pessoas esto mais propensas a se relacionarem com outras pessoas da mesma etnia [Newman 2003]. Uma curiosidade tambm observada
por Newman que, essencialmente, todas as redes sociais apresentam essas variaes de padres,
enquanto outros tipos de redes no (e.g. redes biolgicas, redes tecnolgicas, entre outras).

2.2.2.5 Correlao de Graus


Indica se as arestas em uma rede associam vrtices com graus parecidos. Essa correlao usada,
principalmente, em redes com variaes de padres, para investigar a probabilidade de conexo dos
vrtices de diferentes tipos [Metz et al. 2007].

2.2.3 Modelos de Redes Complexas


Na literatura so apresentados muitos modelos para classificao de redes complexas [Metz et al.
2007,Costa et al. 2007,Rocha 2007,Viana 2007]. Nesta seo sero apresentados os modelos clssicos
de redes, bem como suas caractersticas.
1 Um digrafo, ou grafo dirigido, um grafo com flechas nas arestas.

2.2. Redes Complexas

11

2.2.3.1 Redes Aleatrias


Tambm conhecida como Rede de Erds e Rny (ER), o modelo mais simples que uma rede complexa pode assumir, constituindo assim uma das bases da teoria moderna das redes complexas. No
contexto da teoria das redes complexas, uma rede aleatria (ER) construda definindo um conjunto
de vrtices V (E R ) e conectando pares de vrtices com probabilidade p. Portanto, com p=0 obtm-se
uma rede completamente fragmentada (E (E R ) = ) e o outro extremo com p = 1, a rede fica completamente conectada, tal que o coeficiente de aglomerao (C A) (Seo 2.1) ser mximo, C A = 1.
Uma variao na construo da rede aleatria definir o tamanho do conjunto E (E R ), ou seja, o
nmero mximo de arestas ER e conectar pares de vrtices (v i , v j ) escolhidos aleatoriamente at que
esse nmero mximo seja alcanado. A Figura 2.8 mostra um tipo de rede aleatria em seu desenvolvimento [Rocha 2007].

Figura 2.8: Rede Aleatria em Desenvolvimento.

Desse modo, uma distribuio de conexes que possui um valor caracterstico de conexes
dado pelo grau mdio da rede, conforme mostra a Equao 2.3.
k = p(N 1)

(2.3)

A distribuio de Poisson dada pela Equao 2.4.


P E R (k) = kk e k /k!

(2.4)

Esse mecanismo de construo implica que a vizinhana de cada vrtice ser fracamente conectada entre si se a probabilidade p for baixa, ou seja, o coeficiente de aglomerao mdio, C A = k
N ,
ser baixo em uma rede esparsa (N k). O que vlido na maioria das redes reais, implicando que
C A 1 [Rocha 2007].
A aleatoriedade das conexes gera uma quebra de simetria que faz com que o caminho mdio entre quaisquer dois vrtices da rede seja muito pequeno se comparado ao tamanho da rede
ln(N )
), quando a rede esparsa. Esse fenmeno da distncia mdia entre quaisquer vrtices
(d E R ln[k]
de uma rede ser pequena conhecido como o efeito small world (mundo pequeno), e foi inicialmente descoberto numa rede social construda a partir de um experimento conduzido por Stanley
Milgram em 1967 [Milgram 1967].

2.2.3.2 Redes Regulares


Modelo popular no ramo da cincia da Fsica do Estado Slido. Tambm chamadas de Redes Geogrficas, as redes que caracterizam esse modelo possuem vrtices que se situam em uma posio bem

2.2. Redes Complexas

12

definida no espao Euclidiano. Alm disso, as conexes so distribudas somente entre os vizinhos
topolgicos de cada vrtice. Na Fsica do Estado Slido, a rede regular uma ferramenta indispensvel para a representao dos tomos em um estrutura e suas interaes locais. A Figura 2.9 mostra um
exemplo de uma rede regular com condies de contorno, onde cada um dos vrtices est conectado
aos seus primeiros vizinhos topolgicos [Viana 2007].

Figura 2.9: Modelo de Rede Regular.

2.2.3.3 Redes Small World


Muitas redes apresentam padres altamente conectados, tendendo a formar pequenas quantidades
de conexes em cada vrtice. Nesse modelo, conexes so estabelecidas entre vrtices mais prximos, apresentando assim um mundo pequeno (Small world). Neste modelo, a distncia mdia entre
quaisquer dois vrtices de uma rede muito grande no ultrapassa um nmero pequeno de vrtices.
Para isso, basta que algumas conexes aleatrias entre grupos sejam estabelecidas. A Figura 2.10
ilustra uma rede do tipo Small world [Metz et al. 2007].

Figura 2.10: Modelo de Rede Small World [Metz et al. 2007].

O efeito small world observado nas redes em que a maioria dos vrtices se conecta a outros
atravs de um caminho mnimo. O caminho mnimo, tambm chamado de caminho geodsico ou
distncia geodsica, aquele formado pelo menor nmero de arestas que conectam um vrtice origem e um vrtice destino [Milgram 1967]. O comprimento do caminho mnimo mdio (CM) entre
pares de vrtices em um grafo no direcionado dado pela Equao 2.5, onde d i j a distncia geodsica do vrtice i at o vrtice j [Metz et al. 2007].
l=

1
2 n(n + 1) i j

di j

(2.5)

2.2. Redes Complexas

13

Essa definio apresenta problemas nas redes com mais de um componente. Um componente
representado por um nico vrtice, ou por um conjunto de vrtices e de arestas que conectam os
pares de vrtices. Nas redes com mais de um componente no h um caminho conectando um vrtice qualquer de um componente com um outro vrtice qualquer de outro. Em outras palavras, h
um subconjunto de vrtices interconectados entre si, mas sem qualquer conexo com um outro subconjunto da rede. Para evitar problemas no clculo da distncia mdia geodsica, so considerados
apenas os pares de ns em que h um caminho entre eles [Metz et al. 2007].
O efeito observado no modelo small world tem implicaes relevantes na dinmica de redes sociais. Por exemplo, um boato pode se espalhar muito mais rpido, se ao invs de cem passos, levarem
apenas seis para chegar de um indivduo ao outro.

2.2.3.4 Redes de Barabsi e Albert


Paralelamente s demonstraes matemticas das propriedades das redes aleatrias, o estudo de redes sociais foi independentemente evoluindo ao longo das ltimas dcadas. Apesar das redes sociais
apresentarem algumas propriedades das redes aleatrias (como o efeito small world), em geral, estas no apresentam uma distribuio de conexes aleatria, ou seja, seu mecanismo de construo
no podia ser completamente atribudo aleatoriedade. Em 1999 Barabsi e Price propuseram um
modelo de construo de rede bastante similar ao de Price (conexes direcionadas), porm para explicar a estrutura de ponteiros entre pginas da WWW. Ambos os modelos se diferenciavam das redes
aleatria e regular por introduzir um crescimento e conexo preferencial [Rocha 2007].
No modelo de Barabsi e Albert, ilustrado pela Figura 2.11(a), tambm conhecido como Modelo
Livre de Escala, a rede construda sobre um conjunto composto de m vrtices que inicialmente esto
completamente conectados. Cada novo vrtice introduzido no conjunto V (B A ) tem um nmero fixo
de arestas m. Estas arestas do novo vrtice so ligadas preferencialmente aos vrtices de V (B A ) mais
conectados, tal que essa preferncia seja dada por uma funo f (k) = k, onde > 0 [Rocha 2007].
A preferncia pelos vrtices mais conectados (fenmeno tambm conhecido como o o rico fica
mais rico"ou vantagem acumulada") resulta numa distribuio de graus (Figura 2.11(b), onde os
vrtices mais antigos concentram a maior parte das conexes em oposio aos vrtices mais novos
que ficam marginalizados na rede. Isto resulta numa Lei de Potncia dada por P B A k 3 , onde o grau
mdio dado por k = 2m.
Assim, diferentemente dos outros modelos, essa rede no possui um valor de grau (uma escala)
caracterstico e por isso do nome Rede Livre de Escala (ou sem escala). Essa distribuio mostra
que, enquanto alguns vrtices (concentradores ou hubs) possuem um grande nmero de vizinhos, a
grande maioria dos vrtices possuem um nmero pequeno de vizinhos. A presena desses hubs de
conexes faz com que o caminho mdio em quaisquer dois vrtices da rede B A seja consideravelmente diminudo, de forma que rapidamente um vrtice v i possa ser alcanado a partir de qualquer
outro vrtice v j . O processo de crescimento e conexo preferencial tambm resulta de um baixo ndice de conectividade na vizinhana do vrtice v i (C A N 0,75 ), porm com o valor maior que o
ndice da rede aleatria [Rocha 2007].

2.2. Redes Complexas

(a)

14

(b)

Figura 2.11: (a) Amostra da Rede Complexa de Barabsi-Albert - o concetrador que emerge na
estrutura aparece em cinza escuro - e (b) Distribuio de graus terica resultante da convexo
preferencias - no normalizada [Rocha 2007]

CAPTULO

E XTRAO E M INERAO DE C ONHECIMENTO EM


B ASE DE D ADOS : P RINCIPAIS C ONCEITOS
O mundo de hoje palco de uma evoluo acelerada nos meios tecnolgicos. Essa evoluo proporciona cada vez mais formas para que se possa produzir e armazenar grande quantidade de dados.
Isso faz com que o trabalho de analistas e pesquisadores em fazer anlise sobre esses dados seja extremamente custoso se feito manualmente [Oliveira 2000].
Os analistas de negcios precisam fazer uso de ferramentas capazes de fornecer informaes mais
complexas do que apenas listar o nmero de pessoas cadastradas no mailing list do clube, ou desenhar grficos da evoluo de membros de uma fraternidade. preciso que perguntas mais elaboradas
sejam respondidas tendo como base dados por eles coletados. Perguntas como: qual pessoa dentre
os meus associados possui maior influncia sobre os demais associados, analisando os tipos de relaes existentes entre esse associado e os outros membros do clube nos ltimos 5 anos. Dessa forma,
novas ferramentas de anlise e extrao de conhecimento devem ser usadas no processo decisrio e
investigativo [Oliveira 2000].
A Extrao de Conhecimento em Base de Dados (do ingls Knowledge Discovery in Database KDD) uma rea interdisciplinar, assim como as relaes existentes entre as pessoas em determinados crculos sociais. A rea de KDD incorpora tcnicas utilizadas em reas como Base de Dados,
Inteligncia Artificial e Estatstica. Desse modo, as tcnicas utilizadas em KDD no devem ser vistas
como substitutas de outras formas de anlise (e.g. OLAP), mas sim, como prticas para melhorar os
resultados das exploraes feitas com as ferramentas atualmente usadas [Oliveira 2000].

3.1 Definies: Extrao de Dados


Uma definio aceita sobre KDD na comunidade acadmica foi dada por Fayyad ( [Fayyad et al.
1996]) como sendo: Extrao de Conhecimento em Base de Dados o processo no trivial de identificao de padres vlidos, novos, potencialmente teis e compreensveis embutidos nos dados". Para
um melhor entendimento interessante definir mais claramente cada componente da mesma:
Padro: denota os conjuntos de modelos que representam alguma abstrao de um subconjunto dos dados em alguma linguagem descritiva;
Processo: a extrao de conhecimento de uma Base de Dados envolve diversas etapas, tal como
a preparao dos dados, busca por padres e avaliao do conhecimento;

15

3.1. Definies: Extrao de Dados

16

Vlidos: os padres descobertos devem possuir algum grau de certeza, ou seja, devem satisfazer funes ou limiares que garantam que os exemplos cobertos e os casos relacionados ao
padro encontrado sejam aceitveis;
Novos: um padro encontrado deve fornecer novas informaes sobre os dados. O grau de
novidade serve para determinar o quo novo ou indito um padro. Ele pode ser medido
atravs de comparaes entre as mudanas ocorridas nos dados, ou no conhecimento anterior;
teis: os padres descobertos devem ser incorporados de forma a serem utilizados;
Compreensveis: um dos objetivos de realizar-se KDD fazer com que os padres possam ser
entendidos em alguma linguagem descritiva pelos usurios, de forma a permitir uma compreenso mais profunda dos dados;
Conhecimento: o conhecimento definido em termos dependentes do domnio que esto relacionados fortemente com medidas de utilidade, originalidade e compreenso.
Vale ressaltar que em diversos trabalhos o termo KDD utilizado como Data Mining. Porm,
tem-se nesse trabalho uma distino entre esses termos. Na qual Data Mining est inserido dentro
do contexto do KDD, como componente deste processo. A matria prima do KDD composta pelos
dados, que podem estar em diferentes estruturas de armazenamento.

3.1.1 Data Warehouse


Um Data Warehouse (DW) uma coleo de dados orientada a fatos, multidimensional, integrada
e no voltil que armazena uma "cpia"otimizada dos dados operacionais para serem consultados
e analisados. Esse tipo de repositrio possui dados agregados, resumidos e histricos para apoiar
tomadas de decises estratgicas. Um DW pode ser visto como uma evoluo dos sistemas gerenciadores da informao [Oliveira 2000, Ponniah 2001].
Existem alguns pontos importantes que precisam ser considerados no momento de se planejar e
projetar um DW, como: eficincia nas respostas de consultas complexas, facilidade para se aumentar e diminuir o nvel de agregao durante a navegao entre os dados, dispor de estruturas que
possuam dados resumidos e agregados em mltiplas dimenses, entre outras.
Um projeto de Data Warehouse envolve a definio de um modelo estrutural, a definio de sua
topologia e possveis fontes de dados e os mecanismos para transformar, inserir e atualizar dados.
Deste modo, para conseguir realizar um projeto que atenda aos requisitos de um determinado domnio de aplicao, alguns componentes so imprescindveis [Ponniah 2001]. Tais componentes so
apresentados nas prximas subsees.

3.1.1.1 Fonte de Dados


A fonte de dados dentro do DW pode ser agrupada em quatro (04) grupos gerais: dados de produo,
dados internos, dados arquivados e dados externos.
Os dados de produo so baseados nos requisitos de informao do DW, e servem para aplicaes verticais. Estes dados so fornecidos por diferentes sistemas operacionais da empresa. Uma
caracterstica importante dos dados de produo a disparidade. Um grande desafio padronizar e
transformar os dados dspares dos diversos tipos de dados de produo dos sistemas, convert-los e
integrar as partes em dados teis para o armazenamento no DW.
Os dados internos adicionam complexidade ao processo de transformar e integrar os dados antes
que possam ser armazenados no DW. preciso determinar estratgias para coletar os dados das planilhas, encontrar maneiras diferentes de coletar dados de documentos textuais e agreg-los as bases
de dados dos departamentos.

3.1. Definies: Extrao de Dados

17

Com relao aos dados arquivados, os DWs mantm dados histricos (arquivados) para que se
possa analis-los durante o tempo. Este tipo de dado til para os padres mais exigentes e anlise
de tendncias.
Com relao aos dados externos, normalmente no so adequados com os formatos de dados
internos. Deste modo, necessrio que se execute converses de dados para seus formatos internos
e tipos de dados. importante que haja organizao nas transmisses de dados a partir de fontes
externas. Algumas fontes podem fornecer informaes desde intervalos regulares a intervalos estipulados.

3.1.1.2 Dados de Teste


Trs funes principais devem ser realizadas para obteno de dados: extrao, transformao e carregamento dos dados nos diversos sistemas de armazenamentos do DW.
Extrao de Dados: Esta funo deve lidar com grande quantidade de fontes de dados. Devese aplicar a tcnica correta para cada tipo de fonte. Muitas vezes, por estarem em diferentes
mquinas, os dados possuem formatos diferentes e devem ser tratados para sua extrao;
Transformao de Dados: Padronizao dos elementos dos dados forma boa parte da transformao de dados, assim como padronizao semntica. A padronizao de dados tambm
envolve a forma como elementos de diferentes entidades so combinados;
Carregar Dados: Caracteriza a tarefa de carregar os dados.
O teste de dados fornece um local, e uma rea, com um conjunto de funes de limpar, alterar,
combinar, converter, duplicar, e preparar fonte de dados para armazenamento e utilizao nos DWs
[Ponniah 2001].

3.1.1.3 Armazenamento de Dados


O armazenamento de dados nos DWs so feitos em repositrios diferentes. Estes repositrios necessitam manter grande quantidade de contedo histrico para anlise de dados. Alm disso, deve-se
armazenar esses dados em estruturas convenientes para anlise e no para uma rpida resposta de
informaes individuais. Portanto, os dados dentro do DW so armazenados separadamente dos dados do sistema operacional. Vale ressaltar que muitos DWs utilizam sistemas gerenciadores de base
de dados multidimensionais (MMDDBs) [Ponniah 2001].
Todos os modelos seguem uma arquitetura formada por tabelas fatos, que possuem uma chave
composta constituda de vrias chaves que referenciam outras tabelas conhecidas como tabelas dimensionais, as quais representam diferentes dimenses de um negcio. Os modelos usados so [Oliveira 2000]:
Modelo Star: possui uma nica tabela fato ligada a vrias tabelas dimensionais;
Modelo Join Star: possui diversas tabelas fatos ligadas s tabelas dimensionais, sendo que uma
tabela dimensional pode ser referenciada por mais de um tabela fato;
Modelo Snowflake: diferencia-se do modelo Star por possuir apenas sub-tabelas"dimensionais,
representando uma agregao maior dos dados que so referenciadas unicamente pelas tabelas dimensionais.

3.1. Definies: Extrao de Dados

18

3.1.1.4 Entrega de Informaes


Com o intuito de fornecer informao para todos utilizadores do DW, o sistema de entrega de dados
inclui diferentes mtodos de entrega conforme mostra a Figura 3.1.

Figura 3.1: Componente de Entrega de Informaes [Ponniah 2001].

3.1.1.5 Metadados
Os metadados em DW se assemelham aos metadados de outros similares como: dados do dicionrio
ou como catlogo de dados em um sistema de gerenciamento de banco de dados. Os metadados
possuem dados sobre os dados contidos nos DWs.

3.1.1.6 Controle e Gerenciamento


O gerenciamento e o controle interagem com o componente de metadados para executar as funes
de gesto e controle. Como o componente de metadados contm informaes sobre o armazenamento de dados em si, os metadados so a fonte de informaes para o mdulo de gesto [Ponniah
2001].

3.1.2 Base de Dados e Data Warehouse


Um DW mantido separado da base de dados operacional. Isto feito porque tal repositrio suporta
aplicaes de processamento analtico online (OLAP), cujos requisitos funcionais e de desempenho
so muito diferentes dos de aplicaes para processamento de transaes online (OLTP) que so suportadas por base de dados operacionais.
Os sistemas OLTP so utilizados para processar operaes feitas diariamente em uma organizao, por exemplo, transaes bancrias. Dessa forma, necessrio que as estruturas de armazenamento desses sistemas possuam um modelo normalizado, como Entidade Relacionamento, que favorea o desempenho das transaes e a consistncia dos dados. Essas base, normalmente, possuem
entre megabytes e gigabytes de dados armazenados.
Num sistema OLAP, o DW projetado para apoiar consultas complexas que auxiliem os analistas
durante o processo de tomada de deciso, assim, dados histricos, agregados, sociais e resumidos so
necessrios. Os dados consolidados de um DW podem ser gerados a partir de diversas fontes, logo
esse tipo de repositrio tende a possuir giabytes ou at mesmo terabytes de dados. A Tabela 3.1 traa
um paralelo entre base de dados operacionais e DW [Oliveira 2000].

3.2. Processo de Extrao de Conhecimento de Base de Dados

19

Tabela 3.1: Principais Diferenas entre Base de Dados Operacionais e Data Warehouse.

Apesar de no ser obrigatria, a construo de um DW pode reduzir drasticamente a complexidade e a durao do processo de KDD.

3.2 Processo de Extrao de Conhecimento de Base de Dados


Extrair conhecimento de base de dados pode envolver, entre outras coisas, a utilizao de algoritmos
de aprendizado de mquina capazes de generalizar os fatos encontrados em um grande repositrio
de dados, na forma de regras de alto nvel compreensveis ao ser humano.
Quando se tenta realizar tarefas referentes ao descobrimento de conhecimento em aplicaes do
mundo real, percebe-se que as mesmas podem ser de extrema complexidade e que a tarefa de Data
Mining representa apenas uma poro, de grande importncia, do processo global. Assim o processo
de KDD deve ser visto como sendo composto por vrias etapas interligadas [Ponniah 2001].

3.2. Processo de Extrao de Conhecimento de Base de Dados

20

Figura 3.2: Etapas do Processo de KDD [Ponniah 2001].

O processo de Extrao de Conhecimento em Base de Dados interativo e iterativo, envolvendo


diversas etapas, conforme a Figura 3.2. Essa por sua vez deve considerar os seguintes passos para se
conseguir extrair o conhecimento [Fayyad et al. 1996]:
1. Compreenso do domnio de aplicao;
2. Seleo de dados;
3. Preparao de dados;
4. Limpeza dos dados;
5. Data mining;
6. Interpretao e avaliao do conhecimento;
7. Consolidao do conhecimento.
As etapas do processo de KDD, normalmente, so realizadas de forma sequencial, ou seja, preciso compreender o domnio de aplicao, selecionar e transformar os dados para depois tentar encontrar padres nos dados. E por se tratar de um processo interativo, as pessoas envolvidas na sua
realizao devem possuir um canal de comunicao que viabilize uma boa troca de informaes [Oliveira 2000].
As etapas do processo de KDD sugeridas podem no cobrir exaustivamente todos passos existentes. Entretanto, esta sequncia de tarefas pode ser considerada como sendo os requisitos mnimos
para se conseguir extrair conhecimento de bases de dados.

3.2. Processo de Extrao de Conhecimento de Base de Dados

21

3.2.1 Compreenso do Domnio de Aplicao


O entendimento do domnio de aplicao, de onde ser extrado o conhecimento necessrio para
apoiar a tomada de decises de grande importncia. Para isso, fica claro a necessidade de identificar quais so os objetivos e requisitos necessrios para que seja possvel extrair e incorporar o
conhecimento adquirido.
No existe um padro que se deve seguir a fim de obter total compreenso do domnio de aplicao. Porm, alguns aspectos podem ser levados em considerao na tentativa de se definir a esfera
de ao de uma aplicao, como:
Definio dos objetivos e dos requisitos da extrao de conhecimento;
Identificao das possveis fontes de dados;
Modo de distribuio do conhecimento extrado;
Estudo de viabilidade e custos da aplicao do processo.
Uma vez que o domnio de aplicao tenha sido compreendido, deve-se selecionar e preparar os
dados para serem analisados na prxima etapa.

3.2.2 Seleo de Dados


Essa etapa preocupa-se em localizar e escolher quais as fontes de dados esto relacionadas ao domnio, para que um conjunto de dados apropriado possa ser selecionado das mesmas. Por exemplo, se o
objetivo fazer anlises das interaes entre os usurios de uma rede social, ento as fontes de dados
significantes para essa etapa seriam: mensagens entre usurios, conectividade entre ns (usurios),
usurios em comum, entre outros [Oliveira 2000].
As fontes de dados podem ser classificadas como internas e externas. As fontes internas normalmente so repositrios de dados que j esto incorporados ao sistema de aplicao do domnio em
questo. Tambm e normalmente so constitudas por Data Warehouse, bases de dados operacionais
e dados histricos. As fontes externas so compostas por todos os outros tipos de localidades que habitualmente no esto incorporados ao sistema de aplicao como, por exemplo, documentos (e.g.
relatrios), Internet (e.g. HTML) e informaes do especialista do domnio [Oliveira 2000].
Os dados contidos em fontes internas normalmente j esto armazenados em algum tipo de repositrio estruturado (e. g. base de dados relacional) e, por isso requerem menos processamento, pois
eles podem ser recuperados utilizando-se consultas SQL (Structured Query Language), por exemplo.
Enquanto que os dados contidos em fontes externas precisam ser formatado e inseridos de forma
que possam ser recuperados e preparados para anlise [Oliveira 2000].
As fontes podem possuir quantidades de gigabytes e terabytes de dados e, alm disso, estes dados
podem vir de fontes distintas, necessitando que estes estejam reduzidos e colocados num conjunto
de dados com estrutura homognea (e. g. tabela) para permitir a anlise conjunta destes. O dados
podem estar em diferentes lugares, exigindo uma integrao. Esta tarefa de integrao muitas vezes
no trivial, exigindo a adequao de alguns dados [Oliveira 2000].

3.2.3 Preparao de Dados


Essa etapa responsvel pela atividade de amostragem dos dados. Nem sempre possvel analisar
todos os dados de uma populao, sendo necessrio pegar uma amostra representativa para realizar
o processo de KDD. Os dados tambm podem estar em formatos diferentes, pois podem ter sido coletados de diferentes fontes. Ento, algumas transformaes devem ser feitas sobre eles, por exemplo,
converter tipos no suportados por um que todas as fontes consigam representar, se isso for possvel [Oliveira 2000].

3.2. Processo de Extrao de Conhecimento de Base de Dados

22

O tamanho do conjunto pode apresentar alguns problemas, pois a quantidade de dados reunida,
s vezes, pode impossibilitar a realizao do processo de KDD uma vez que algoritmos usados em
Data Mining conseguem tratar apenas um nmero limitado de registros. Por isso, deve-se utilizar
algumas tcnicas de amostragem para que se possa reduzir o tamanho de dados obtendo um subconjunto que seja relevante e representativo.
A realizao de amostragem crtica dentro do processo de KDD pois, se no forem utilizadas
tcnicas estatsticas adequadas, pode-se gerar um subconjunto de dados no representativo, resultando em anlise que no demonstra a verdadeira situao dos fatos registrados na base de dados
ou distorcendo resultados. Nesse interim, devem ser observados os seguintes aspectos para se fazer
amostragem dos dados:
O tamanho da amostra;
Estratgias para obteno da amostra (tcnicas estatsticas podem ser utilizadas, bem como o
apoio do especialista do domnio);
Homogeneidade dos dados;
Dinmica dos dados (mudana de valores de atributos ao longo do tempo).
Durante a coleta de dados, pode ocorrer dos dados conterem informaes replicadas, campos
faltantes"e rudos. Assim preciso limpar e pr-processar estes dados para que possam ser aplicadas
tcnicas de Data Mining (DM) [Oliveira 2000].

3.2.4 Limpeza e Pr-Processamento de Dados


Devido aos erros, registros replicados e dados ausentes presentes durante a preparao de dados
(Seo 3.2.3) importante fazer uma limpeza de pr-processamento nos dados. As operaes para
contornar esses erros"devem compreender, entre outros, os seguintes aspectos: padronizao dos
valores do atributos, remoo de registros duplicados, tratamento e eliminao de rudos e tratamento de valores ausentes.
Em um conjunto de dados constitudo por diversas fontes pode acontecer, por exemplo, que o
atributo sexo"possua diferentes valores e tipos com o mesmo significado como: masc", masculino", m"ou 1". Ento, deve-se transformar estes valores como sendo de um tipo nico e iguais
para todos, padronizando-os [Oliveira 2000].
Pode ocorrer que os mesmos dados, de um cliente, estejam contidos em diferentes registros e
sendo considerado como duas pessoas distintas, pois, o nome do cliente em um determinado registro
aparece sem abreviaes e em outro aparece abreviado. Deste modo, importante remover registros
duplicados.
Muitas vezes os dados coletados podem conter erros ocasionados por diversos fatores no momento da recuperao de diversas fontes, como: acidentes (e. g. falta de energia eltrica), tipos no
so suportados pelo gerenciador de base de dados (e.g. objetos multimdia podem no ser suportados e serem armazenados como lixo"), entre outros. Os campos que contm rudos nos seus valores
devem ser tratados atribuindo o valor correto aos dados, ou devem ser eliminados da base de dados
caso no tenham como ser tratados.
muito comum encontrar registros cujos campos possuam valores ausentes. Isto pode ocorrer
devido a erros na entrada dos dados, por exemplo, se no momento em que um operador estiver cadastrando as informaes de clientes, ele pode esquecer (ou ignorar) alguns campos de dados. Dessa
forma, deve-se estabelecer critrios para o tratamento de atributos ausentes [Oliveira 2000]
Apesar de existirem ferramentas capazes de automatizar essas tarefas, a presena de um especialista de domnio pode torn-la muito mais precisa e confivel. Com os dados selecionados, preparados, limpos e pr-processados pode-se dar incio etapa de Data Mining.

3.2. Processo de Extrao de Conhecimento de Base de Dados

23

3.2.5 Data Mining


A etapa de Data Mining, ou minerao de dados, pode ser vista como uma sequncia de etapas dentro
do processo de KDD, que pode envolver repetidas iteraes da aplicao de um determinado algoritmo com o objetivo de se extrair padres dos dados. Os algoritmos e as tcnicas usados para se criar
modelos a partir de dados, normalmente, provm de reas como: Aprendizado de Mquina (AM),
Reconhecimento de Padres e Estatstica. Estas tcnicas, muitas vezes, podem ser combinadas para
se obter resultados melhores.

3.2.5.1 Tcnicas Bsicas de Data Mining


Os dois objetivos principais da minerao de dados so a previso e a descrio de modelos. A previso pode ser conseguida utilizando-se determinadas variveis para prever valores desconhecidos
ou futuros de outras variveis de interesse. A descrio envolve a descoberta de padres interpretveis por humanos que descrevam os fatos cadastrados em bases de dados. Alguns autores como
Fayyad [Fayyad et al. 1996] mencionam que dentro do contexto de KDD, descrever modelos possui
maior importncia que prever os mesmos, embora a maioria dos algoritmos de AM e Reconhecimento de Padres foquem na previso [Oliveira 2000]:
Alm dos algoritmos de minerao de dados (explicados na Seo 3.2.5.2) necessrio descrever
as tcnicas utilizadas. Essas definies ficam mais claras considerando que os dados a serem minerados so representados em forma de tabela normal ou planilha. Dentro dessa, considera-se suas
linhas como dados (registros) e as colunas como atributos. Assumi-se que todas as linhas devem
ser consideradas para a minerao de dados, mas os valores de atributos de algumas podem estar
faltando.
Um outro conceito usado em minerao de dados o de espao de atributos. Pode-se imaginar
que cada dado em uma base (linhas na tabela) um ponto n-dimensional que pode ser facilmente
visualizado se houver duas ou trs dimenses (dados com mais de trs dimenses devem ser visualizados com tcnicas especficas). Dados semelhantes devem aparecer geometricamente prximos no
espao de atributos, e a distncia calculada neste espao entre dois pontos usada por vrias tcnicas de minerao de dados para representar semelhana e diferena entre os dados correspondentes.
A ordem que os dados aparecem na tabela irrelevante para a distribuio destes pontos no espao
de atributos.
Tabela 3.2: Exemplo de Dados para Minerao em Forma de Tabela [Santos 2009].

Para melhor entender as tcnicas existentes tem-se como exemplo de dados a Tabela 3.2, a qual
possui sete (07) registros e cada um tem seis (06) atributos (A 1 A 5 e classe). Os atributos A 1 A 4 so
numricos, possivelmente representados por escalas diferentes. O atributo A 5 discreto, representado por um caracter (I ou P). A classe discreta, podendo assumir valores como: baixo, mdio
ou alto. Para alguns dados, o valor deste atributo no se encontra disponvel, sendo representado
pelo smbolo ?.
Com estas definies possvel descrever as vrias tcnicas usadas para criar os modelos usados
em minerao de dados. Estas tcnicas podem ser categorizadas nos modelos usados em minerao

3.2. Processo de Extrao de Conhecimento de Base de Dados

24

de dados. Nos seguintes tipos [Santos 2009]: classificao, regresso, agrupamento, sumarizao,
modelagem de dependncia, deteco de mudanas entre outros.
Estas tcnicas no so mutuamente exclusivas entre si, ou seja, tcnicas de classificao como
rvores de deciso [Quinlan 1993] ou regresso so muito usadas para sumarizao. Classificadores
so usados para criar modelos para deteco de desvios, tcnicas de modelagem de dependncia
podem ser usadas para determinar subconjuntos de dados para processamento especializado, e at
mesmo tcnicas hbridas que combinam aspectos de classificao e agrupamento podem ser usadas
quando no for possvel usar dados e categorias de forma confivel.

3.2.5.1.1 Classificao
Descoberta de uma, funo preditiva que consegue classificar um dado em uma de vrias classes discretas que so pre-definidas ou conhecidas. Como por exemplo, segundo a Tabela 3.2, seria a
classificao do contedo de um documento a partir de atributos medidos do mesmo, no caso, determinao do valor do atributo classe"para cada registro, a partir dos valores dos atributos A 1 a A 5 .
A funo de classificao criada usando-se os atributos de vrios exemplos existentes de dados e de
suas classes fornecidas de forma supervisionada. O algoritmo de classificao aprender que testes e
valores devem ser aplicados aos atributos para decidir por uma classe. A classe deve ser um atributo
de tipo discreto, e para que um bom modelo seja gerado, necessrio ter um conjunto razovel de
dados completos para cada uma das classes consideradas para a tarefa [Santos 2009].

3.2.5.1.2 Regresso
Descoberta de uma funo preditiva de forma similar feita na tcnica de Classificao, mas com
o objetivo de calcular o valor numrico real ao invs de obter uma classe discreta. Algoritmos de
regresso podem ser usados para atribuir uma nota numrica (como um fator de indicao) para um
filme baseado em seus atributos. Assim como no caso da Classificao, a funo que calcula a nota
poder ser criada analisando exemplos de filmes, seus atributos e notas j existentes, onde a nota
deve ser um atributo numrico [Santos 2009].

3.2.5.1.3 Agrupamento ou Clustering


Descoberta de grupos naturais de dados que possivelmente indicam similaridade entre os mesmos. Dados agrupados em um mesmo grupo podem ser considerados parecidos o suficiente; e dados
em grupos diferentes so considerados diferentes entre si. Diferentemente das tcnicas de Classificao e Regresso, no existem classes ou valores pr-definidos que podem ser usados para identificar
as classes. Os algoritmos de agrupamento formam os grupos considerados naturais de acordo com
alguma mtrica, para que possam ser processados posteriormente como objetos correspondendo
mesma categoria. A maioria dos algoritmos clssicos de agrupamento somente permite o uso de
atributos numricos, j que uma funo de distncia usada para determinar a pertinncia de um
determinado dado a um grupo, mas extenses que consideram dados numricos e no numricos de
forma separada podem ser criadas. Usando a Tabela 3.2, e tcnicas tradicionais, possvel descartar
os atributos A 5 e Classe, e verificar se os dados podem ser agrupados em dois ou mais grupos naturais, ou verificar se os dados para determinada classe formam grupos compactos e bem separados
dos de outras classes [Santos 2009].

3.2.5.1.4 Sumarizao
Tcnicas que permitem a identificao de uma descrio compacta e inteligvel para os dados (ou
para um subconjunto dos mesmos). Frequentemente possvel sumarizar os dados mesmo com alguma impreciso, e o valor das tcnicas na capacidade de descrever os dados, no necessariamente

3.2. Processo de Extrao de Conhecimento de Base de Dados

25

Tabela 3.3: Classificao dos Algoritmos de AM usados em Data Mining [Oliveira 2000].

em sua preciso. Uma sumarizao grosseira pode ser feita com os dados da Tabela 3.2 e expressa
com regras: documentos classificados como alto"tem o valor do atributo A 2 maior do que 50 e documentos classificados como mdio"tem os valores de A 1 maiores que 100 [Santos 2009].

3.2.5.1.5 Modelagem de Dependncia


A Modelagem de Depencd considera tcnicas que permitem a identificao de um modelo que
descreve dependncias significativas entre valores de um atributo de um conjunto de dados ou parte
dele ou valores existentes nos dados. Tcnicas de busca de regras de associao (tambm conhecidas pelo nome genrico carrinho de compras") podem ser consideradas tcnicas do modelo de
dependncia. Essas tcnicas geralmente assumem que os tipos de atributos usados so discretos ou
discretizveis no prprio algoritmo que implementa a tcnica [Santos 2009].

3.2.5.1.6 Deteco de Mudana ou Desvios (Outliers)


Tcnicas que permitem a descoberta e identificao de dados que no se comportam de acordo
com um modelo aceitvel de dados (ou, por exemplo, mudanas em sries temporais ou em dados
indexados por tempo). Estas tcnicas podem identificar mudanas ou padres inesperados em todos
os dados ou em um subconjunto [Santos 2009].

3.2.5.2 Algoritmos Utilizados em Data Mining


A escolha de um algoritmo para DM deve considerar vrios aspectos: objetivo da tarefa a ser realizada, tamanho da base de dados, preciso exigida, entre outros. Muitas vezes, so realizados testes
empricos com diferentes tipos de algoritmos para se descobrir qual deles apresenta o melhor resultado em termos da qualidade e preciso dos padres encontrados.
Os algoritmos de aprendizado de mquina podem ser classificados em vrios aspectos: por tipo
de aprendizado, por tipo de paradigma, por tipo de linguagem de descrio, e por modo de incorporao de novos exemplos. A Tabela 3.3 apresenta um resumo dessa classificao [Oliveira 2000].
Com relao ao modo como esses algoritmos aprendem, eles podem ser classificados como sendo
de aprendizado supervisionado e no supervisionado. No aprendizado supervisionado os algoritmos
utilizam dados para treinamento, dados para validao e teste dos modelos gerados. No aprendizado
no-supervisionado no existem dados de treinamento, assim o algoritmo deve tentar encontrar os
padres atravs de caracterizao e/ou segmentao destes dados. Deste modo, os algoritmos de
aprendizado de mquina podem seguir diferentes paradigmas, tais como [Oliveira 2000]:
Paradigma Simblico: o aprendizado feito na tentativa de se construir representaes simblicas
de um conceito atravs da anlise de exemplos de contra exemplos desse conceito. As representaes simblicas esto tipicamente na forma de alguma expresso lgica, rvore de deci-

3.2. Processo de Extrao de Conhecimento de Base de Dados

26

so, regras de produo, rede semntica, etc. Os mtodos de aprendizado podem ser tratados
como: proposicional e relacional [Tecuci et al. 1995].
Paradigma Estatstico: as tcnicas estatsticas, em geral, tendem a focar tarefas em que todos os
atributos tm valores contnuos. Vrios modelos matemticos so utilizados para se construir
os modelos dos dados [Elder IV e Pregibon 1996]
Paradigma Instance-Based: uma forma de classificar um caso lembrar de um caso similar cuja
classe conhecida e assumir que o novo caso ter a mesma classe. Esta filosofia exemplifica os
sistemas instance-based, que classificam casos nunca vistos atravs de casos similares conhecidos [Aha, Kibler e Albert 1991, Quinlan 1993].
Paradigma Conexionista: as redes neurais artificiais (RNA) so construes matemticas relativamente simples que utilizam o mecanismo de paralelismo, onde so conectados um grande
nmero de pequenas unidades de processamento ligadas em rede. As RNA possuem a capacidade de aprender por exemplos e fazer interpolaes e extrapolaes do que aprenderam.
No paradigma conexionista no se procura obter regras como na abordagem simblica, mas
determinar a intensidade de conexes entre neurnios [Braga, Carvalho e Ludermir 2007].
Paradigma Gentico: um classificador gentico consiste de uma populao de elementos de classificao que competem para fazer uma predio, onde os elementos que possuem uma performance fraca so descartados e os mais fortes proliferam, produzindo variaes de si mesmos.
Os algoritmos deste paradigma so conhecidos por algoritmos genticos, os quais baseiam-se
nos mecanismos de seleo natural e gentico para fazer otimizaes e buscas [Goldberg].
Em um sistema de aprendizado preciso representar exemplos, conceitos ou a teoria do domnio
da aplicao na forma de linguagens de descrio. Estas linguagens so [Oliveira 2000]:
Linguagem de descrio de exemplos ou instncias: descreve os exemplos utilizados pelo programa
para aprender conceitos, estabelecendo limites sobre tipos de padres que o sistema pode
aprender;
Linguagem de descrio de hipteses ou conceitos aprendidos: descreve o estado interno de um programa de aprendizado, correspondente a teoria dos conceitos ou padres que existem nos dados, estabelecendo limites sobre o que pode ou no pode ser aprendido (e.g. regras de deciso,
rvores de deciso);
Linguagem de descrio da teoria de domnio ou conhecimento de fundo: descreve todo o conhecimento prvio que o programa possui a respeito do domnio.
Os algoritmos de aprendizado indutivo tambm podem ser classificados de acordo com a possibilidade de integrao de novos exemplos aos modelos encontrados, podendo ser classificados
como [Oliveira 2000]:
No incremental: necessita de que todos os exemplos de treinamento, simultaneamente, estejam
disponveis para que seja induzido um conceito. vantajoso usar esses algoritmos para problemas de aprendizado onde todos os exemplos esto disponveis e, provavelmente, no iro
ocorrer mudanas;
Incremental: rev a definio do conceito corrente, se necessrio, em resposta a cada nova instncia
de treinamento observada. Os exemplos observados so considerados um a um pelo sistema.
Isto , o sistema considera o primeiro exemplo e, de acordo com esse exemplo, constri uma
determinada hiptese; a seguir considera um segundo exemplo, que pode ou no modificar a
primeira hiptese, baseando-se em como esta classifica o segundo exemplo

3.2. Processo de Extrao de Conhecimento de Base de Dados

27

Tabela 3.4: Exemplos de Algoritmos de Aprendizado de Mquina [Oliveira 2000].

Alguns dos algoritmos utilizados para fazer extrao de padres [Tecuci et al. 1995, Kohavi et al.
1994] so listados na Tabela 3.4. Estes algoritmos so classificados em funo de tipo de aprendizado,
paradigma de aprendizado, linguagem de descrio e modo que novos exemplos so incorporados.

3.2.5.3 Extrao de Padres


Aps definida a tarefa de Data Mining e escolhido o algoritmo, possvel iniciar o processo de extrao de conhecimento. Entretanto, deve ser observado que o analista precisa observar algumas
aspectos de extrao de conhecimento tais como: Definio de Parmetros, Reduo de Atributos,
Generalizao, Mudanas dos Dados e Compreenso de Padres. Que sero detalhadas nas prximas sees [Oliveira 2000].

3.2.5.4 Definio de Parmetros


Algoritmos diferentes, normalmente, possuem parmetros distintos. A definio correta dos parmetros, frequentemente, pode ser conseguida atravs de experimentos empricos. Assim, quanto mais
experiente for o analista maior sero as chances deste conseguir ajustar os parmetros adequadamente.

3.2.5.5 Reduo de Atributos


Pode ser percebido que alguns dos atributos do conjunto de dados no possuem muita relevncia
para o algoritmo selecionado, ento pode-se pensar em excluir tais atributos.

3.2.5.6 Generalizao
Um algoritmo deve ser capaz de reconhecer padres desconhecidos e no decorar exemplos apresentados. Para isso, deve-se utilizar tcnicas estatsticas que reforam a generalizao de um preditor
ou descritor, alm de garantir pequenas taxas de erros. Para isso, as amostras so dividas em conjuntos separados de treinamento e teste, possibilitando dessa forma medir a taxa de erro atravs do
conjunto de teste. Essas tcnicas so [Oliveira 2000]:
Holdout: divide fixamente a amostra de exemplos em dois teros para treinamento e um tero
para teste. A estimativa deste mtodo adequada para grandes conjuntos de dados.
Resampling: realizam experimentos com diferentes parties das instncias em teste e treinamento. Possui como taxa de erro a mdia das taxas de erros calculadas sobre o conjunto de
teste e treinamento, e possui como taxa de erro a mdia das taxas de erros calculadas sobre
o conjunto de teste em casa experimento. Um mtodo bastante utilizado de resampling o

3.3. Representao e Processamento de Dados da Web para Minerao

28

cross-validation que divide um conjunto de exemplos em k parties mutuamente exclusivas.


A cada iterao utilizada uma partio para testar o sistema de aprendizado e k 1 restantes
para o treinamento. Como so realizadas k iteraes, ento todas as k parties servem como
conjunto de teste.

3.2.5.7 Mudanas dos Dados


Dados que mudam com muita frequncia podem invalidar os padres descobertos anteriormente.
A possvel soluo para este problemas incluir mtodos incrementais que consigam atualizar os
padres j encontrados.

3.2.5.8 Compreenso de Padres


Em muitas aplicaes importante tornar as descobertas mais facilmente compreensveis aos usurios. Para tanto, podem ser utilizadas tcnicas sofisticadas de visualizao de dados. Os resultados
obtidos, normalmente, so apresentados em algum tipo de representao como rvores de deciso,
regras de deciso, grficos ou relatrios escritos.
Vrias reas esto envolvidas no processo de KDD, desde a coleta dos dados a serem analisados
at a visualizao dos resultados obtidos [Oliveira 2000].

3.2.6 Interpretao e Avaliao de Padres


Os padres encontrados na etapa de DM devem ser validados a partir da interpretao e avaliao
destes. Os usurios envolvidos devem interpretar os padres extrados e, para tal, podem lanar mo
de ferramentas estatsticas e de visualizao que permitam fazer uma leitura"precisa sobre os resultados, de forma a possibilitar a verificao da validade e novidade, ou mesmo, a irrelevncia dos
padres encontrados [Oliveira 2000].
Caso o conhecimento no seja validado, ento provavelmente deve-se retornar s etapas anteriores e tentar refaz-las ou seno melhor-las. Esta iterao pode ocorrer at que se obtenha resultados
aceitveis ou concluir-se que seja possvel extrair conhecimento relevante dos dados [Oliveira 2000].

3.2.7 Consolidao do Conhecimento


Nessa etapa deve-se agregar valor a um sistema de apoio tomada de deciso. Isto feito incorporandose tal conhecimento a um sistema de aplicao ou documentando-o e relatando-o s partes interessadas. Aps a consolidao do conhecimento, pode-se resolver conflitos potenciais entre os conhecimento anteriores e previamente extrados ou acreditados [Oliveira 2000].

3.3 Representao e Processamento de Dados da Web para Minerao


Estudos de minerao de dados na Web possuem trs enfoques principais [Santos 2009]:
Minerao de Contedo da Web, que o processo de extrao de conhecimento do contedo
de documentos e de seus metadados (descrio, informaes sobre autores, palavras-chave,
etc). Esse enfoque abrange principalmente documentos textuais (pginas em texto, HTML ou
outros formatos; e-mails, lista de discusso, grupos de usurios blogs, etc), mas pode-se tambm incluir minerao de dados multimdia na Web usando ou no dados textuais associados.
Minerao de Estruturas da Web, que o processo de descoberta de conhecimento a partir da
organizao da Web, em especial atravs da ligao entre documentos na Web.

3.3. Representao e Processamento de Dados da Web para Minerao

29

Minerao de Uso da Web, que envolve a anlise de dados coletados sobre o acesso documentos na Web (em particular logs), geralmente com a inteno de descobrir padres de acesso a
sites ou conjuntos de documentos apara melhorar a qualidade da experincia do usurio ou
para modelar o comportamento dos mesmos.
Segundo Rafael Santos [Santos 2009] esses trs enfoques no so mutuamente exclusivos. Frequentemente usa-se um conjunto de dados como suporte a outro. Algumas abordagens ( [Wu et
al. 2008] e [Utard e Frnkranz 2005]) usam dados de contedo dos documentos e das ligaes entre
documentos para tarefas especficas de minerao, e outras [Berendt et al. 2002] usam logs de servidores juntamente com as estruturas correspondentes dos sites para melhor caracterizar os padres
de acesso dos usurios.
A natureza dos dados que podem ser usados diferenciam-se bastante dependendo do enfoque
dado: dados de contedo so geralmente textuais, com alguma estrutura, dependendo do formato
(HTML, e-mails), que indica sees ou identifica metadados dos documentos. Dados sobre o uso
na Web, em geral so estruturalmente bem mais simples, representados como entradas temporais
em uma base de dados textual (logs) que podem ser praticamente considerados como uma tabela de
banco de dados relacionais. Dados de estruturas da Web so representados como grafos onde vrtices
representam objetos na Web e arestas representam conexes entre estes objetos [Santos 2009].

3.3.1 Estado da Arte: Aplicaes de Minerao de Dados na Web


Por se tratar de um assunto muito vasto, esta seo mostra apenas alguns trabalhos publicados relacionados com a minerao de dados na Web. Devido sua dimenso os trabalhos podem ser publicados
em vrios tipos de veculos, deste modo, forne-se aqui uma pequena amostra do contedo como um
todo.

3.3.1.1 Minerao de Contedo


[Gryc et al. 2007] investigam algumas abordagens analticas para tentar descobrir como a inovao
acontece com dados de discusso coletados de uma rede social limitada e temporria"(Innovation
Jam da IBM). Os dados contm informaes textuais (tpicos de discusso), a estrutura destes tpicos
e as relaes entre os participantes (a maioria funcionrios da IBM).
[Durant e Smith 2006] apresentam tcnicas de minerao de dados que, usadas com alguns atributos especficos, conseguem estimar o sentimento poltico de blogs. A seleo de atributos melhora
consideravelmente a qualidade da classificao obtida com algoritmos clssicos.
[Baeza-Yates, Jr. e Ziviani 2006] apresentam um estudo interessante sobre o reuso de contedo
na Web, mostrando que o contedo de parte da Web usada no estudo reciclada"de outras pginas
mais antigas, e comentam sobre a influncia deste fato nos algoritmos de classificao de sistemas
de busca.
[Linstead et al. 2009] apresentam uma ferramenta que coleta, processa e armazena documentos
em repositrios de software na Internet, criando mtricas e descritores sobre autores, documentos,
palavras e tpicos, que podem ser usadas para quantificao e anlise do cdigo e busca por similaridade, disparidades e competncias.
[Piatetsky-Shapiro 2007] usa os documentos do site KDNuggets.com para uma anlise das mudanas dos termos frequentes ao longo do tempo, identificando mudanas de comportamento como
ofertas de emprego relacionadas com minerao de dados por indstrias e decrscimo de interesse
por alguns termos (com explicaes baseadas em experincia pessoal).

3.3.1.2 Minerao de Estruturas na Web


O exemplo mais conhecido de algoritmo de minerao de estruturas na Web o PageRank [Wu et al.
2008], implementado pelos criadores do Google.

3.3. Representao e Processamento de Dados da Web para Minerao

30

[Utard e Frnkranz 2005] mostram uma nova maneira de incorporar informaes sobre o contedo de dois documentos na Web conectados por hyperlinks. Ao invs de usar todo o texto ou um
sumrio dos documentos, eles usam parte das pginas prximas das declaraes dos hyperlinks. Seu
trabalho apresenta vrias abordagens para identificar proximidade estrutural e textual entre os documentos, e avalia estas abordagens.
[Bhagat, Cormode e Rozenbaum 2007] usam informaes de relaes entre blogs para classificlos atravs de uma abordagem de rotulao de grafos de forma semi-supervisionada. A tcnica demonstrada classificando blogs como semelhantes a alguns j rotulados usando atributos como idade,
sexo e localizao.

3.3.1.3 Minerao de Redes Sociais e Similares


[Creamer et al. 2007] apresentam uma tcnica de minerao de ligaes para extrair hierarquias
sociais a partir de colees de mensagens eletrnicas. A abordagem demonstrada com dados reais (troca de mensagens entre executivos da empresa Enron). A tcnica pode ser usada para inferir
hierarquias de outros domnios, como redes sociais, por exemplo.
[Creamer e Stolfo 2009] apresentam um algoritmo que pode ser aplicado a redes sociais corporativas (compostas de diretores e analistas financeiros) para avaliao do impacto de parmetros
[REVER] em ganhos e estratgias das empresas.
[Zaane, Chen e Goebel 2009] consideram que bases de dados bibliogrficas podem ser usadas
para abstrair redes sociais de pesquisadores, criando e analisando grafos de relaes autor-conferncia
e autor-conferncia-tpicos. A tcnica pode ser usada para identificar reas de atuao similares e
recomendar colaboraes entre pesquisadores.
[Semeraro et al. 2006] apresentam um sistema de descoberta de perfis de usurios que extrai
as preferncias do usurio a partir de bases de artigos cientficos indexados semanticamente. Uma
comparao entre tcnicas para induo de perfis de usurios a partir de recomendaes de produtos
dos usurios, e consequentemente de suas preferncias, feita por [Esposito et al. 2003].
[Williams et al. 2006] apresentam um estudo sobre mecanismos que podem impedir ou minimizar o efeito de ataques por injeo de perfis", que so usados para prejudicar revises em sistemas
abertos de recomendao. Este trabalho extende um anterior ( [Mobasher, Jin e Zhou 2003]) que
apresenta as vulnerabilidades em sistemas colaborativos de recomendao e as tcnicas que podem
ser usadas para explorar estas vulnerabilidades.
[Wang et al. 2008] apresentam um modelo generativo para inferncia de comunidades a partir de
uma sequncia temporal de eventos de interaes entre membros de uma comunidade, em contraste
maioria das tcnicas tradicionais de minerao de dados de comunidades, que usam redes ou grafos
estticos.
[Shah et al. 2002] usam tcnicas para identificar padres frequentes ou comuns de lances em um
sistema de leiles eletrnico (eBay), e conseguem confirmar padres j esperados e identificar novos
nos dados coletados. Como parte da anlise os autores apresentam possveis motivaes econmicas
para alguns destes padres identificam possveis tentativas de fraude.

3.3.1.4 Minerao de Registros de Acesso (logs) a Servidores e Similares


[Anand, Mulvenna e Chevalier 2003] apresentam uma viso geral do processo de minerao de registros de acesso, analisando vrias mtricas de eficincia propostas na literatura e propondo modelos
de interao entre usurios e objetos em um site.
[Kim e Chan 2005] mostram uma tcnica para personalizar resultados de um sistema de buscas
na Internet usando interesse pessoal dos usurios, representado atravs de seus marcadores (bookmarks) que indicam interesses em pginas e tpicos.
[Masseglia et al. 2008] apresentam a soluo para um problema interessante: tradicionalmente
logs so segmentados em perodos arbitrrios (um determinado ms ou perodo para o qual existe
um interesse explcito), o que faz com que a anlise seja automaticamente tendenciosa e que impede

3.3. Representao e Processamento de Dados da Web para Minerao

31

a descoberta de picos sazonais em registros. A abordagem proposta pelos autores extrai automaticamente perodos densos"de acesso e padres de comportamento frequentes.

3.3.1.5 Outros
[Escudeiro e Jorge 2005] apresentam uma metodologia de recuperao automtica de contedo (colees de documentos) da Web baseada em tpicos que adaptativa e dinmica (podendo mudar de
acordo com mudanas de interesse do usurio). O artigo tambm apresenta uma detalhada anlise
de sistemas semelhantes desenvolvidos anteriormente, por outros autores.
[Markov, Last e Kandel 2006]propem o uso de informao estrutural e contextual para classificao de documentos, e mostram que o uso deste tipo de informao (ordem e proximidade das
palavras, localizao da palavra no documento, marcadores de texto como HTML) oferece resultados
melhores do que os obtidos com classificadores que usam vetores de atributos dos textos.

CAPTULO

R EDES S OCIAIS : R EFERENCIAL T ERICO


Redes Sociais podem ser entendidas, de forma geral, como um conjunto de ns scio-relevantes conectados por uma ou mais relaes. Estes ns, tambm conhecidos como membros da rede, so as
unidades que so conectadas pelas relaes cujos padres estuda-se neste trabalho. Muitas vezes
essas unidades so pessoas ou organizaes, mas a princpio toda unidade que se conecta a outras
unidades pode ser estudada como ns dentro de uma rede. Isto incluindo pginas web [Watts 1999],
artigos [Wellman et al. 2003], pases, vizinhanas, posies, entre outros.
Definir quais ns incluir dentro da anlise de redes geralmente acaba acarretando certos desafios. Por exemplo, um estudioso na rea de pesquisas mdicas sobre doenas de corao. Definiri
quais indivduos considerar para tal anlise pode ser uma taref rdua, especialmente porque muitas
anlises em redes evitam abordagens baseadas em grupos para compreender o mundo social.

4.1 Elementos des Redes Sociais


As redes sociais, sejam elas virtuais ou no, possuem elementos que no so to facilmente identificados quanto em uma rede comum. Como definir os atores sociais dentro da Internet? Quais tipos de
relaes considerar entre os atores? O que influencia na dinmica do contedo dessa rede? Quais os
tipos de dados que melhor exemplificam/modelam essas redes ? Deste modo, tem-se um vasto nmero de elementos presentes nas redes sociais. As sees seguintes focam em explicar os principais
elementos constituintes destas redes, assim como suas principais mtricas.

4.1.1 Atores
Os Atores so um dos principais elementos das redes sociais, os quais so representados pelos ns.
Estes, geralmente, so pessoas que atuam de forma a moldar as estruturas sociais, atravs da interao e da constituio de laos sociais. No entanto, quando se foca em redes sociais na Internet
o atores podem assumir papis um pouco diferente do padres convencionais. Isso por causa do
distanciamento entre os envolvidos na interao social, principal caracterstica da comunicao mediada por computador, os atores no so imediatamente discernveis. Estes, no ciberespao, podem
ser representados por um weblog, por um fotolog, por um twitter, etc [Recuero 2009].
A importncia destes atores frente s redes sociais est presente em trabalhos como: [Dring
2002], [Lemos 2002], [Sibilia 2003], [Sibilia 2004] entre outros.

32

4.1. Elementos des Redes Sociais

33

4.1.2 Conexes
Sem juzo de valores as conexes entre os ns das redes sociais so as relaes existentes entre os
mesmos. Estas por usa vez, podem ser percebidas de diversas maneiras. As conexes em uma rede
social so constitudas dos laos sociais, que so formados atravs da interao social entre os atores
[Recuero 2009].
Por determinar as alteraes dentro das estruturas das redes sociais, as conexes so o grande
foco de estudo na anlise de redes sociais. Essas conexes, na Internet, so percebidas graas possibilidade de manter os rastros sociais dos indivduos, que persistem. Um comentrio em um weblog,
por exemplo, permanece ali at algum o delete ou o weblog saia do ar. Essas relaes permanecem
no ciberespao, permitindo ao pesquisador a percepo das trocas sociais.

4.1.3 Interao, Relao e Laos Sociais


Para distinguir os diferentes tipos de conexes especificam-se as mesmas de acordo com suas principais caractersticas.

4.1.3.1 Interaes
A interao pode ser vista como a matria prima das relaes e dos laos sociais. Para autores como
[Cardoso e Iaani 1966], a interao implica em uma reciprocidade da satisfao entre os envolvidos e
compreende tambm as intenes e atuaes de cada um. A interao , portanto, aquela que tem
um reflexo comunicativo entre o indivduo e seus pares, como reflexo social. Deste modo, o estudo
da interao social compreende o estudo da comunicao entre os atores. As interaes dentro do
ciberespao podem ser classificadas como [Recuero 2009]:
Sncrona: aquela que simula uma interao em tempo real (e.g. chats, sistema de mensagens, etc);
Assncrona: aquela que no possui uma expectativa de resposta imediata (e.g. e-mails).
No mbito virtual, as interaes entre atores ocorrem de forma um pouco diferente. Segundo Raquel, [Recuero 2009], h vrios fatores, dentre os quais dois possuem maior relevncia. O primeiro
que os atores no se do imediatamente a conhecer, no existe pistas da linguagem no verbal
e da interpretao do contexto da interao. tudo construdo pela mediao do computador. O
segundo a influncia das possibilidades de comunicao das ferramentas utilizadas pelos atores.
Essas permitem que a interao entre os usurios perdurem mesmo quando os mesmos se encontram desconectados do ciberespao. Com isso, pode-se atribuir a esse ltimo fator o aparecimento
de interaes assncronas.

4.1.3.2 Relaes
O conjunto de interaes sociais forma relaes sociais. Segundo [Wasserman e Faust 1994] so os
padres de interao, que definem uma relao social que envolve dois ou mais agentes ou indivduos
comunicantes. Esses padres (ou regularidades) nas interaes fazem surgir as estruturas.
A relao considerada a unidade bsica de anlise em uma rede social. Entretanto, uma relao
sempre envolve uma quantidade grande de interaes. Por exemplo, dar suporte, pode acontecer
atravs de uma troca de mensagens no Google Talk ou mesmo de um comentrio, ou de ambos.
Receber suporte tambm resultado dessas interaes. No entanto, as relaes no precisam ser
compostas apenas de interaes capazes de construir, ou acrescentar algo. Elas tambm podem ser
conflituosas, ou compreender aes que diminuam a fora do lao social [Recuero 2009].
As relaes podem ser mediadas pelo computador, da mesma forma que as interaes. A mediao pelo computador traz aspectos importantes para a relao social. Este distanciamento proporciona, por exemplo, anonimato sob muitas formas, j que a relao entre o corpo fsico e a personalidade do ator j no imediatamente dada a conhecer. Logo, mais fcil iniciar e terminar relaes,

4.1. Elementos des Redes Sociais

34

pois muitas vezes, elas no envolvem o eu"fsico do ator. Alm do mais, barreiras como sexualidade,
cor, limitaes fsicas e outras no so imediatamente dadas a conhecer, proporcionando uma maior
liberdade aos atores envolvidos na relao, que podem reconstruir-se no ciberespao [Recuero 2009].

4.1.3.3 Laos
Wellman [Wellman 2001] define laos como,
Laos consistem em uma ou mais relaes especficas, tais como proximidade, contato frequente,
fluxos de informao, conflito ou suporte emocional. A interconexo destes laos canaliza recursos
para localizaes especficas na estrutura dos sistemas sociais. Os padres destas relaes - a estrutura
da rede social - organiza os sistemas de troca, controle, dependncia, cooperao e conflito
Physical Place and Cyberplace: The Rise of Personalized Networking - BARRY WELLMAN

O lao a efetiva conexo entre os atores que so envolvidos na interaes. Laos so formas mais
institucionalizadas de conexo entre atores, constitudos no tempo e atravs da interao social. Um
lao constitudo a partir das interaes e das relaes, sendo denominado lao relacional [Recuero
2009].
No entanto, Breiger [Breiger 1974] tambm explica que os laos podem ter outra constituio,
atravs da associao. Para ele as relaes sociais constituem a conexo entre os indivduos. Entretanto, a conexo entre um indivduo e uma instituio ou grupo torna-se um lao de outra ordem,
representado unicamente por um sentimento de pertencimento. Essa caracterstica representa um
lao associativo.
Para Breiger o lao social no depende apenas das interaes. Deste modo, laos relacionais so
constitudos atravs de relaes sociais, ou seja, somente acontecem atravs da interao social. Laos de associao independem dessa ao, sendo necessrio apenas um pertencimento a um determinado local, instituio ou grupo.
possvel classificar os laos em mais dois tipos [Recuero 2009]:
Laos fortes: so aqueles que se caracterizam pela intimidade, pela proximidade e pela intencionalidade em criar e manter uma conexo entre duas pessoas. Em outras palavras, esses laos
caracterizam as relaes duradouras entre amigos, por exemplo. Laos fortes constituem-se
em vias mais amplas e concretas para as trocas sociais.
Laos fracos: caracterizam-se por relaes esparsas, as quais no so ntimas ou prximas.
possvel observar esse tipo de relao quando se faz referncia amigos de pessoas conhecidas,
os quais no se tem uma relao intima ou prxima. Nesses tipos de laos as trocas sociais so
mais difusas. Laos fracos so fundamentais, pois conectam os clusters nas redes sociais.
Vale ressaltar que ambos os laos, fortes e fracos, so sempre relacionais pois so consequncia
da interao que, atravs do contedo e das mensagens constituem uma conexo entre os atores envolvidos. Um outro aspecto que deriva da caracterstica da fora dos laos que nem todos estes
laos so recprocos. Por exemplo, considere um ator A que tem como melhor amigo outro ator B
(lao forte) e que B, em retorno, no considera A como uma pessoa ntima ou at mesmo um amigo
(lao mais fraco). Isso mostra que os laos que conectam esses dois indivduos possuem foras diferentes, tratando-se de laos assimtricos. Os laos so considerados simtricos quando possuem a
mesma fora em ambos os sentidos de conexo [Recuero 2009].
Laos sociais mediados pelo computador costumam ser do tipo multiplexo. Laos desse tipo so
caracterizados por possurem, em sua constituio, diversos tipos de relaes sociais. Por exemplo,
um mesmo grupo de amigos interage entre si dentro do ambiente de trabalho, na academia e em
momentos de lazer. Laos multiplexos refletem interaes que acontecem em diversos espaos e
sistemas.

4.2. Tipos de Redes Sociais

35

4.1.4 Capital Social


O capital social representa a qualidade das conexes de uma rede social. Segundo Raquel, [Recuero
2009] esse elemento um dos mais estudados por diversos autores como um indicativo da conexo
entre pares de indivduos em uma rede social. Por esse motivo encontra-se diversas abordagens sobre
tal elemento. No entanto, concorda-se que este refere-se a um valor constitudo a partir das interaes entre os atores sociais. Vale ressaltar que o clculo deste item no uma tarefa fcil. A seguir
listam-se alguns dos conceitos mais utilizados referente ao capital social:
[Bourdieu 1986]: O capital social o agregado dos recursos atuais e potenciais, os quais esto conectados com a posse de uma rede durvel, de relaes de conhecimento e reconhecimento mais ou
menos institucionalizadas, ou em outras palavras, associao a um grupo - o qual prov cada
um dos membros com suporte do capital coletivo.
[Coleman 1988]: O capital social definido por sua funo. No uma entidade nica, mas uma variedade de entidades, com dois elementos em comum: consistem em um aspecto das estruturas
sociais, e facilitam certas aes dos atores - tanto corporaes quando pessoas - dentro da estrutura. Como outras formas de capital, o capital social produtivo, fazendo com que seja possvel
atingir certos fins que, sem ele, no seriam possveis de ser atingidos.
[Putnam 2000]: O capital social refere-se conexo entre indivduos - redes sociais e normas de reciprocidade e confiana que emergem dela.

4.2 Tipos de Redes Sociais


As redes sociais podem ser dividas em dois tipos: as redes emergentes e as redes de filiao ou redes
de associao. Os dois tipos podem estar presentes em uma mesma rede analisada. No entanto,
dependendo da forma que se escolhe observar a rede, percebe-se aspectos diferentes dessa rede.

4.2.1 Redes Sociais Emergentes


As redes desse tipo so aquelas expressas a partir das interaes entre os atores sociais. So redes
cujas conexes entre os ns emergem atravs das trocas sociais realizadas pela interao social. Essas redes surgem de acordo com uma estrutura bottom-up, caracterizada pela construo do grupo
atravs da interao, por exemplo, nos comentrios de uma pgina pessoal. Esse tipo de interao proporcionaria a criao de laos sociais dialgicos, que eventualmente possuem capacidade
de gerar laos mais fortes. Ao analisar uma rede em um site de relacionamentos (e.g. Orkut, Facebook, etc) percebe-se que, atravs dos comentrios trocados entre os atores (e.g. pessoas, representaes de empresas, etc) uma rede emergente observada. Isso porqu tem-se, constantemente, sua
rede sendo construda e reconstruda atravs das trocas sociais. A Figura 4.1 mostra a caracterstica
bottom-up observada nessas redes, na qual comentrios constroem"o grupo atravs das interaes
entre os atores [Recuero 2009].

4.2. Tipos de Redes Sociais

36

Figura 4.1: Exemplo de uma Rede Emergente [Branding 2008,].

Essas redes comumente so pequenas, pois a quantidade de comentrios recprocos, que realmente representam trocas sociais, concentrada em poucos ns, tanto pelo investimento, quanto
pelo tempo necessrio para que as trocas sociais aconteam. Em outras palavras, a redes emergentes dependem do tempo (assim como seu comprometimento e investimento) disponvel para que
as interaes entre os atores sociais no computador ganhem fora. Nesse tipo de rede os atores so
responsveis por manter um certo fluxo de dados, de modo a no deixar que esses sejam cessados
e a rede esquecida, e assim perdendo seu valor/contribuio para o todo da rede. Assim, quando
analisadas, as redes desse tipo mostram clusters altamente conectados, conforme mostra a Figura
4.2 [Recuero 2009].

Figura 4.2: Cluster em uma Rede Emergente [Recuero 2009,].

4.3. Anlise de Redes Sociais

37

Para analisar as trocas sociais nesse tipo de rede investiga-se os comentrios trocados, as conversaes, a rede viva". Deste modo, redes emergentes so centradas na interao, constitudas
atravs da interao do tipo mtuo. Essa interao social mtua forma redes sociais nas quais os laos so constitudos de um pertencimento relacional, que emergente, caracterizado pelo sentir-se
parte"atravs das trocas comunicacionais [Primo 2003].

4.2.2 Redes Sociais de Filiao ou Redes Associativas


As redes de filiao so constitudas de dois tipos de ns: os atores e os grupos, os quais se relacionam
por conexes de pertencimento [Recuero 2009]. Segundo Watts [Watts 2003], a rede de filiao
uma estrutura de grupo que no parte de laos sociais entre seus membros, mas que permite que aa
pessoas interajam e que eles sejam construdos. A relao que define uma rede de filiao a relao
de pertencimento, descolado de qualquer tipo de interao. No entanto, para o autor, essas redes
permitem a inferncia de laos sociais, uma vez que, quanto maior o nmero de contextos divididos
pelos indivduos, maior a possibilidade de que eles tenham algum tipo de relao social.
De acordo com Raquel [Recuero 2009] as redes sociais de filiao ou associativas na Internet so
aquelas derivadas das conexes estticas"entre os atores, ou seja, das interaes reativas que possuem um impacto na rede social. So redes cujas conexes so forjadas atravs dos mecanismos de
associao ou de filiao dos sites de redes sociais. Por exemplo, a lista de amigos"do Facebook, ou
da lista de seguidores no Twitter.
Diferentemente das redes emergentes, as redes de filiao representam uma rede mais estvel e
esttica. Analisando a lista de amigos"no Orkut de um ator qualquer ela no pressupe interao
social do tipo mtuo, mas reativa com efeito social. J que, uma vez adicionado, o ator ali permanece
independente da interao para que se mantenha o lao social ativo [Recuero 2009].
Por no possurem custos para os atores, redes dessa espcie costumam ser muito grandes. Os
sites de redes sociais, facilitam conexes que no possuem custo aos atores envolvidos. Dessa maneira fazem com que seja geradas redes muito grandes e constitudas por laos fracos. Ao contrrio
das redes emergentes, nesse tipo de rede no necessrio que os atores interajam para manter a
conexo.
A Figura 4.3 mostra exemplos desse tipo de rede, onde h uma grande quantidade de ns, mas
uma densidade menor de conexes, que so mantidas entre vrios ns.

(a)

(b)

Figura 4.3: Redes Associativas a partir de Conexes Recprocas [Recuero 2009]

4.3 Anlise de Redes Sociais


A Anlise de Redes Sociais (ARS) o mapeamento e a medio de relaes e fluxos entre pessoas, grupos, organizaes, computadores e outras entidades de informao/conhecimento. Os ns na rede
so pessoas e grupos (conforme visto na Seo 4.1), enquanto os links mostram relaes ou fluxos entre ns. A ARS fornece uma anlise visual e matemtica das relaes humanas. Consultores de gesto

4.3. Anlise de Redes Sociais

38

utilizam essa tecnologia para seus negcios, e a chamam de Anlise de Redes Sociais Organizacionais
(ARSO).

4.3.1 Arcabouo Conceitual


ARS o estudo das relaes sociais entre um certo conjunto de atores. A principal diferena entre
ARS e as outras abordagens de cincias sociais o foco voltado para as relaes entre os atores, ao
invs dos atributos dos atores. A anlise de redes engloba uma viso geral das estruturas sociais
baseadas na crena que os tipos e padres das relaes emergem das conectividade do indivduo,
e que a presena (ou ausncia) de tais tipos e padres possuem efeitos substnciais na rede e seus
constituintes [Mika 2007].
A ARS requer um novo conjunto de conceitos e mtodos para coletar os dados e analis-los. A
ARS fornece [Mika 2007]:
Vocabulrio para descrever as estruturas sociais;
Modelos formais que capturam as propriedades comuns de todas as redes sociais;
Conjunto de mtodos aplicveis anlise de redes em geral.
Os conceitos e mtodos para anlise de redes so baseados em uma formal descrio de redes
como grafos (vide Seo 2.2.1). A anlise de redes tambm aplica modelos estatsticos e probabilsticos em uma proporo menor que tcnicas algbricas.
Os mtodos para extrao de dados em anlise de redes so focados em coletar dados de uma
maneira segura. A coleo de dados feita atravs de questionrios padres e tcnicas de observao,
que tem como objetivos assegurar a corretude e a completude dos dados. Geralmente registros de
interao social so usados para construir modelos de redes sociais.

4.3.2 Conceitos Chave e Mtricas


A ARS desenvolveu uma srie de conjuntos e mtodos especficos para seu contexto. As sub-sees
seguintes apresentam as mtricas bsicas mais utilizadas, de forma a estabelecer um panorama no
qual define-se as ferramentas"adotadas nesse trabalho.
Nmero de Ligao Uma unidade bsica de medida de uma rede o nmero de ligaes mantidas
por indivduo com outros, e atravs da rede como um todo. O nmero de ligaes mantidas por
um indivduo pode mostrar a comunicao e a carga de contatos para o indivduo. No entanto,
porque as redes diferem em tamanho, uma estatstica mais padronizada necessria para a
comparao entre as redes [Mika 2007].
Dade a rede mais simples que existe, formada por apenas dois atores e as possveis ligaes entre
si. Os atores podem estar conectados ou no, e a sua ligao uma propriedade do par. Por
exemplo, um ator A amigo de um outro amigo B, e vice-versa.
Trade a rede formada por trs atores e as possveis ligaes entre si. A trade traz alguns conceitos
importantes, como a transitividade (vide Seo 2.2.2.1). Potencialmente, em uma trade h trs
dades. Nas relaes sociais, isso pode ser um importante fator, pois se um ator A mantm
relaes com o ator B, e este com o ator C, h um caminho possvel, passando pelo ator B, para
o ator A realizar interaes com o ator C. Em outras palavras mais fcil de os atores A e C
serem amigos se ambos manterem relaes com o ator B.
Sub-Grupo Um sub-grupo de atores um conjunto de atores e suas relaes. Isto pode ser muito
importante no estudo de redes sociais complexas e extensas, com a anlise de subgrupos especficos, delimitados dentro do grupo. As dades e trades podem definir inmeros sub-grupos.

4.3. Anlise de Redes Sociais

39

Grupo Um grupo definido como um conjunto finito de atores que esto relacionados entre si.
Ponte Segundo Wasserman [Wasserman e Faust 1994] os laos fracos so de grande importncia nas
redes sociais, uma vez que estes apresentam a funo de ligar partes de uma rede social que no
so ligadas diretamente atravs de laos fortes, o que d origem ao conceito de ponte (bridges).
Pontes so atores que interligam grupos. Retirando-se os atores pontes, a rede ficaria isolada.
Densidade A densidade talvez a mtrica mais comummente utilizada na conectividade das redes.
Esta calculada como a proporo do nmero de reais ligaes com o nmero de possveis
ligaes. Como as conexes podem ser bi-direcionais (entrando e saindo do ator), para relaes
no-direcionas (e.g. colaborao, compartilhamento) a densidade da rede calculada como
mostra a equao 4.1:
Densi d ad e = n/(N (N 1)/2)

(4.1)

Onde n o nmero de ligaes reais, e N o nmero de atores na rede.


A Densidade representa a interconexo da rede, com consequncias para elementos como a
taxa de cmbio de informao e grau de conhecimento comum [Mika 2007].
Centralidade e Centralizao Outra mtrica utilizada a centralidade, sendo aplicada em nvel de
indivduo definindo o quo central um ator dentro da rede. Em nvel da rede essa mtrica
mostra at que ponto a rede est organizada em torno de atores-chave. Uma maneira de calcular esta posio identificar o indivduo com o maior nmero de ligaes (degree centrality).
A direo da ligao se torna importante para interpretar o papel desse indivduo. Um alto
nmero de ligaes-entrantes"(high in-degree) indica uma grande quantidade de outros indivduos que escolheram se relacionar com o indivduo em questo. Esses possuem um alto nvel
de prestgio. Um alto nvel de ligaes-saintes"indica que o indivduo se relaciona muito com
os outros. Nesse caso pode-se dizer que estes indivduos possuem um alto grau de influncia nos outros. Indivduos com um baixo grau de centralidade podem ser atores perifricos na
rede [Mika 2007].

4.3.2.1 Centralidade
Posies estratgicas tambm fornecem poderes aos indivduos de controlarem a circulao de recursos na rede. Outras medidas de centralidade calculam quanto um ator permanece frente a outros
na rede (betweenness), e como eles so posicionados na rede como um todo para se tornarem caminhos de recursos e informaes que circulam a rede. Atravs de qualquer medida atores que ocupam
posies centrais desempenham papis importantes nas redes [Mika 2007].
Atores no-centrais tambm so importantes para se identificar. Atores isolados, e outros perifricos so deixados de lado do fluxo central (mainstream") de atividades da rede. Estes podem receber
recursos com um certo atraso, e talvez at depois que sua utilidade seja expirada. Esses atores esto,
geralmente, insatisfeitos com seu papel na rede, e esto propensos a sairem da mesma [Mika 2007].

4.3.2.2 Cliques
Outra medida importante para redes a medida em que os membros da rede interna formam panelinhas", clusters ou componentes. Novamente, configuraes bsicas dos laos podem revelar quem
est ligado a quem nos subgrupos da rede. Como um membro do grupo, isto pode ser bvio, mas
as associaes podem parecer que no so as esperadas, com base em critrios inesperados. Novamente, essas caractersticas so teis para entender como uma rede est operando [Mika 2007].

CAPTULO

R EDE S OCIAL PARA D IFUSO DA I NFORMAO


O termo difuso utilizado amplamente, sendo englobando tanto a difuso do conhecimento, quanto
como a persuaso para a adoo de uma determinada inovao pelos membros de um sistema alvo.
De forma mais especfica o processo de Difuso de Inovao ocorre quando alguma inovao comunicada atravs de alguns canais sobre membros de um sistema social. Neste sentido a difuso
um tipo particular de comunicao, consistindo na troca de mensagens sobre uma idia. Este processo composto pelos seguintes elementos: a inovao, a comunicao, o tempo e o sistema social.
A difuso um tipo de mudana social, definida como o processo pelo qual alteres sucessivas, ou
no, ocorrem na estrutura e na funcionalidade de um sistema social. Quando novas idias so inventadas, difundidas e adotadas ou rejeitadas, levam a certas consequncias, fazendo com que mudanas sociais ocorram. Tais mudanas tambm podem ocorrer atravs de outros meios, por exemplo,
atravs de revolues polticas, eventos naturais como terremotos, ou atravs de regulamentaes
governamentais. Deste modo, pode-se dizer que a difuso um tipo especial de comunicao, cujas
mensagens so sobre novas idias.
Esse conceito de novas idias no contedo das mensagens atribui difuso uma caracterstica especial. Essa novidade significa que existir, de alguma forma, um certo grau de incerteza frente a sua
difuso. Incerteza pode ser caracterizada como o grau cujo nmero de alternativas so consideradas
com relao a ocorrncia de um evento, e probabilidade relativas dessas alternativas. Em outras palavras, incerteza implica em uma imprevisibilidade de uma estrutura de informao [Noronha et al.
2009, Rogers 2003].
Pelo que foi exposto at o momento, pode-se observar que o processo de difuso da informao
um sistema complexo que gera uma rede social. Sendo assim, objetivando desenvolverum estudo de
caso interligando as teorias e tcnicas de rede sociais e minerao de dados. Neste captulo tem-se o
estudo de um modelo de difuso de inovao em uma rede social.
Esse um assunto tanto de interesse corporativo quanto de interesse acadmico. No mbito
corporativo pode-se citar a disseminao de uma nova tecnologia na utilizao de algum processo
em especfico. Fica clara a importncia de se saber quais so os indivduos (empresas ou pessoas) que
mais conseguem disseminar tal idia, bem como o que faz desses bons disseminadores no sistema
em que se encontram. Na vertente acadmica pode-se estudar quem, dentre diversos pesquisadores
de diversas reas, consegue fazer com que sua tese seja melhor aceita e adotada. Quais os caminhos,
atravs de outros atores da rede, que esse conseguiu se destacar. Todas essas questes mostram a
importncia do estudo nessa rea.

40

5.1. Exemplos da Difuso da Informao

41

5.1 Exemplos da Difuso da Informao


5.1.1 Inovao
Uma inovao uma idia, prtica ou objeto que adotado como novo por um indivduo ou uma
unidade de adoo (um grupo, empresa, etc). O senso de novidade de uma idia para um indivduo
determina sua reao a ela. Se a idia parece ser nova para o indivduo, uma inovao. Dentro
do escopo tecnolgico existem duas naturezas de inovao: de hardwaree de software. O hardware
consiste de uma ferramenta que incorpora a tecnologia atravs de um material ou um objeto fsico.
O software consiste em informao base para a ferramenta. Por exemplo, quando discute-se sobre
hardware de computadores est se falando de semicondutores, transistores, conexes eltricas e carcaas de de metal. Quando escuta-se sobre software de computadores o foco est ligado em comando
codificados, intrues, e outros aspectos dessa ferramenta que permitem a extenso da capacidade
humana para resoluo de certos problemas [Noronha et al. 2009].

5.1.2 Canais de Comunicao


Comunicao o processo pelo qual participantes criam e compartilham informaes com o objetivo
de alcanar um mtuo entendimento sobre determinada questo. Difuso um tipo particular de
comunicao cujo contedo da mensagem trocada composto por uma nova idia. A essncia do
processo de difuso reside na troca de informaes onde um indivduo comunica uma nova idia
para um, ou um grupo de outros indivduos. Este processo pode ser estruturado da seguinte maneira
[Noronha et al. 2009, Rogers 2003]:
Uma inovao;
Um indivduo ou outra unidade que detm conhecimento da inovao, ou experincia em
utiliz-la;
Outro indivduo ou unidade que ainda no possui experincia sobre a inovao;
Canal de comunio conectando essas duas unidades.
O canal de comunicao o meio pelo qual as mensagens trafegam de um indivduo para outro.
A natureza da relao da troca de mensagens entre um par de indivduos determina as condies sob
as quais uma fonte transmitir, ou no, a inovao para o receptor, e o efeito dessa tranferncia.

5.1.3 Tempo
Tempo o terceiro elemento no processo de difuso. A incluso do tempo como uma varivel na
pesquisa sobre difuso um de seus pontos fortes. Vale ressaltar que mensurar o tempo uma tarefa
um tanto quanto delicada, desse modo v-se necessrio tratar essa varivel de forma a representar
ao mximo a realidade. A dimenso de tempo envolvida na difuso nos seguintes cenrios [Rogers
2003]:
Processo inovao-deciso: processo de aceitar/rejeitar uma inovao. Composto por: conhecimento, persuaso, deciso, implementao e confirmao;
Demora na aceitao a inovao de um indivduo ou outra unidade de adoo: a demora
ou precocidade cuja uma inovao adotada - comparando-se com outros membros de um
sistema;
Taxa de aceitao de inovao em um sistema: geralmente mensurada atravs do nmero de
membros de um sistema que adotam a inovao em um perodo dado.

5.2. Modelo Estudado para Difuso de Informao

42

5.1.4 Sistema Social


Sistema social definido como o conjunto de unidades interrelacionadas que esto relacionadas para
alcanarem um objetivo em comum ou resolverem um determinado problema. Os membros ou unidade desse sistema podem ser indivduos, grupos informais, organizaes, e/ou subsistemas. O sistema analisado nesse estudo de modelo consiste em anlisar a difuso de informao entre unidades
representadas por indivduos, que sero caracterizados na Seo 5.2.
De acordo com [Noronha et al. 2009, Rogers 2003], um princpio bsico para a comunicao entre humanos que a transferncia de idias ocorre mais frequentemente entre dois indivduos que
so similares, ou homophilous. Homophilia o grau que dois indivduos que interajem so similares em certos atributos, tais como: crenas, educao, status social, entre outros. Em uma situao
arbitrria, quando um indivduo consegue interagir com qualquer um dentre um nmero de outros
indivduos, h uma forte tendncia a selecionar algum que seja muito similar.
Homophilia ocorre quando indivduos similares pertencem a um mesmo grupo, moram ou trabalham perto um dos outros, e dividem os mesmos interesses. Esse interesse fsico e social faze com que
a comunicao entre homophilicos seja mais provvel. Tal comunicao tende tambm a ser mais
efetiva, e assim mais recompensadora. Quando compartilha-se interesses comuns a comunicao
de novas idias h maiores chances de obter melhores efeitos em termos de ganho de conhecimento,
formao de atitude e mudanas [Noronha et al. 2009, Rogers 2003].
Um dos problemas na difuso de inovao que os indivduos so geralmente heterophilous.
Essa diferena frequentemente leva a uma comunicao ineficiente, uma vez que os participantes
tendem a no falar a mesma lngua". Na verdade, quando dois indivduos so idnticos sobre seu
compreendimento de uma inovao, nenhuma difuso pode ocorrer uma vez que no existe novas
informaes a serem trocadas. A natureza da difuso demanda que pelo menos exista um pouco de
homophilia entre dois indivduos. Idealmente, eles devem ser homopilhous em todas outras variveis (educao, status sociais, etc), embora eles sejam heterophilous sobre o compreendimento de
inovao. Vale ressaltar que, na vida real, dois indivduos so heterophilous em todas essas variveis,
j que conhecimento e experincia com uma inovao so fortemente relacionadas com educao,
experincia de vida, entre outros [Noronha et al. 2009, Rogers 2003].

5.2 Modelo Estudado para Difuso de Informao


O modelo proposto por [Noronha et al. 2009] uma variao do modelo proposto por [Rogers 2003].
Este sugere que a classificao dos membros de um dado sistema socialdeve ser de acordo com seu
nvel de aceitao frente a inovaes. Os indivduos em um sistema social no adotam um inovao
ao mesmo tempo. Deste modo, possvel categorizar estes indivduos de acordo com o tempo que
eles necessitam para adotar alguma inovao. Tal sistema de classificao, assim como o conjunto de
atributos, foi baseado no modelo de difuso de informao proposto por [Noronha et al. 2009].
O conceito de inovao definido na Seo 5.1.1. Esse sistema baseado em uma distribuio
normal de frequncia do nmero de individuos que adotam uma inovao, em funo do tempo do
processo de adoo de uma inovao. Como ilustrado na Figura 5.1, este sistema de classificao possui quatro (04) categorias: inovadores, adotantes Precoces, maioria precoce e retardatrios [Noronha
et al. 2009].

5.3. Um Modelo Multiagente para Difuso de Informao

43

Figura 5.1: Categorias de Adotantes [Rogers 2003].

Os inovadores (innovators) so essencialmente aventureiros e cosmopolitanos. Segundo [Rogers


2003] so membros locais com ligaes heterognas fracas para sistemas externos. Eles possuem
o papel de trazer inovaes externas para seu sistema social. Graas a sua posio cosmopolitana,
caracterizada por sua localizao perifrica na rede, eles no so consultados ou seguidos no processo de inovao-deciso. Sua tendncia de ignorar, ou infringir, as normas sociais outro fator que
influncia sua baixa reputao social.
Os adotantes precoces, tambm conhecidos como lderes de opinio (opinion leaders), possuem
grande reputao social. Eles se comportam de acordo com as normas do sistema social, so bem
integrados e geralmente so ns centrais em redes sociais locais. Eles servem como modelos para
os membros do sistema. Quando optam por uma inovao o crescimento de seguidores em massa
tende a acelarar. Essa categoria possui o desejo de ter seguidores e influenciar outros membros do
sistema, em outra palavras, esses so os formadores de opinio [Noronha et al. 2009].
Os seguidores fortes (strong followers), conhecidos como retardatrios, tendem a imitar a maioria
precoce.
A maioria precoce sofre uma presso social graas a seu comportamento: quanto maior o seu
nmero e os de adotantes precoces em uma posio de adotar inovaes, maior ser a tendncia
dessa maioria precoce em imit-los no processo de inovao-deciso.

5.3 Um Modelo Multiagente para Difuso de Informao


A finalidade do modelo proposto por [Noronha et al. 2009] observar a atrao que adotantes precoces exercem em outros agentes bem como o padro fsico de movimentao que essa atrao pode
ocasionar tendo em vista o conceito de homophilia. Neste trabalho utiliza-se o mesmo modelo, mas
com um enfoque diferente. Atravs do modelo proposto, este projeto tem como objetivo estudar a
rede social formada pelo processo de difuso de informao, alm de estudar quais so os principais
atores nela envolvidos, o que faz com que haja essa interao social entre eles e quais so os atributos
(e que tipo) fazem com que essa relao seja formada.
O modelo baseado em caractersticas do sistema de classificao adoo definido pelo modelo
de difuso de inovao. As caractersticas que definem as categorias dos agentes so descritas de
forma generalizada pelo modelo de [Rogers 2003]. Essas generalizaoes so classificadas em trs
atributos: valores individuias, atributos e comportamento comunicativo.
Os agentes possuem uma relao mtua de similaridade e diferena definida pela grau de hompohilia, ento todos os agentes possuem um ider de ppinio (adotante precoce) com um alto grau
de homophilia. A hompohilia um substrato para o estabelecimento indireto de uma comunicao
entre o modelo de agentes. Na Seo 5.3.2 explica-se o modelo de agentes utilizado e como esses trs
atributos formam o grau de homophilia
Em cada interao da simulao os agentes procuram encontrar seu grupo de acordo sua homophilia. Contudo, o ambiente fsico e sua situao scio-econmica constituem um obstculo para

5.3. Um Modelo Multiagente para Difuso de Informao

44

o alcance de seu objetivo. A homophilia entre os agentes em uma vizinhana a informao que os
agentes devem ponderar para decidir entre um espao fsico em detrimento de outros, caracterizando um ciclo de incerteza. Essa incerteza surge da inabilidade do agente em determinar o escopo
fsico onde ele pode obter a maior homophilia do sistema. Enquanto que a inovao caracterizada
quando um agente decide seguir um grupo, seu lder em potencial presente, ou no [Noronha et al.
2009].
O modelo multiagente proposto considera os seguintes elementos em sua composio:
A arquitetura do agente Pessoa, que representa um indivduo submetido ao processo de inovaodeciso;
O ambiente fsico, que representa o local onde os agentes esto fisicamente distribudos e iteragem uns com os outros.

5.3.1 O Ambiente Fsico


A distribuio dos agentes no ambiente fsico um importante aspecto para o modelo. Os agentes
so distribudos randomicamente no ambiente no incio da simulao. Devido a essa aleatoriedade
os agentes podem, ou no, encontrar seus lderes de opinio ao decorrer da simulao. Essa distribuio randmica atravs do ponto de referncia o fator fsico que representa a incerteza do agente
em relao ao seu desejo. O Ambiente Fsico, ilustrado na Figura 5.2, representa o espao onde os
agentes e os outros objetos do modelo esto. Os outros elementos considerados so: (i) posio do
agente (x, y), (ii) regras estabelecendo as caractersticas bsicas do ambiente - definindo as restries
comportamentais da simulao, por exemplo, o ponto de referncia de sua vizinhana [Noronha et
al. 2009].
Agente no Ambiente
Agente Observador
Agente Observado
Quadrante
Raio de viso

Figura 5.2: Viso do Ambiente para Definio da Vizinhana [Noronha et al. 2009].

A topologia representada em uma grade de duas dimenses (2D Grid) e, durante a simulao,
cada clula pode conter somente um nico agente. A interao dos agentes com o ambiente fsico
ocorre por meio de um mecanismo de leitura delimitado pelos quandrantes. Esse mecanismo considera que um agente direcionado a um rea onde, em mdia, os agentes possuem um maior grau
de homphilia com ele. A escolha dessa rea baseada na definio de quatro quadrantes. O comprimento e largura cada um so determinados pelo raio do escopo do agente (que definido de acordo
com sua categoria). A Figura 5.2 ilustra o cenrio descrito [Noronha et al. 2009].
No exemplo ilustrado o agente em questo possui um raio de trs (03) unidades de leitura, e a
partir de sua posio ele divide sua vizinhana em quadrantes de um (01) a quatro(04). Para realizar
tal tarefa, o agente efetua os seguintes passos:
1. Estabelecimento dos pontos de referncia para a escolha do quadrante, ilustrado na Figura 5.3;

5.3. Um Modelo Multiagente para Difuso de Informao

45

2. Estabelecimento da rea de observao na forma de quadrantes, conforme mostra a Figura 5.2;


3. A observao da rea delimitada. O ponto de referncia para leitura da vizinhana randomicamente escolhido pelo agente.

Agente

Figura 5.3: Pontos de Referncia para Estabelecer a Vizinhana [Noronha et al. 2009].

5.3.2 Arquitetura do Agente Pessoa


O agente Pessoa representa um indivduo no Ambiente F
sico, sujeito ao processo de inovaodeciso tendo em vista a homophilia. Os agentes nesse modelo so definidos dentro do sistema social
de acordo com os atributos sociais e pelo desejo de se posicionarem o mais prximo possvel do maior
grau de homophilia [Noronha et al. 2009].
Existem duas atividades definidas no processo de inovao-deciso, segundo [Rogers 2003]: procurandoinformao e processando-informao. Por meio dessas duas atividades o membro do sistema pode
reduzir o nvel de incerteza sobre uma inovao e optar por sua adoo efetiva. Uma viso geral da
arquitetura dos agentes mostrada na Figura 5.4.

Figura 5.4: Arquitetura Geral do Agente Pessoa [Noronha et al. 2009].

5.3.3 Mdulo: Procurando-Informao


O mdulo Procurando-Informao (do ingls Information-Seeking - IS) realiza um varredura do Ambiente F
sico. A cada iterao na simulao, os agentes reiniciam o processo de inovao-deciso
pela leitura da vizinhana. Atravs dessa leitura o agente coleta a mdia da homophilia em cada quadrante de sua vizinhana. Analisando atravs de uma viso macro, esse mdulo possui os seguintes
passos [Noronha et al. 2009]:
1. Estabelecimento do ponto de referncia;
2. Estabelecimento do quadrante;
3. Estabelecimento do raio de viso;
4. Coleta dos dados da vizinhana.
Os dados coletados para cada um dos quatro quadrantes de observao so: clulas inativas,
clulas ocupadas e o grau mdio de homophilia.

5.3. Um Modelo Multiagente para Difuso de Informao

46

5.3.4 Mdulo: Processando-Informao


O mdulo Processando-Informao (do ingls Information-Processing - IP) realiza a comparao do
grau de homophilia entre o agente e cada quadrante de sua vizinhana, com a anlise dos dados
coletados do mdulo IS. Essa comparao feita de acordo com os seguintes passos:
1. Recolhimento da mdia do grau de homophilia de cada agente presente em cada quadrante;
2. Submeter cada agente observado para comparao do grau de homophilia para determinar a
mdia do grau de homophilia dos agentes com o quadrante referente;
3. Determinar o quadrante com o maior grau de homophilia de acordo com as regras internas.
A Figura 5.5 ilustra a viso dos processos descritos na Seo 5.3.3 e na Seo 5.3.4

Figura 5.5: Arquitetura Geral dos Mdulos IP e IS [Noronha et al. 2009].

5.3.4.1 Mdulo IP: Atributos Individuais


Os trs (03) atributos que definem socialmente os agentes so: (i) escopo, (ii) imagem prpria e (iii)
sociabilidade. O atributo escopo tem como objetivo representar as generalizaes sciais, o atributo
imagem prria representa as generalizaes pessoais e a sociabilidade as generalizaes de comunicao. O atributo escopo (mostrado na Tabela 5.1) uma constante que define o comprimento do
raio de leitura (conforme explica a Seo 5.3.1).
Tabela 5.1: Atributo Escopo e sua Escala.

Nvel
0
1
2
3

Escopo
Raio Categoria
12
OL
9
IN
6
WF
3
SF

Onde OL, IN, WF eSF significam respectivamente: Lderes de Opinio, Inovadores, Seguidores
Fracos e Seguidores Fortes.
O atributo imagem prria (mostrado na Tabela 5.2) modelado como uma varivel discreta aleatria que varia de 0 100.
O atributo sociabilidade (mostrado na Tabela 5.3) modelado como uma varivel discreta aleatria que varia de 0 25.

5.3.4.2 Mdulo IP: Regras para Determinar o Grau de Homophilia


O mdulo IP responsvel por determinar o grau de homophilia entre o agente observado e o agente
observador, utilizando um certo conjunto de regras. Por meio dessas regras o agente observador

5.3. Um Modelo Multiagente para Difuso de Informao

47

Tabela 5.2: Atributo Imagem Prpria e sua Escala.

Nvel
0
1
2
3

Imagem Prria
Escala
Categoria
0 25
SF
26 50
WF
51 75
OL
76 100
OL e IN

Tabela 5.3: Atributo Sociabilidade e sua Escala.

Nvel
0
1
2
3

Sociabilidade
Escala Categoria
05
IN
6 10
IN e WF
11 16
WF e SF
17 25
OL

estabelece o quo similar ele com outros agentes. As regras so descritas pelas Tabelas 5.4, 5.5, 5.7 e
5.6. O formato dessas tabelas mostra, em cada uma, como cada categoria de agente visualiza o grau
de homophilia relacionado a um agente observado. As linhas de cada tabela representam os atributos
do agente observado, os quais so: escopo (EP), imagem prpria (SI) e sociabilidade (SC). As colunas,
por sua vez, representam a escala de similaridade, a qual consegue-se encontrar um representante
na escala de diferena relacionado ao agente observado, para cada um destes atributos. Na escala
que vai de -3 3, o valor zero (0) representa o total de similaridade entre o agente observador e o
agente observado. As escalas negativa e positiva representam respectivamente, que o atributo do
agente observado est em uma diferena inferior ou superior. Desse modo, tem-se que o grau de
homophilia entre dois agentes vai de 0,0 1,0. Isso significa que zero (0,0) no existe similaridade
alguma, e que um (1,0) representa uma total similaridade para a homophilia [Noronha et al. 2009].
Tabela 5.4: Ponto de Vista do Agente Lder de Opinio

Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade

Lderes de Opinio.
-3
-2
-1
0
1,00 0,75 0,50 0,00
0,50 0,75 1,00 0,00
0,00 0,25 0,50 0,75

1
0,25
0,25
0,00

2
0,00
0,00
0,00

3
0,00
0,00
0,00

A Tabela 5.4 mostra o ponto de vista dos Adotantes Precoces (Lderes de Opinio). Nessa temse que a semelhana total acrescenta uma pontuao pequena para o grau de homophilia. Neste
caso essa categoria de agente procura ser um nodo central em seu escopo, evitando outros Lderes de
Opinio, de forma que minimize seu grau de incerteza sobre sua liderana dentro de seu escopo. No
caso de houver uma aproximao junto a outro Lder de Opinio, sua liderana ameaada, uma vez
que essa situao oferece a opo de escolha para sua liderana. Essa categoria de agente tem como
objetivo difundir sua liderana sobre os outros agentes no ambiente fsico. De acordo com o valores
da escala que vo de -3 -1 percebe-se que existe um certo equilibrio entre homophilia e heterophilia.
Analisando o atributo Escopo, quanto maior a diferena maior ser o grau de homophilia observado
para esse atributo. Isso por causa que o agentes representando a Maioria Precoce (Seguidores Fracos)
possuem o menor valor de nvel de escopo, e os Lderes de Opinio possuem interesse em seguidores
em seu escopo. Os atributos Imagem Prpria e Sociabilidade atribuem um fator de equilibrio entre

5.3. Um Modelo Multiagente para Difuso de Informao

48

as extremidades da escala. Isso causa uma atrao por agentes com um certo grau de semelhana
[Noronha et al. 2009].
Tabela 5.5: Ponto de Vista do Agente Inovador.

Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade

-3
0,00
0,25
0,00

Inovador
-2
-1
0,00 0,00
0,50 0,75
0,00 0,00

0
0,50
1,00
1,00

1
0,00
0,00
0,25

2
0,00
0,00
0,50

3
0,00
0,00
0,75

No caso dos Inovadores percebe-se uma maior homophilia entre agentes semelhantes. Tambm
possvel visualizar que na maior parte da escala no existe ponutao de similaridade para o grau de
homophilia. Os Inovadores possuem um alto valor de Imagem Prpria, assim essa categoria possui
uma baixa afinidade com outros agentes. Isso est realcinado a sua natureza cosmopolitana, que
faz com que os agentes Inovadores se concentrem na periferia do sistema, na fronteira com outros
agentes. Vale ressaltar que a varivel Escopo marca apenas 0,5 no grau de homophilia, e o atributo
Sociabildiade fornece um fator de equilibrio entre homophilia e heterophilia. Nesse caso, o atributo
Sociabilidade fornece uma certa atrao de Inovaderes para Lderes de Opinio. A Tabela 5.5 mostra
o ponto de vista dos agentes Inovadores.
Tabela 5.6: Ponto de Vista do Agente Seguidor Fraco.

Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade

-3
0,00
0,50
0,00

Seguidor Fraco.
-2
-1
0
0,00 0,25 1,00
0,75 1,00 0,00
0,25 0,50 0,75

1
0,50
0,25
1,00

2
0,75
0,00
0,75

3
0,75
0,00
0,75

A caracterstica comportamental mais importantes do agentes Seguidores Fracos (Maioria Precoce) e Seguidores Fortes (Retardatrios) a tendncia em formar grupos mais uniformes ao redor
dos Lderes de Opinio. O valores do grau de homophilia dessas duas categorias so baseados nessa
tendncia. E suas atraes para com as outras categorias. A Tabela 5.6 representa a viso dos agentes
Seguidores Fracos, e a Tabela 5.7 a viso do agente Seguidores Fortes.
Tabela 5.7: Ponto de Vista do Agente Seguidor Forte

Atributos/Escala
Escopo
Imagem Prpria
Sociabilidade

-3
0,00
0,00
0,00

Seguidor Forte.
-2
-1
0
0,00 0,00 0,25
0,00 0,00 0,25
0,25 0,50 0,75

1
0,50
0,50
1,00

2
0,75
0,75
0,00

3
1,00
1,00
0,00

CAPTULO

A NLISE DA D IFUSO DA I NFORMAO V IA A


I NTEGRAO DE R EDES S OCIAIS E M INERAO DE
D ADOS
Nesse captulo ser apresentada a execuo do modelo de difuso da informao, em um sistema
social. Essa simulao tem como objetivo fornecer o material de estudo necessrio para que se possa
analisar a rede social formada durante o processo de difuso da informao, bem como analisar como
tcnicas de minerao de dados podem ser utilizadas em conjunto com redes sociais. A ferramenta
utilizada para modelar os cenrios a plataforma SWARM [Group 2010], que fornece um ambiente
para desenvolver simulaes multiagentes.

6.1 Configurao da Simulao


A configurao dos experimentos baseada na taxa dos agentes no Ambiente F
sico. Esse representado por uma grade de 40 linhas por 40 colunas, na qual dois cenrios foram simulados: o
primeiro com uma baixa densidade de agentes e o segundo com uma alta densidade. A Tabela 6.1
mostra a configurao dos agentes para ambos os experimentos.
Tabela 6.1: Configurao dos Experimentos.

Categoria
Inovadores
Lderes de Opinio
Seguidores Fracos
Seguidores Fortes

%
2,5
13,5
68,8
16,0

Disposio dos Agentes


Cores
Experimento 01
Branco
02
Vermelho
06
Verde
26
Azul
07

Experimento 02
07
20
98
22

6.1.1 Anlise das Simulaes


As simulaes investigam trs aspectos: (i) o movimento coletivo tende direcionar os agentes seguidores a seus lderes de opinio ?, (ii) o processo de comunicao indireta capaz de difundir a locali-

49

6.1. Configurao da Simulao

50

zao dos lderes de opinio de seus seguidores e (iii) como ocorre a dinmica do contedo social em
um sistema de agentes difusores de informao ?

6.1.1.1 Primeiro Experimento: Baixa Densidade de Agentes


Para analisar esse cenrio executou-se uma simulao com 600 ciclos. Durante os ciclos, diversas interaes sociais foram observadas. Para um melhor entendimento separou-se a anlise da simulao
em duas partes: a primeira visando focar as questes (i) e (ii); e segunda focando mais a questo (iii)

6.1.1.1.1 Movimento Coletivo e Comunicao Indireta


Neste experimentos nota-se uma certa resistncia na difuso da localizao dos lderes de opinio entre os agentes, isto devido baixa densidade de agentes distribudos pelo Ambiente F
sico.
Nessa simulao, os agentes que mais apresentaram resistncia frente difuso de informao dos
lderes de opinio foram os agentes Retardat
arios, mantendo esse agentes isolados na simulao.
Nesse cenrio possvel verificar esse isolamento fsico em decorrncia dos atributos sociais dos
agentes. Esse isolamento contribui para a manuteno da situao scio-econmica adversa dos retardatrios. O atributo escopo determinante nesse isolamento. A Figura 6.1 mostra, nas regies
evidenciadas que, os agentes Retardat
arios so facilmente dispersados dos grupos os quais esto
inseridos. Deste modo, graas ao valor de escopo, essa categoria no pode seguir fielmente o grupo
ao seu redor.

Grid (a)

Grid (b)

Grid (c)

Figura 6.1: Visualizao do Comportamento dos Seguidores Fortes [Noronha et al. 2009].

Vale ressaltar que esses agentes permanecem juntos quando encontram outros da mesma categoria. Com essa configurao possvel responder as questes (i) e (ii) sobre os aspectos levantados
durante os experimentos.

6.1.1.1.2 Dinmica Social em Baixa Densidade


Para analisar a auesto (iii) essa seo estuda a dinmica social que envolve os agentes durante
a simulao. Para isso utilizou-se o sistema UCINET [Borgatti, Everett e Freeman 2002], um software
que ajuda a visualizar a rede social formada. Durante a anlise desse experimento, o foco principal
de observao investigar se os grupos (categorias de agentes) possuem um comportamento condizente com as teorias levantadas por [Rogers 2003]. Alm de observar como as relaes nos grupos
so formadas ao longo da simulao.

6.1. Configurao da Simulao

51

Figura 6.2: Dinmica do Contedo Social - Experimento 01: 200 ciclos.

Analisando a categoria de agentes Inovadores possvel identificar seu comportamento conforme citado na Seo 5.2. Suas ligaes so heterogneas, a cada passo da simulao se liga com
agentes diferentes do que estava ligado anteriormente, conforme mostram as Figuras 6.2, 6.3 e 6.4.
Devido ao seu comportamento cosmopolitano no percebe-se sua intereo com mais de um agente
por passo de simulao. Devido as suas caractersticas sociais, tambm possvel encontr-los em
regies perifricas de rede. Na Figura 6.2 percebe-se que este forma relaes frente a agentes em
regies afastadas do centro do sistema social. Na Figura 6.3, mesmo fazendo parte do grupo mais
interconectado da rede, esse agente se localiza em sua periferia, no interagindo com o centro da
rede. Nesse mesmo ciclo de simulao (400) outro agente Inovador tambm se encontra afastado
do centro do sistema. Na Figura 6.4 o comportamento desses agentes permanece quase que inalterado. No entanto, devido baixa densidade de agentes, nos ciclos 400 e 600 o agente Inovador-2
estabelece uma relao fraca com outros dois agentes: Maioria Precoce-28 e Maioria Precoce16. Essa baixa densidade de agentes proporciona uma menor variedade de relacionamentos durante
a simulao, fazendo com que muitas relaes se formem.

6.1. Configurao da Simulao

52

Figura 6.3: Dinmica do Contedo Social - Experimento 01: 400 ciclos.

A categoria de agentes Adotantes Precoces se concentra, em grande parte, em grupos que proporcionam muitas relaes diversificadas. Na Figura 6.2 o mximo de agentes ligados aos adotantes
precoces um, isso talvez pelo fato dessa etapa da simulao estar com a configurao inicial do
sistema. Na Figura 6.3 o papel dessa categoria ganha um papel importante para a dinmica dos grupos, alguns agentes adotantes precoces comeam a possuir mais seguidores e agente Adotante
Precoce-6 representa uma ponte entre dois grandes grupos. Esse agente possui um papel importante nessa etapa da simulao, pois consegue unir dois grupos heterogneos. Na Figura 6.4 a configurao desses similar a da Figura 6.2, mas os grupos agora se mostram mais condensados. O
nmero de agentes Adotantes Precoces em grupos mais densos aumentou, e cerca de 100% dos
agentes dessa categoria se encontram em grupos com quatro ns ou mais.

6.1. Configurao da Simulao

53

Figura 6.4: Dinmica do Contedo Social - Experimento 01: 600 ciclos.

Os agentes das categorias Maioria Precoce e Retardat


ario mostram um padro de relacionamentos mais homognos que os anteriores. Na Figura 6.2, por representar o incio da simulao, a
vizualizao das caractersticas desses agentes fica prejudicada. No entanto, j nesse passo de simulao as relaes estabelecidas por esses agentes se mostra mais forte do que a das outras categorias. Na
Figura 6.3, com a rede j mais consolidada, possvel ver que sempre que uma ligao est presente
no agente Retardatrio, existe uma ligao com um (ou mais) agentes Maioria Precoce. Nessa etapa
da simulao possvel seguir um fluxo de relaes que mostra como o agente Retardat
ario se conecta a um lder de opinio (agente Adotante Precoce). O agente Retardat
ario-38 relaciona-se
com um agente Maioria Precoce-30 que se liga a um Lder de Opinio-8. Esse exemplo de fluxo pode
ser vizualizado por todos o sistema social em diversos caminhos, alguns destes mostram os fluxos de
relacionamento at fonte da inovao, o agente Inovador.

6.1.1.2 Segundo Experimento: Alta Densidade de Agentes


Esse experimento tambm foi executado nas mesmas configuraes bsicas que o Experimento 01,
mas com um nmero elevado de agentes. Nessa simulaco, como se trata de um cenrio em que
h muitos agentes, apenas uma parte do grafo (veja Seao 2.1) que os representa (assim como suas
interaes sociais) mostrado. Isso no intuito de simplificar tanto a anlise, quanto o modelo apresentado. Em outras palavras, a rede social mostrada do mesmo tamanho do que a apresentada
no Experimento 01, mas suas interaes levam em considerao os agentes presentes na simulao
como um todo.

6.1. Configurao da Simulao

54

6.1.1.2.1 Movimento Coletivo e Comunicao Indireta


No segundo experimento pode-se observar uma difuso da informao entre os agentes de mesma
categoria. Segundo [Valente e Davis 1999] uma premissa bsica na difuso, confirmada por pesquisas empricas, que novas idias e prticas so disseminadas atravs dos canais interpessoais de
comunicao. Na Figura 6.5 o foco voltado para o aglomerado de agentes Retardat
arios (azul).
Esse comportamento foi obtido em algumas iteraes da simulao. Por meio de observaes visuais da movimentao dos agentes pela grade, percebe-se que os Seguidores Fortes possuem fortes
tendncias em seguir agentes L
deres de Opin~
ao, uma vez que esses estejam cercados por agentes
Maioria Precoce e outros Retardat
arios.

Fig(a)

Fig(b)

Fig(c)

Fig(d)

Figura 6.5: Visualizao do Comportamento dos Seguidores Fortes [Noronha et al. 2009].

Na Figura 6.6 apresentado o comportamento dos agentes L


der de Opini~
ao. A marcao vermelha mostra os agentes Retardat
arios em sua vizinhana, enquanto marcao amarela mostra os
lideres de opinio que no possuem retardatrios em seu escopo. Este aspecto comportamental dos
agentes Retardat
arios refora a importncia da reputao social, conforme descrito no modelo de
difuso de inovaes. Nesse caso, a reputao social dos lderes no ambiente proporcional ao nmero de agentes Retardat
arios (Seguidores Fortes) e Maioria Precoce (Seguidores Fracos), que so localizados em suas vizinhanas. Essa medida de reputao social causa uma certa
presso social para que os agentes siguam os lderes com maior nmero de seguidores.

Grid (a)

Grid (b)

Grid (c)

Figura 6.6: Reputao dos Lderes de Opinio [Noronha et al. 2009].

6.1. Configurao da Simulao

55

6.1.1.2.2 Dinmica Social em Alta Densidade


Nesse experimento, como um nmero maior de agentes, de se esperar que as interaes entre
eles sejam maiores, fazendo com que a dinmica social do sistema tome uma forma com mais interaes. Os passos observados nessa simulao foram os mesmo do primeiro experimento, de forma
a poder estabelecer um comparativo mais fiel entre os diferentes cenrios. Devido quantidade de
agentes durante esse experimento, fica muito difcil fazer uma anlise vertical sobre o que acontece
durante a simulao. Dessa forma, essa seo aborda de forma mais geral o dinamismo do sistema
social.

Figura 6.7: Dinmica do Contedo Social - Experimento 01: 200 ciclos.

Os agentes Inovadores durante todos os passos da simulao mais estabelecem ligaes do que
as recebem. Na Figura 6.7 os agentes Inovador-2 e Inovador-3 estabelecem relaes formando
dades, enquanto o agente Inovador-1 faz parte de uma trade, e recebe uma ligao. Na Figura 6.8
a proporo de ligaes feitas e recebidas mantm a mesmo proporo, de dois para um. J na Figura
6.9 todos os agentes Inovadores estabelecem relaes, ou seja, no existe nenhuma seta entrante
em seu n.

6.1. Configurao da Simulao

56

Figura 6.8: Dinmica do Contedo Social - Experimento 02: 400 ciclos.

Para o escopo dos agentes da categoria adotantes precoces escolheu-se observar a dinmica de
dois agentes: Adotante Precoce-13 e Adotante Precoce-12. curioso como a densidade de
agentes influencia nas relaes estabelecidas por eles. Na Figura 6.7 o agente Adotante Preococe13 se encontra um um grupo denso, no qual existem muitas relaes, e este exerce um papel de lder
de opinio junto com um agente Adotante Precoce-11. J o agente Adotante Precoce-12 se encontra em uma situao que, de acordo com [Rogers 2003] no confortvel para seu esteretipo.
Esse agente faz parte de uma relao direta com outro agente adotante precoce. Na Figura 6.8 os
papis comeam a se inverter, o agente Adotante Precoce-13 deixa de fazer parte de um grupo
grande para formar uma dade, e o agente Adotante Precoce-12 deixa sua posio desconfortvel
e passa a exercer influncia em um agente de categoria diferente da sua. Na Figura 6.9 observa-se um
inverso de papis entre esse dois agentes, agora o agente Adotante Precoce-13 se encontra na
mesma situao em que o agente Adotante Precoce-12 se encontrava no comeo da simulao,
ou seja, divide uma relao com um agente de mesma categoria. J o agente Adotante Precoce-12
alm de fazer parte de uma trade, estabele relao com um agente da categoria maioria precoce, a
qual mais interessante para ele.

6.1. Configurao da Simulao

57

Figura 6.9: Dinmica do Contedo Social - Experimento 02: 600 ciclos.

Observando o comportamento da categoria de agentes retardatrios e maioria precoce percebese uma inverso de papis. No to especfica quanto a dos adotantes precoces, mas de uma maneira
mais geral. Olhando somente para o escopo de categoria, na Figura 6.7 existe um agente (Maioria
Precoce) que no se relaciona com nenhum outro tipo de agente. Na Figura 6.8 agentes dos tipo
retardatrio e maioria preoce dividem essa condio. E na Figura 6.9 somente agentes da categoria
retardatrio ficam sem estabelecer relao alguma.

6.1.2 Minerao de Dados no Sistema Social


Realizados os experimentos que mostram tanto a dinmica do contedo social quanto o prprio
comportamento dos agentes, agora possvel extrair informaes mais intrnsecas aos agentes formadores de opinio. Para essa tarefa utilizou-se a ferramenta Weka [Weka Machine Learning Project
2008], no intuito de se aplicar algortmos de minerao de dados frente aos dados obtidos atravs das
simulaes. possvel separar essa etapa da anlise em duas sub-etapas: analisando cada um dos
experimentos em separad. Em ambas estapas o tempo de simulao configurado foi de 600 ciclos e
os atributos observados foram: homophilia mdia no quandrante, homophilia com os agentes Inovadores, homophilia com os agentes Adotantes Precoces, homophilia com os agentes Maioria
Precoce, homophilia com os agentes Retardat
arios, homophilia com o lder analisado e se o lder
observado est, ou no, sendo seguido.
Para a anlise atravs da ferramenta Weka, utilizou-se um algoritmo que capaz de fornecer a
rvore de deciso que um determinado agente percorre at alcanar seu objetivo. Tanto no primeiro
quanto no segundo experimento realizou-se uma amostragem de cerca de 10% dos agentes Maioria
Preococe e Retardat
arios. Isso no intuito de analisar como os agentes agentes Maioria Preococe e Retardat
arios vo busca de supostos lderes de opinio.

6.1.2.1 Primeiro Experimento


Nesse experimento escolheu-se dois agentes que mais possuiam entradas em seu n, que representam um maior nmero de seguidores de acordo com as simulaes executadas: o agente AgentEarlyAdopter-3 e o AgentEarlyAdopter-4. Ambos os agentes representam lderes de opinio sob o es-

6.1. Configurao da Simulao

58

copo desse experimento. Para isso coletou-se a seguinte amostragem de agentes: AgentEarlyMajority9, AgentEarlyMajority-23, AgentEarlyMajority-24, AgentLaggard-35 e AgentLaggard-40.
Os atributos para esses agentes so descritos na Seo 6.1.2.

Figura 6.10: rvore de Deciso - AgentEarlyAdopter-3.

Nesse experimento, como descrito na Seo 6.1.1.1, existe uma baixa densidade de agentes, ou
seja, as interes ficam mais limitadas. Os agentes no possuem tantos lderes para que possam, a
cada instante, sofrer mudanas drsticas em seu comportamento. Portanto a rvore de deciso que
descreve as aes tomadas ao longo da simulao tendem a ser mais simples. A Figura 6.10 mostra
as decises que, ao longo da simulao, direcionaram alguns agentes a seguirem ou no o agente
AgentEarlyAdopter-3. As interaes com outros agentes no influenciam na tomada de deciso,
em decorrncia da baixa densidade populacional.

Figura 6.11: rvore de Deciso - AgentEarlyAdopter-4.

Na Figura 6.11, por se tratar de um agente mais interconectado, seus seguidores se deparam com
outros agentes. Fazendo com que a deciso de seguir, ou no este lder de opinio se torne um pouco
mais trabalhosa. Logo prximo raiz da rvore percebe-se que os agentes que interagem com o
agente AgentEarlyAdopter-4 levam em consideraao a homophilia pelos lderes de opinio em sua
proximidade. Na raiz da rvore de deciso possvel ver que todos os agentes que possuem um grau
de homophilia igual, ou inferior 0.403, em relao aos agentes lderes de opinio acabaram por no
seguir o lder de opinio em questo (AgentEarlyAdopter-4) Segundo a Figura 6.11 2835 instncias
no o seguiram nessa etapa de decises. Os que obtiveram um grau de homophilia superior a 0.403
foram direcionados a outro n de deciso, no qual mostra que agentes com um grau de homophilia
inferior a 0.473 seguiram o lder analisado, mas os que possuiam tal valor superior 0.473 foram
segregados em outro n de deciso. De forma anloga agentes com grau de homophilia entre os

6.1. Configurao da Simulao

59

lderes de opinio, inferior ou igual, 0.675 no seguiram o lder analisado. J os que obtiveram um
grau superior a 0.675 passaram a considerar outro tipo de homophilia para seguir ou no o agente
AgentEarlyAdopter-4, a homophilia mdia do quadrante. Nesse ltimo n da rvore de deciso, os
agentes que obtiveram um grau mdio de homophilia (sob o quandrante analisado) inferior a 0.197
no estabeleceram relao alguma com o lder em questo, mas os que obtiveram um grau superior
a 0.197 o seguiram com sucesso.

6.1.2.2 Segundo Experimento


Nesse experimento escolheu-se dois agentes que mais possuiam entradas em seu n, que representam um maior nmero de seguidores de acordo com as simulaes executadas: o agente AgentEarlyAdopter-17 e o AgentEarlyAdopter-18. Ambos os agentes representam lderes de opinio sob o escopo desse experimento. Para isso coletou-se a seguinte amostragem de agentes: AgentEarlyMajority-

28, AgentEarlyMajority-35, AgentEarlyMajority-40, AgentEarlyMajority-45, AgentEarlyMajority-50, AgentEarlyMajority-55, AgentEarlyMajority-65, AgentEarlyMajority-85,


AgentEarlyMajority-105, AgentEarlyMajority-125, AgentLaggard-126, AgentLaggard-136
e AgentLaggard-146. Os atributos para esses agentes so descritos na Seo 6.1.2.

Figura 6.12: rvore de Deciso - AgentEarlyAdopter-17.

Nesse experimento, conforme descrito na Seo 6.1.1.2, existe uma alta concentrao de agentes
espalhados pelo Ambiente F
sico. Desse modo, o nmero de interaes entre os agentes superior
quando comparado com as do primeiro experimento. Os lderes de opinio analisados nesse experimento mostram comportamentos mais complexos, em relao ao primeiro experimento, e mais
divergentes quando comparados entre si. A Figura 6.12 mostra a rvore de deciso formada pelos
agentes que possuem como lder de opinio o agente AgentEarlyAdopter-17, com mais ramificaes e mais variveis envolvidas. Mesmo com muitos agentes percebe-se que os ns da rvore levam
em considerao apenas caractersticas relacionadas homophilia com os lderes de opinio, com o
quadrante e com o lder de opinio em questo.
O nmero de ramificaes observado nessa rvore representa o quanto interconectado o agente
AgentEarlyAdopter-17 . A disposio da rvore apresentada possibilita observar que, em quase
todos os ns possvel separar um agente que est ou no seguindo o lder de opinio analisado.
importante ressaltar que o algortmo utilizado est sujeito a uma porcentagem de erros, e portanto
representa parcialmente a simulao. A notao false(7660/1), para o atributo homophilia com o
lder, mostra que de 7660 instncias analisadas corretamente um erro ocorreu. Em outras palavras,

6.1. Configurao da Simulao

60

indica que o agente AgentEarlyAdopter-17 no est sendo seguido (atributo false) deveria estar
sendo seguido (atributo true).

Figura 6.13: rvore de Deciso - AgentEarlyAdopter-18.

A Figura 6.13 mostra a rvore de deciso que descreve o comportamento dos agentes que seguem,
ou no, o agente AgentEarlyAdopter-18. Mesmo em um ambiente com muitos agentes o lder
de opinio analisado no se mostra to interconectado quanto o agente AgentEarlyAdopter-17.
Apresentando, desse modo, uma rvore de deciso menos complexa e com menos caractersticas
levadas em considerao. No entanto, mesmo com um padro de aes menos complexas os agentes
analisados esto sob a influncia de outros lderes de opinio, o que os leva a consider-los antes de
tomar alguma deciso. Isso visto logo na raz da rvore onde o atributo HomophilyEarlyAdopter
considerado para a tomada de decises. Em linhas gerais o agente AgentEarlyAdopter-18 se
mostra muito menos "seguido"do que o agente AgentEarlyAdopter-17, o qual mostra um padro
extremamente complexo com relao aos agentes que o seguem.

CAPTULO

C ONSIDERAES F INAIS
Redes Sociais podem ser entendidas, de forma geral, como um conjunto de ns scio-relevantes conectados por uma ou mais relaes. Estes ns, tambm conhecidos como membros da rede, so as
unidades que so conectadas pelas relaes cujos padres estuda-se neste trabalho. Muitas vezes
essas unidades so pessoas ou organizaes, mas a princpio toda unidade que se conecta a outras
unidades pode ser estudada como ns dentro de uma rede. As redes sociais, sejam elas virtuais ou
no, possuem elementos que no so to facilmente identificados quanto em uma rede comum.
Nesse trabalho analisou-se uma rede social virtual que tem como objetivo simular as interaes
sociais entre diversos tipos de unidades: lderes de opinio, inovadores, seguidores fortes e seguidores
fracos. Onde todos representam seres humanos, com caractersticas prprias que os levam a tomar
decises diferentes. Mesmo que sejam de um mesmo tipo, durante as simulaes possvel observar que, assim como em um mundo real, as pessoas mesmo pertencendo a um mesmo grupo acabam mostrando comportamentos distintos. O grupo no obrigatoriamente dita o comportamento
do indivduo, mas o caracteriza em alguns pontos. Essa condio, ao mesmo tempo que permite a
caracterizao dos agentes e de seu grupo, faz com que haja um certo padro em suas aes. No
entanto, em um sistema social com muitos agentes presentes e interagindo entre si, possibilita um
comportamento complexo que emerge de suas aes. Representando dessa forma o quo complexo
um sistema social .
Este trabalho se deteve analise da dinmica e do contedo social sobre o ambiente de difuso
de informao proposto por [Rogers 2003], utilizando-se suas mtricas e adaptando-se suas teorias
para que fosse possvel observar a relao entre os agentes que so formadores de opinio e os outros agentes em um sistema social. Muitas caractersticas de um sistema social real precisaram ser
omitidas em pr de um estudo direcionado anlise das relaes entre difusores de informao,
baseando-se em suas homophilia. Isso porque em uma rede social real muitos fatores esto presentes como: psicologia cognitiva, gostos pessoais, nicho social, entre outros. O que tornaria a tarefa de
simular e analisar um sistema social impossvel. Mesmo simplificando o modelo teorizado por [Rogers 2003], a dinmica social que envolve a difuso de informao, baseada nas homophilias entre
os agentes propostos, e ainda assim obtm-se uma grande complexidade no assunto. Tal complexidade levanta inmeras possibilidades de pesquisas, cada uma focando um aspecto social relevente.
De forma que em estudos futuros seja possvel integrar novas tecnologias e teorias consolidando o
conhecimento obtido e retratando com mais fidelidade a realidade.
Sob o vis do escopo desse trabalho contribui-se para que estudos futuros. Envolvendo redes
socias, possam ser trilhados. Estabeleceu-se uma linha de trabalho iniciada desde a difinio de
sistemas complexos (ver Seo 2) at um estudo vertical sobre uma rede social em especfico. Deste

61

62
modo, prximos estudos nessa rea podem continuar sem que haja a necesidade de recriar as bases
tericas aqui utilizadas.

R
R EFERNCIAS
[Aha, Kibler e Albert 1991]AHA, D. W.; KIBLER, D. F.; ALBERT, M. K. Instance-based learning algorithms. Machine Learning, v. 6, p. 3766, 1991.
[Anand, Mulvenna e Chevalier 2003]ANAND, S. S.; MULVENNA, M. D.; CHEVALIER, K. On the deployment of web usage mining. In: EWMF. [S.l.: s.n.], 2003. p. 2342.
[Baeza-Yates, Jr. e Ziviani 2006]BAEZA-YATES, R. A.; JR., . R. P.; ZIVIANI, N. Understanding content
reuse on the web: Static and dynamic analyses. In: WEBKDD. [S.l.: s.n.], 2006. p. 227246.
[Barabsi 2003]BARABSI, A.-L. Linked:
How Everything Is Connected to Everything Else
and What It Means for Business, Science, and Everyday Life. Plume Books, 2003. Paperback. Set book for Open University course T214. ISBN 0452284392. Disponvel em:
<http://www.worldcat.org/isbn/0452284392>.
[Berendt et al. 2002]BERENDT, B. et al. The impact of site structure and user environment on session
reconstruction in web usage analysis. In: WEBKDD. [S.l.: s.n.], 2002. p. 159179.
[Bhagat, Cormode e Rozenbaum 2007]BHAGAT, S.; CORMODE, G.; ROZENBAUM, I. Applying linkbased classification to label blogs. In: WebKDD/SNA-KDD. [S.l.: s.n.], 2007. p. 97117.
[Borgatti, Everett e Freeman 2002]BORGATTI, S. P.; EVERETT, M. G.; FREEMAN, L. C.
UCINET 6 For Windows: Software for Social Network Analysis. 2002. Disponvel em:
<http://www.analytictech.com/>.
[Bourdieu 1986]BOURDIEU, P. The forms of capital. In: In J. Richardson (Ed.), Handbook of Theory
and Research for the Sociology of Education. [S.l.: s.n.], 1986.
[Braga, Carvalho e Ludermir 2007]BRAGA, A. de P.; CARVALHO, A. P. de Leon F. de; LUDERMIR, T. B.
Redes Neurais Artificiais. Brasil: LTC, 2007. ISBN 9788521615644.
[Branding 2008,]BRANDING, T. Organizaes e Marcas como Propriedades Emergentes. 2008,.
[Breiger 1974]BREIGER, R. L. The duality of persons and groups. Social Forces, v. 53, n. 2, p. 181190,
1974. Disponvel em: <http://www.jstor.org/stable/2576011>.
[Buchanan 2003]BUCHANAN, M. Nexus: Small Worlds and the Groundbreaking Theory of Networks.
[S.l.: s.n.], 2003. Paperback. ISBN 0393324427.

63

64
[Cardoso e Iaani 1966]CARDOSO, F. H.; IAANI, O. Book. Homem e sociedade : leituras basicas de sociologia geral / [Organizacao e introducao de] Fernando Henrique Cardoso e Octavio Innie. 3 ed. rev..
ed. [S.l.]: Companhin Editora Nacional, Sao Paulo :, 1966. 317 p. ; p.
[Castilho 2004]CASTILHO, C. Effective Web Crawling. 1148 p. Tese (Doutorado) University of
Chile, Novembro 2004.
[Cazella 2005]CAZELLA, S. C. Minerao de Dados na WEB. 1033 p. Dissertao (Mestrado) Universidade Federal do Rio Grande do Sul, UFRGS - Instituto de Informtica - Programa de PsGraduao em Computao, Novembro 2005.
[Coleman 1988]COLEMAN, J. S. Social capital in the creation of human capital. The American Journal of Sociology, The University of Chicago Press, v. 94, 1988. ISSN 00029602. Disponvel em:
<http://dx.doi.org/10.2307/2780243>.
[Costa et al. 2007]COSTA, L. da F. et al. Characterization of complex networks:
A survey of measurements. Advances In Physics, v. 56, p. 167, 2007. Disponvel em:
<http://dx.doi.org/10.1080/00018730601170527>.
[Creamer et al. 2007]CREAMER, G. et al. Segmentation and automated social hierarchy detection through email network analysis. In: WebKDD/SNA-KDD. [S.l.: s.n.], 2007. p. 4058.
[Creamer e Stolfo 2009]CREAMER, G.; STOLFO, S. J. A link mining algorithm for earnings forecast and
trading. Data Min. Knowl. Discov., v. 18, n. 3, p. 419445, 2009.
[Degenne e Forse 1999]DEGENNE, A.; FORSE, M. Introducing Social Networks. [S.l.]: Sage Publications, 1999.
[Dring 2002]DRING, N. chpersonal home pages on the web: A review of resear. Journal of
Computer-Mediated Communication, v. 3, n. 7, Abril 2002.
[Durant e Smith 2006]DURANT, K. T.; SMITH, M. D. Predicting the political sentiment of web log posts
using supervised machine learning techniques coupled with feature selection. In: WEBKDD. [S.l.:
s.n.], 2006. p. 187206.
[Elder IV e Pregibon 1996]ELDER IV, J. F.; PREGIBON, D. A statistical perspective on knowledge discovery in databases. American Association for Artificial Intelligence, Menlo Park, CA, USA, p. 83113,
1996.
[Escudeiro e Jorge 2005]ESCUDEIRO, N. F.; JORGE, A. M. Semi-automatic creation and maintenance
of web resources with webtopic. In: EWMF/KDO. [S.l.: s.n.], 2005. p. 82102.
[Esposito et al. 2003]ESPOSITO, F. et al. Evaluation and validation of two approaches to user profiling.
In: In: Proc. of the ECML/PKDD-2003 First European Web Mining Forum. [S.l.: s.n.], 2003. p. 5163.
[Euler 1741]EULER, L. Solutio problematis ad geometriam situs pertinentis. Commentarii Academiae
Scientiarum Imperialis Petropolitanae, v. 8, p. 128 140, 1741.
[Evans 2009,]EVANS, M. K. 175 Data Visualization Resources Logo. 2009,.
[Fayyad et al. 1996]FAYYAD, U. et al. The kdd process for extracting useful knowledge from volumes
of data. Communications of the ACM, v. 39, p. 2734, 1996.
[Feofiloff, Kohayakawa e Wakabayashi 2009]FEOFILOFF, P.; KOHAYAKAWA, Y.; WAKABAYASHI, Y.
Uma Introduo Sucinta Teoria dos Grafos. IME-USP: [s.n.], Maio 2009. Online. Disponvel em:
<http://www.ime.usp.br/ pf/teoriadosgrafos/>.

65
[Garton, Haythornthwaite e Wellman 1997]GARTON, L.; HAYTHORNTHWAITE, C.; WELLMAN, B.
Studying online social networks. Journal of Computer-Mediated Communication, v. 3, n. 1, p. 0, 1997.
Disponvel em: <http://dx.doi.org/10.1111/j.1083-6101.1997.tb00062.x>.
[Goldberg]GOLDBERG, D. E. Genetic Algorithms in Search, Optimization, and Machine Learning. 1.
ed. [S.l.]: Addison-Wesley Professional. Hardcover. ISBN 0201157675.
[Group 2010]GROUP, S. D. Swarm Main Web Page. [S.l.]:
Http://www.swarm.org/.

University of Michigan, Jun. 2010.

[Gryc et al. 2007]GRYC, W. et al. Looking for great ideas: Analyzing the innovation jam. In: ZHANG, H.
et al. (Ed.). WebKDD/SNA-KDD. [S.l.]: Springer, 2007. (Lecture Notes in Computer Science, v. 5439),
p. 2139. ISBN 978-3-642-00527-5.
[Kim e Chan 2005]KIM, H. rae; CHAN, P. K. Personalized search results with user interest hierarchies
learnt from bookmarks. In: WEBKDD. [S.l.: s.n.], 2005. p. 158176.
[Kohavi et al. 1994]KOHAVI, R. et al. Mlc++: A machine learning library in c++. In: ICTAI. [S.l.: s.n.],
1994. p. 740743.
[Lemos 2002]LEMOS, A. A arte da vida: Dirios pessoais e webcams na internet. X COMPOS, Junho
2002.
[Linstead et al. 2009]LINSTEAD, E. et al. Sourcerer: mining and searching internet-scale software repositories. Data Min. Knowl. Discov., v. 18, n. 2, p. 300336, 2009.
[Mandelbrot 1983]MANDELBROT, B. The Fractal Geometry of Nature. [S.l.]: W. H. Freeman (1983),
1983. ISBN 0716711869.
[Markov, Last e Kandel 2006]MARKOV, A.; LAST, M.; KANDEL, A. Fast categorization of web documents represented by graphs. In: WEBKDD. [S.l.: s.n.], 2006. p. 5671.
[Masseglia et al. 2008]MASSEGLIA, F. et al. Web usage mining: extracting unexpected periods from
web logs. Data Min. Knowl. Discov., v. 16, n. 1, p. 3965, 2008.
[Metz et al. 2007]METZ, J. et al. Redes Complexas: conceitos e aplicaes. Caixa Postal 668, 13560-970
- So Carlos, SP, Brasil, Janeiro 2007.
[Mika 2007]MIKA, P. Social Networks and the Semantic Web. [S.l.]: Springer, 2007. (Semantic Web And
Beyond Computing for Human Experience, v. 5). ISBN 978-0-387-71000-6.
[Milgram 1967]MILGRAM, S. The small world problem. Psychology Today, v. 2, p. 6067, 1967.
[Mobasher, Jin e Zhou 2003]MOBASHER, B.; JIN, X.; ZHOU, Y. Semantically enhanced collaborative
filtering on the web. In: Proceedings of the First EuropeanWeb Mining Forum EWMF 2003. [S.l.]:
Springer, 2003. p. 5776.
[Netto 2006]NETTO, P. O. B. Grafos: Teoria, Modelos, Algoritmos. 4. ed. [S.l.: s.n.], 2006. ISBN
8521203918.
[Newman 2003]NEWMAN, M. E. J. The structure and function of complex networks. SIAM Review,
v. 45, p. 167256, 2003.
[Noronha et al. 2009]NORONHA, E. A. et al. Multiagent simulation of the difusion of information. February 2009.
[Oliveira 2000]OLIVEIRA, R. B. T. de. O Processo de Extrao de Conhecimento de Base de Dados Apoiado por Agentes de Software. 528 p. Dissertao (Mestrado) Universidade de So Paulo - USP So Carlos, Outubro 2000.

66
[Piatetsky-Shapiro 2007]PIATETSKY-SHAPIRO, G. Data mining and knowledge discovery 1996 to
2005: overcoming the hype and moving from "university"to "business"and "analytics". Data Min.
Knowl. Discov., v. 15, n. 1, p. 99105, 2007.
[Ponniah 2001]PONNIAH, P. Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. [S.l.]: A Wiley-Interscience Publication, 2001. ISBN 0-471-22162-7.
[Primo 2003]PRIMO, A. Interao Mediada por Computador: A comunicao e a educao a distncia segundo uma perspectiva sistmico-relacional. Tese (Doutorado) Universidade Federal do Rio
Grande do Sul - UFRGS, Maro 2003.
[Putnam 2000]PUTNAM, R. D. Bowling Alone: The Collapse and Revival of American Community.
[S.l.]: Simon & Schuster, 2000. Hardcover. ISBN 0684832836.
[Quinlan 1993]QUINLAN, J. R. C4.5: Programs for Machine Learning (Morgan Kaufmann Series in
Machine Learning). 1. ed. [S.l.]: Morgan Kaufmann, 1993. Paperback. ISBN 1558602380.
[Quinlan 1993]QUINLAN, R. J. C4.5: programs for machine learning. San Francisco, CA, USA: Morgan
Kaufmann Publishers Inc., 1993. ISBN 1-55860-238-0.
[Recuero 2009,]RECUERO, R. Redes Sociais, Dunbars Number e Redes Emergentes: o que sabemos?
2009,.
[Recuero 2009]RECUERO, R. Redes Sociais Na Internet. 1. ed. [S.l.: s.n.], 2009. (Cibercultura, 1). ISBN
8520505252.
[Recuero 2004]RECUERO, R. da C. Redes sociais na Internet: Consideraes iniciais. Setembro 2004.
Ncleo de Pesquisa (NP-08) de Tecnologias da Comunicao e Informao do do IV Encontro dos
Ncleos de Pesquisa da XXVII INTERCOM.
[Rocha 2007]ROCHA, L. E. C. da. Redes Acopladas:
Estrutura e Dinmica. Dissertao (Mestrado) Instituto de Fsica de So Carlos - USP, Julho 2007. Disponvel em:
<http://www.teses.usp.br/teses/disponiveis/76/76132/tde-11092007-183106/>.
[Rogers 2003]ROGERS, M. E. Diffusion of Innovations. 5th. ed. [S.l.]: Paperback, 2003.
[Santos 2009]SANTOS, R. Conceitos de minerao de dados na web. In: TEIXEIRA, M. M. et al. (Ed.).
XV Simpsio Brasileiro de Sistemas Multimdia e Web, VI Simpsio Brasileiro de Sistemas Colaborativos Anais. [S.l.: s.n.], 2009. p. 81124.
[Semeraro et al. 2006]SEMERARO, G. et al. Discovering user profiles from semantically indexed scientific papers. In: WebMine. [S.l.: s.n.], 2006. p. 6181.
[Shah et al. 2002]SHAH, H. S. et al. Mining ebay: Bidding strategies and shill detection. In: ZAANE,
O. R. et al. (Ed.). WEBKDD. [S.l.]: Springer, 2002. (Lecture Notes in Computer Science, v. 2703), p.
1734. ISBN 3-540-20304-4.
[Sibilia 2003]SIBILIA, P. P.os dirios ntimos na internet e a crise da interioridade psicolgica do sujeito. XII Congresso da Associao Nacional de Programas de Ps-Graduao em comunicao COMPOS, 2003.
[Sibilia 2004]SIBILIA, P. A vida como relato na era do fast-forward e do real time: algumas reflexes
sobre o fenmeno dos blog. XII Congresso da Associao Nacional de Programas de Ps-Graduao
em comunicao - COMPOS, 2004.
[Tecuci et al. 1995]TECUCI, G. et al. Machine learning and knowledge acquisition: integrated approaches. London, UK, UK: Academic Press Ltd., 1995. ISBN 0-12-685120-4.

67
[Utard e Frnkranz 2005]UTARD, H.; FRNKRANZ, J. Link-local features for hypertext classification.
In: EWMF/KDO. [S.l.: s.n.], 2005. p. 5164.
[Valente e Davis 1999]VALENTE, T. W.; DAVIS, R. L. Accelerating the diffusion of innovations using
opinion leaders. The ANNALS of the American Academy of Political and Social Science, v. 566, n. 1, p.
5567, 1999.
[Viana 2007]VIANA, M. P. Metodologia das Redes Complexas para Caracterizao do Sistema de Havers.
Dissertao (Mestrado) Instituto de Fsica de So Carlos - USP, Fevereiro 2007. Disponvel em:
<http://www.teses.usp.br/teses/disponiveis/76/76132/tde-15032007-135024/>.
[Wang et al. 2008]WANG, J. et al. Web search results clustering based on a novel suffix tree structure.
In: ATC. [S.l.: s.n.], 2008. p. 540554.
[Wasserman e Faust 1994]WASSERMAN, S.; FAUST, K. Social Network Analysis: Methods and Applications. [S.l.]: Cambridge University Press, 1994.
[Watts 1999]WATTS, D. J. Small worlds : the dynamics of networks between order and randomness. [S.l.:
s.n.], 1999.
[Watts 2003]WATTS, D. J. Six degrees: The science of a connected age. [S.l.]: WW Norton & Company,
2003.
[Weka Machine Learning Project 2008]Weka Machine Learning Project. Weka. [S.l.]: University of
Waikato, 2008. URL http://www.cs.waikato.ac.nz/ml/weka.
[Wellman 1997]WELLMAN, B. Structural analysis: From method and metaphor to theory and substance. In: WELLMAN, B.; BERKOWITZ, S. D. (Ed.). Social structures: A network approach. Greenwich,
CT: JAI Press, 1997. cap. Structural analysis: From method and metaphor to theory and substance,
p. 1961.
[Wellman 2001]WELLMAN, B. Physical place and cyberplace: The rise of personalized networking.
International Journal of Urban and Regional Research, v. 25, n. 2, 2001.
[Wellman et al. 2003]WELLMAN, B. et al. The social affordances of the internet for networked individualism. Journal of Computer-Mediated Communication, v. 8, n. 3, p. 0, 2003. Disponvel em:
<http://dx.doi.org/10.1111/j.1083-6101.2003.tb00216.x>.
[Williams et al. 2006]WILLIAMS, C. et al. Detecting profile injection attacks in collaborative filtering:
A classification-based approach. In: WEBKDD. [S.l.: s.n.], 2006. p. 167186.
[Wu et al. 2008]WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information
Systems, Springer, London, v. 14, n. 1, p. 137, jan. 2008. ISSN 0219-1377. Disponvel em:
<http://dx.doi.org/10.1007/s10115-007-0114-2>.
[Zaane, Chen e Goebel 2009]ZAANE, O. R.; CHEN, J.; GOEBEL, R. Mining research communities in
bibliographical data. Springer-Verlag, Berlin, Heidelberg, p. 5976, 2009.

Vous aimerez peut-être aussi