Redes Complexas Conceitos e Aplicações

Instituto de Cincias Matemticas e de Computao
ISSN - 0103-2569
Redes Complexas: conceitos e aplicaes
Jean Metz Rodrigo Calvo Eloize Rossi Marques Seno Roseli A. F. Romero Zhao Liang
No 290
RELATRIOS TCNICOS DO ICMC
So Carlos janeiro/2007
Redes Complexas: conceitos e aplicaes. Jean Metz Rodrigo Calvo Eloize Rossi Marques Seno Roseli A. F. Romero Zhao Liang
Universidade de So Paulo Instituto de Cincias Matemticas e de Computao Departamento de Cincias de Computao e Estatstica Laboratrio de Inteligncia Computacional Caixa Postal 668, 13560-970 - So Carlos, SP, Brasil
Resumo: As redes complexas so um tipo de grafo que apresentam propriedades topogrcas bastante particulares, no encontradas em grafos mais simples. Este relatrio tem como objetivo apresentar aos leitores iniciantes da rea alguns conceitos fundamentais para o entendimento dessas redes, bem como suas propriedades principais e alguns modelos mais comumente estudados. Alm de conceitos introdutrios, apresentam-se tambm algumas aplicaes reais envolvendo redes complexas.
Palavras-Chave: Teoria dos grafos, redes complexas, aplicaes de redes complexas
janeiro/2007
A Este documento foi preparado com o formatador de textos L TEX. O sistema de citaes de referncias bibliogrcas utiliza o padro Chicago do sistema bibTEX.
Sumrio
Sumrio Lista de Figuras Lista de Tabelas 1 Introduo 2 Fundamentos tericos 2.1 Propriedades das Redes . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Tipos de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Aplicaes de Redes Complexas 3.1 Avaliao da Qualidade de Textos . . . . . 3.2 Avaliao de Sumrios . . . . . . . . . . . 3.3 Deteo de Comunidades . . . . . . . . . . 3.3.1 Rede articial . . . . . . . . . . . . . 3.3.2 Rede social sobre dados reais . . . 3.4 Congestionamento em redes . . . . . . . . 3.5 Controle do Congestionamento de Pacotes 4 Consideraes Finais Referncias Bibliogrcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i iii v 1 4 4 6 9 9 12 14 19 21 21 25 30 31
Lista de Figuras
1 2 3 4 5 6 7 8 9 10 11 Representao da rede Web do Google. . . . . . . . . . . . . . . . . Representao da estrutura da Internet. . . . . . . . . . . . . . . . Rede complexa pequeno-mundo. . . . . . . . . . . . . . . . . . . . Rede complexa livre de escala. . . . . . . . . . . . . . . . . . . . . . Poema No meio do caminho. . . . . . . . . . . . . . . . . . . . . . Rede complexa subjacente ao poema da No meio do caminho. . Dendograma e modularidade da rede articial (Newman and Girvan, 2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rede de interao social dos membros da academia de karat (Newman and Girvan, 2004). . . . . . . . . . . . . . . . . . . . . . . Dendograma e modularidade da rede social (Newman and Girvan, 2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dendograma e modularidade da rede social sem atualizao de betweenness (Newman and Girvan, 2004). . . . . . . . . . . . . . . Grco do congestionamento de pacotes com variao de para o modelo 1 (a) sem controle de congestionamento; (b) com controle de congestionamento. . . . . . . . . . . . . . . . . . . . . . . . . . . Grco do congestionamento de pacotes com variao de para o modelo 2 (a) sem controle de congestionamento; (b) com controle de congestionamento. . . . . . . . . . . . . . . . . . . . . . . . . . . Grco do congestionamento de pacotes com variao do grau para o modelo 1 (a) sem controle de congestionamento; (b) com controle de congestionamento. . . . . . . . . . . . . . . . . . . . . . Grco do congestionamento de pacotes com variao do grau para o modelo 2 (a) sem controle de congestionamento; (b) com controle de congestionamento. . . . . . . . . . . . . . . . . . . . . . 2 2 7 9 10 10 20 21 22 23
27
12
28
13
28
14
28
iii
Lista de Tabelas
1 2 Resultados do experimento 1: Desvio de crescimento dinmico das redes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Resultados do experimento 2: Grau de sada dos vrtices e coeciente de aglomerao. . . . . . . . . . . . . . . . . . . . . . . . . . 14
Introduo
O estudo de redes complexas um tema inter-disciplinar que abrange diversas reas de conhecimento, tais como a cincia da computao, matemtica, fsica, biologia e sociologia. O termo redes complexas refere-se a um grafo que apresenta uma estrutura topogrca no trivial, composto por um conjunto de vrtices (ns) que so interligados por meio de arestas (Barabsi, 2003). O estudo de redes na forma de grafos um dos pilares da matemtica discreta e teve incio em 1735, quando Euler props uma soluo para o problema das pontes de Knigsberg, originando a teoria dos grafos. Desse modo, diversos aspectos do mundo real podem ser representados por meio de redes complexas a partir de analogias para a resoluo de problemas especcos. possvel, por exemplo, modelar toda a estrutura fsica de uma grande rede de computadores tal como a Internet. Nesse caso, os computadores conectados Internet referem-se aos vrtices da rede enquanto que os cabos e meios de tranmisso representam as arestas do grafo. Outras analogias pode ser tambm utilizadas, tais como o contedo de pginas WEB World Wide Web, relaes sociais entre grupos de pessoas, redes organizacionais ou de negcios entre companhias, redes neurais, redes metablicas, cadeia alimentar, entre outras. Como ilustrao da modelagem de redes complexas como grafos, considere as Figuras 11 e 2 mostram a estrutura da rede Internet e a estrutura da rede Web do Google, respectivamente. Os estudos das redes complexas foram iniciados em meados de 1930, quando socilogos utilizavam essas redes com a nalidade de estudar o comportamento da sociedade e a relao entre os indivduos. Essas pesquisas eram baseadas em caractersticas muito peculiares das redes, como a centralidade (o vrtice mais central) e a conectividade (vrtices com maior nmero de conexes). As redes sociais eram constitudas por indivduos, que representados por vrtices, e pelas interaes entre eles, as arestas. A centralidade e a conectividade eram usadas, por exemplo, para determinar os indivduos que melhor se relacionavam com os demais ou para identicar os indivduos mais inuentes. Com o avano da tecnologia de informao e a disponibilidade de computadores e redes de comunicao que permitem a anlise de dados em grandes quantidades, houve uma mudana signicativa na rea. As pesquisas, antes focadas nas pequenas redes e nas propriedades de vrtices individuais ou arestas, passaram a considerar propriedades estatsticas em larga-escala. Atualmente, so comuns estudos com redes envolvendo milhes ou bilhes de vrtices, as quais antes eram compostas por dezenas ou, em casos extremos,
Disponvel em: http://commons.wikimedia.org/wiki/Image: WorldWideWebAroundGoogle.png (ltimo acesso em 27/06/06)
1
Figura 1: Representao da rede Web do Google.
Figura 2: Representao da estrutura da Internet (Newman, 2003).
centenas de vrtices. A mudana de paradigma revelou vrias caractersticas que diferem substancialmente as redes do mundo real das redes aleatrias, tidas por muitos anos como o principal modelo de redes (Barabsi, 2003; Newman, 2003). Descobriu-se que a topologia e a evoluo das redes do mundo real apresentam propriedades organizacionais bastante robustas e distintas das redes aleatrias. Essa a principal razo pela qual as redes passarem a ser chamadas de redes complexas. De maneira simplicada, pode-se dizer que as redes complexas so estruturas que no seguem um padro regular. No entanto, no h um consenso na literatura que identique exatamente o que um padro regular. Nem tampouco, uma conceituao universalmente aceita sobre o que constituem essas redes. Embora no haja um concenso claro sobre a denio dessas redes, sabe-se que elas apresentam caractersticas prrias que no esto presentes em redes regulares. Essas caractersticas revelam como as redes so formadas e como suas estruturas podem ser explorada na anlise de um determinado problema. Neste trabalho o objetivo fornecer um material introdutrio sobre redes complexas, apresentando alguns conceitos fundamentais de maneira simples que possam situar pesquisadores iniciantes na rea. Alm desses conceitos bsicos, so apresentados tambm exemplos de alguma aplicaes envolvendo redes complexas. Vale ressaltar que grande parte das denies apresentadas neste relatrio foram obtidas de duas fontes principais: (Newman, 2003) e (da F. Costa et al., 2005). Este relatrio est organizado da seguinte maneira: na Seo 2 so apresentados os fundamentos tericos refente s redes complexas, como suas propriedades e principais tipos de rede. Na Seo 3 so apresentadas algumas aplicaes que se baseiam em redes complexas para a resoluo de problemas especcos. Por m, na Seo 4 so apresentadas as consideraes nais.
Fundamentos tericos
Uma rede um grafo no qual h um conjunto de vrtices (ou ns) e um conjunto de arestas (ou arcos) que conectam esses vrtices. As arestas estabelecem algum tipo de relao entre dois vrtices de acordo com o problema modelado. Alm disso, o grafo pode ser direcionado ou no. Em um grafo direcionado (dgrafo), cada aresta tem um sentido (direo) que conecta um vrtice origem um vrtice destino. Exemplos de dgrafos so aqueles usados para representar chamadas telefnicas e mensagens de e-mails, nos quais as mensagens so direcionadas de uma pessoa para outra. Os dgrafos pode ser cclicos, quando h um caminho de um vrtice para ele mesmo, ou acclicos quando no existe esse caminho. importante lembrar que nem todo grafo pode ser considerado uma rede complexa, pois essa classicao s possvel se o grafo apresentar algumas propriedades topogrcas que no esto presentes em grafos simples. Algumas dessas propriedades so descritas brevemente a seguir.
2.1 Propriedades das Redes

As redes complexas apresentam algumas propriedades que podem ser teis nas anlises dos mais diversos aspectos das redes e com os mais variados propsitos. Nesta seo, so apresentadas algumas propriedades principais que tm recebido muita ateno na literatura. Coeciente de aglomerao: os agrupamentos intrnsecos s redes so quaticados por meio do coeciente de aglomerao, tambm conhecido como fenmeno de transitividade. Esse fenmeno ocorre quando um vrtice A est conectado a um vrtice B, e o vrtice B est conectado a um vrtice C, aumentando as chances do vrtice A tambm estar conectado ao vrtice C. Em outras palavras, a transitividade indica a presena de um nmero elevado de tringulos na rede, i.e., conjuntos de trs vrtices conectados uns aos outros. Para enteder melhor, considere a analogia com uma rede social. Nesse caso, pode-se dizer que se A amigo de B e B amigo de C, existem grandes chances de A e C tambm serem amigos. O coeciente de aglomerao CA de uma rede obtido a partir da Equao 1, onde # refere-se ao nmero de tringulos na rede e, # representa o nmero de vrtices triplamente conectados, i.e., vrtices com arestas no direcionadas para o outro par de ns. O fator 3 no numerador refere-se ao fato de que cada tringulo apresenta trs triplas e tambm para garantir que o coeciente de aglomerao seja um valor entre 0 (zero) e 1 (um). 4
CA =
3# #
(1)
Distribuio de Graus: o grau de um vrtice qualquer em uma rede dene o nmero de arestas que incidem (conectam) aquele vrtice. Desse modo, a distribuio de graus uma funo de distribuio probabilstica que indica a probabilidade de um determinado vrtice ter grau xo. Uma maneira de quanticar essa distribuio por meio de uma funo de distribuio cumulativa (Equao 2), onde pk a frao de ns da rede com grau k e Pk a funo cumulativa de distribuio de probabilidades.
Pk =
k =k
pk
(2)
Em um dgrafo, por outro lado, cada vrtice tem um grau de entrada e de sada, acarretando em uma equao diferente para o clculo da distribuio de graus. Essa nova equao escritas em funo de pjk com duas variveis, representando a frao de vrtices que tm, simultaneamente, um grau de entrada j e um grau de sada k . A distribuio de graus nas redes aleatrias segue a distribuio de Poisson. No entanto, em muitas redes reais a distribuio de graus segue a Lei de Potncia, em que pk k para uma constante qualquer. Resistncia: indica a capacidae de resistnca da rede quanto s remoes de alguns vrtices, sem que haja perda de sua funcionalidade. Essa propriedade est diretamente relacionada com a distribuio de graus dos vrtices, pois a remoo de vrtices pode resultar na perda de conexo entre pares de vrtices ou, ainda, aumentar signicativamente o caminho de um vrtice a outro. Misturas de Padres: alguns tipos de redes apresentam uma mistura de padres diferentes onde os vrtices pode representar diferentes tipos de objetos. Nas redes de cadeias alimentares, por exemplo, existem vrtices que representam plantas, animais herbvoros e animais carnvoros. Em geral, a probabilidade de conexo entre esses vrtices dependente do seu tipo. Nesse caso especco, existem arestas conectando os herbvoros s plantas e os herbvoros aos carnvoros. Por outro lado, existem poucas conexes entre herbvoros e herbvoros ou entre animais carnvoros e plantas. As redes de relaes sociais tambm apresentam essa propriedade, pois so constitudas por vrtices de representam pessoas de diferentes etnias. Nesse tipo de rede, h uma tendncia de existirem mais conexes 5
entre vrtices do mesmo tipo, uma vez que as pessoas esto mais propensas a se relacionarem com outras pessoas da mesma etnia (Newman, 2003). Uma curiosidade tambm observada por Newman (2003) que, essencialmente, todas as redes sociais apresentam essas variaes de padres, enquanto outros tipos de redes no. Correlao de Graus: indica se as arestas em uma rede associam vrtices com graus parecidos. Essa correlao usada, principalmente, em redes com variaes de padres, para investigar a probabilidade de conexo dos vrtices de diferentes tipos.
2.2 Tipos de Redes

Nesta seo so brevemente descritos os trs principais modelos de redes complexas: redes aleatrias, redes pequeno-mundo e redes livres de escala. Redes Aleatrias: porposto por Erds e Rny, esse o modelo mais simples que uma rede complexa pode assumir. Nesse modelo, arestas no direcionadas so adicionadas aleatriamente entre um nmero xo de N vrtices. Cada aresta independentemente representada com base em alguma probabilidade p. O nmero de arestas que conectam cada vrtice na rede, denomidado grau do vrtice, segue a distribuio de Poisson com um limite mximo N . O grau esperado de um vrtice qualquer denido pela Equao 3, onde p a probabilidade de um vrtice se concetar a um outro vrtice qualquer, N representa o nmero de vrtices da rede e k o total de arestas que incidem em um determinado vrtice.
k = p(N 1)
(3)
Esse modelo gera grafos aleatrios com N vrtices e k arestas, denoInicialmente com N minados grafo aleatrio ER, denido como GER N,k . vrtices desconectados, o modelo ER obtido conectando-se os vrtices selecionados aleatriamente at o nmero de arestas do grafo ser igual a k. Acredita-se que o processo de construo da rede seja aleatrio no sentido de que vrtices se agregam aleatoriamente. Com base nessa premissa, Erds e Rny concluram que todos os vrtices de uma determinada rede tm aproximadamente a mesma quantidade de conexes e as mesmas chances de receberem novas ligaes (Barabasi and Albert, 1999a). Segundo os autores, quanto mais complexa for a rede, maiores sero as chances dela ser aleatria. 6
Uma alternativa para o modelo ER de grafos aleatrios concetar cada par de vrtices comprobabilidade 0 < p < 1. Esse procedimento dene um conjunto representado como GER Np e formado por grados com diferentes nmero de arestas. Grafos com k arestas aparecem no conjunto com uma probabilidade pk (1 p)N (N 1)/2k . Nota-se que o limite N xado em k , que corresponde a 2k/N , no primeiro modelo e p(N 1), no segundo modelo. Redes Pequeno-mundo: Segundo Watts and Strogatz (1998), muitas redes apresentam padres altamente concetados, tendendo a formar pequenas quantidades de conexes em cada vrtice. Assim, eles propuseram um modelo semelhante ao de Erds e Rny, no qual grande parte das conexes so estabelecidas entre vrices mais prximos, apresentando-se como um mundo pequeno. Nesse modelo, a distncia mdia entre quaisquer dois vrtices de uma rede muito grande no ultrapassa um nmero pequeno de vrtices. Para isso, basta que algumas conexes aleatrias entre grupos sejam estabelecidas (Buchanan, 2002). Na Figura 3 apresentado um exemplo de rede pequeno mundo.
Figura 3: Rede complexa pequeno-mundo (Strogatz, 2001). O efeito pequeno-mundo observado nas redes em que a maioria dos vrtices se conecta a outros atravs de um caminho mnimo. O caminho mnimo, tambm chamado de caminho geodsico ou distncia geodsica, aquele formado pelo menor nmero de arestas que conectam um vrtice origem e um vrtice destino. Para melhor ilustrar esse efeito, considere os indivduos de uma sociedade qualquer. De acordo com o experimento conduzido por Stanley Milgram em 1960, se uma carta fosse entregue a um indivduo, que no fosse o destinatrio, e ele a repassasse a um outro e, assim, por diante, em aproximadamente seis passagens ela chegaria ao destinatrio. Esse resultado uma demonstrao direta do efeito pequeno-mundo, em que o caminho percorrido pela carta, partindo de um indivduo qualquer at o destinatrio, mnimo. O comprimento 7
do caminho mnimo mdio CM entre pares de vrtices em um grafo no direcionado dada pela Equao 4,onde dij a distncia geodsica do vrtice i at o vrtice j . l= 1 dij + 1) i j (4)
1 n(n 2
Essa denio apresenta problemas nas redes com mais de um componente. Um componente representado por um nico vrtice ou por um conjunto de vrtices e de arestas que conectam os pares de vrtices. Nas redes com mais de um componente no h um caminho conectando um vrtice qualquer de um componente com um outro vrtice qualquer de outro componente. Em outras palavras, h um subconjunto de vrtices interconectados entre si, mas sem qualquer conexo com um outro subconjunto da rede. Para evitar problemas no clculo da distncia mdia geodsica, so considerados apenas os pares de ns em que h um caminho entre eles. O efeito pequeno-mundo tem implicaes bvias na dinmica de processos em redes. Por exemplo, um boato pode se espalhar muito mais rpido se, ao invs de mil passos, levarem apenas seis para chegar de um indivduo qualquer a outro. Redes Livres de Escala: Barabasi and Albert (1999a) demonstraram que algumas redes apresentam uma ordem na dinmica de estruturao, com caractersticas bem especcas. Uma das principais caractersticas, denominada conexo preferencial, a tendencia de uma novo vrtice se concetar a um vrtice da rede que tem um grau elevado de conexes. Essa caracterstica implica em redes com poucos vrtices altamente conectados, denominados hubs, e muito vrtices com poucas conexes. As redes com essas caractersticas so denominadas livres de escala devido representao matemtica da rede. Ela segue uma funo f (x) que permanece inalterada com um fator multiplicativo sob um re-escalonamento da varivel independente x. Em outras palavras, isso signica que as redes livres de escalas so aquelas em que a distribuio de graus segue a Lei de Potncia, desde que exista uma soluo somente para f (ax) = bf (x). Conforme apresentado em (Newman, 2003), essas redes tm sido observadas em vrios sistemas, por exemplo, na internet, na Web, em redes de metabolismos e em redes de citaes de artigos cientcos. Na Figura 4 apresentado um exemplo de rede livre de escala.
Figura 4: Rede complexa livre de escala (Strogatz, 2001).
Aplicaes de Redes Complexas
As redes complexas tm sido aplicadas nas mais diversas reas, para a resoluo dos mais variados tipos de problemas. Por exemplo, na avaliao da qualidade de textos (Antiqueira et al., 2005b,a), na avaliao de sistemas de sumarizao automtica (Pardo et al., 2006b,a), na construo de sistemas de sumarizao (Antiqueira, 2006), citar aplicaes em outras reas. As subsees a seguir apresentam brevemente algumas aplicaes.
3.1 Avaliao da Qualidade de Textos

Antiqueira et al. (2005b) modelaram textos como redes complexas e usaram essa modelagem para avaliar sua qualidade. Em seu modelo, um texto representado por uma rede complexa, na qual cada palavra um vrtice e cada aresta representa uma relao de adjacncia entre dois vrtices, ou seja, para cada par de palavras consecutivas, existe uma aresta direcionada correspondente na rede. Cada aresta contm um peso que indica o nmero de vezes que as respectivas associaes de palavras ocorrem no texto. O objetivo dessa representao codicar as relaes entre os conceitos de um texto. Para isso, antes de serem representados como redes complexas, os textos foram pr-processados em duas etapas iniciais: a) remoo de palavras pouco signicativas(stopwords) como, preposies e conjunes; e b) lematizao das palavras restantes, para o agrupamento de conceitos que tinham a mesma forma cannica, mas apresentavam exes diferentes (por exemplo, "zeram"e "fazem"que correspondem ao lema "fazer"). 9
Para melhor ilustrar a representao de um texto como rede complexa, na Figura 5 apresentada a rede referente ao poema de Carlos Drummond de Andrade, representado na Figura 6.
Figura 5: Poema No meio do caminho (Antiqueira et al., 2005b).
Figura 6: Rede complexa subjacente ao poema da No meio do caminho (Antiqueira et al., 2005b). Aps o pr-processamento, a rede derivada de um texto representada por uma matriz de adjacncia W de dimenso N N , onde N corresponde ao nmero de palavras distintas aps o pr-processamento. Inicialmente, todos os elementos da matriz so iguais. medida em que cada par de palavras (i, j ) era lido do texto, incrementava-se o peso da aresta i j com W (i, j ) = W (i, j ) + 1. Com o propsito de avaliar a potencialidade das redes na avaliao da qualidade de textos, vrias medidas estatsticas foram computadas. So elas: a mdia dos graus de sada dos vrtices2 , mdia do coeciente de aglomerao
Dado que em um dgrafo a mdia dos graus de entrada e sada so iguais, somente a segunda foi calculada.
2
10
de cada n e o caminho mnimo mdio entre todos os pares de ns da rede (exceto das auto-conexes). As medidas foram calculadas com base em dois conjuntos de textos diferentes. O primeiro deles composto por 10 textos do gnero informativo, os quais foram produzidos por estudantes do curso de Letras. O segundo, com 10 redaes produzidas por vestibulandos da Fuvest. Os 20 textos foram avaliados por outros 6 alunos do curso de Letras, que atriburam notas de 0 a 10 para cada um deles. Os textos do primeiro conjunto obtiveram notas acima da mdia e foram classicados como bons, enquanto que os do segundo conjunto obtiveram as piores notas, sendo julgados como ruins. Aps, foram comparadas as notas atribudas pelos humanos com as medidas extradas da rede. Essa comparao revelou fenmenos bastante interessantes: quando considerados os textos dos dois conjuntos, a qualidade tende a diminuir na mesma proporo em que aumentam os graus de sada dos vrtices. Entretanto, observa-se que, ao considerar apenas os textos bons, a qualidade praticamente independe dos graus de sada. Por outro lado, considerar somente os textos ruins, nota-se uma melhora da qualidade na medida em que aumentavam os graus de sada. Percebeu-se ainda, que a mdia dos graus de sada dos textos bons foi menor do que a encontrada nos textos ruins. Alm do mais, os textos ruins apresentaram um maior nmero de arestas, sendo que, dentro dessa classe, aqueles que obtiveram melhores notas tm um grau de sada maior. Em relao ao coeciente de aglomerao, observou-se que a qualidade dos textos diminui medida que o coeciente reduz. Por m, quando compara as notas com as medidas baseadas no caminho mnimo, concluiu-se que a qualidade prejudicada quando o caminho mnimo mdio maior. Os autores acreditam que isso possa estar relacionado ao fato de que escritores inexperientes tm maior diculdade em estabelecer conexes entre conceitos mais distantes no texto. Um experimento adicional foi realizado em (Antiqueira et al., 2005a), com o propsito de vericar o comportamento da rede em relao ao tempo, ou seja, o crescimento dinmico da rede. A dinmica de crescimento foi calculada com base no nmero de componentes conexos na rede em um dado instante de tempo em que uma nova associao de palavras era encontrada no texto. Inicialmente, em um instante t0 , a rede era composta por N componentes, representados pelas N diferentes palavras do texto. No instante de tempo subseqente, t1 , quando uma associao era encontrada entre duas palavras subjacentes w1 e w2 , havia N 1 componentes, isto , o componente formado por w1 e w2 e os N 2 componentes que restaram sem qualquer ligao entre eles. Esse procedimento foi repetido para cada nova associao de palavra encontrada at obter um nico componente representando o texto todo. Ao 11
projetar o nmero de componentes da rede versus o tempo, durante a insero de uma nova associao, observou-se que os textos de boa qualidade representavam uma reta, enquanto que o desvio aumentava na medida em que a qualidade deteriorava. O desvio foi calculado com base na Equao 5: desvio = |f (M ) g (M )|/N A m=1
A
(5)
onde f (M ) uma funo que determina o nmero de componentes para as M associaes de palavras, g (M ) uma funo que determina a variao linear dos componentes para as M associaes, N o nmero de palavras diferentes no texto e A o total de associaes encontradas. O experimento revelou que a variao do nmero de componentes da rede tambm pode ser usada para distingir textos de boa e m qualidade. Em resumo, os resultados obtidos em todos os experimentos mostraram que os parmetros das redes complexas apresentam forte correlao com a qualidade dos textos e, portanto, so potencialmente teis para a anlise de textos.
3.2 Avaliao de Sumrios

Com base na modelagem proposta em (Antiqueira et al., 2005a,b), Pardo et al. (2006a,b) propem um modelo para a avaliao de sumrios produzidos automaticamente baseado em cinco diferentes representaes de redes complexas. Em todas elas, os textos foram previamente processados em duas etapas: (i) eliminao de stopwords e (ii) lematizao de palavras. A primeira representao semelhante proposta por Antiqueira et al. (2005b), em que cada vrtice corresponde a uma palavra e as arestas direcionadas estabelecem as associaes entre elas. Cada associao determinada por uma simples relao de adjacncia, ou seja, para cada par de palavras adjacentes no sumrio, h uma aresta na rede apontando da primeira para a segunda palavra. As arestas contm pesos que representam o nmero de vezes que as palavras adjacentes correspondentes so encontradas no sumrio. Essa representao denominada Markov-1, pois representa o modelo de Markov de um estado, no qual cada palavra est relacionada apenas a palavra imediata anterior no texto. Esse modelo especica como a determinao de um estado depende da observao de estados anteriores. Nesse caso, cada estado representado por uma palavra no sumrio. As quatro representaes restantes, denominadas Markov-2, Markov-3, Markov-4 e Markov-5, so simplesmente variaes da Markov-1. Elas diferem apenas no nmero de palavras anteriores que se relacionam com cada palavra do sumrio. Por exemplo, em Markov-2, para 12
Markov-1 Markov-2 Markov-3 Markov-4 Markov-5
Sumrios Manuais 0.03045 0.03045 0.03174 0.03350 0.03537
GEI 0.03538 0.03538 0.03657 0.03807 0.03977
GistSumm 0.03673 0.03673 0.03833 0.04046 0.04262
SuPor 0.04373 0.04374 0.04489 0.04643 0.04808
Tabela 1: Resultados do experimento 1: Desvio de crescimento dinmico das redes. uma seqncia de palavras w1 , w2 , w3 no sumrio, h uma aresta de w1 para w3 e outra de w2 para w3 , indicando que w3 est relacionada com as duas palavras anteriores. As mesmas medidas utilizadas por Antiqueira et al. (2005b) foram calculadas a partir das redes: a) mdias dos graus de sada, b) coeciente de aglomerao e c) dinmica de crescimento linear (ou desvio). Essas medidas foram obtidas para dois conjuntos de sumrios diferentes, produzidos a partir de um conjunto de 100 textos jornalsticos3 : (i) conjunto de sumrios manuais escritos por um prossional humano e (ii) conjunto de sumrios automticos gerados por trs sumarizadores do portugus, denominados GistSumm (Pardo et al., 2003), SuPor (Mdolo, 2003) e GEI (Pardo and Rino, 2004). De acordo com Pardo et al. (2006b,a), os sumrios manuais so reconhecidamente melhores que os sumrios automticos. Entre os automticos, aqueles produzidos pelo sistema GEI foram considerados melhores que os produzidos pelos sistemas GistSumm e SuPor, pois foram construdos com base em sumrios manuais. Comparando os dois ltimos sistemas, em um experimento anterior realizado com o mesmo conjunto de textos, o SuPor apresentou desempenho melhor do que o GistSumm. A m de vericar se as medidas extradas das redes apresentavam alguma correlao com esse ranking de sumrios, foram realizados dois experimentos. No primeiro, cada sumrio foi representado com os cinco tipos de redes e, para cada uma delas, calcularam o desvio de crescimento dinmico, medida em que uma nova associao de palavras era includa na rede. No segundo experimento foram utilizadas somente as redes baseadas nos modelos de Markov-1 e Markov-2 e calculadas as medidas de grau de sada e coeciente de aglomerao. Na Tabela 1 so apresentados os resultados obtidos com os sumrios manuais e com cada sistema, para o primeiro experimento. Por meio da Tabela 1, observa-se que os sumrios manuais obtiveram os menores desvios em todos os tipos de redes. Vale lembrar que, segundo Antiqueira et al. (2005b), o desvio diminui na medida em que aumenta a qualidade
Esses textos compem o Corpus TeMrio disponvel http://www.linguateca.pt/Repositorio/TeMario (ltimo acesso em 21/06/06).
3
em:
13
Sumrios Manuais GEI GistSumm SuPor
Markov-1 Grau de Sada Coef. Aglom. 1.23065 0.00267 1.28568 0.00395 1.27730 0.00447 1.35283 0.00522
Markov-2 Grau de Sada Coef. Aglom. 2.44927 0.44933 2.56037 0.44594 2.54034 0.44846 2.69500 0.44299
Tabela 2: Resultados do experimento 2: coeciente de aglomerao.
Grau de sada dos vrtices e
dos textos, sendo que o crescimento dinmico dos melhores textos uma reta. Em relao aos trs sistemas, os menores desvios foram obtidos pelo GEI. Esses resultados so correlatos hiptese dos autores de que os sumrios manuais so melhores que os automticos e que, entre esses, os do GEI so os melhores. Por outro lado, o SuPor teve um desempenho pior do que o GistSumm, ao contrrio do que se esperava. Os autores especulam que isso possa ser conseqncia de uma inuncia positiva da rede no modo como o GistSumm constri os sumrios. O primeiro experimento tambm mostrou que no h diferena entre os resultados obtidos pelas redes Markov-1 e Markov-2, enquanto que, para as outras representaes, o desvio aumenta consistentemente, embora a tendncia se mantenha. Por essa razo, somente as duas primeiras representaes foram consideradas no segundo experimento. Os resultados obtidos so mostrados na Tabela 2 a partir da qual observou-se que, novamente, os sumrios manuais so melhores do que os sumrios automticos, uma vez que obtiveram os menores graus de sada e coecientes de aglomerao. Nota-se, tambm, que o coeciente de aglomerao das redes de Markov-2 praticamente no variou com os diferentes conjuntos de sumrios. Pardo et al. (2006b) concluem que as medidas extradas das redes complexas apresentam correlao com a qualidade de textos sugerida em (Antiqueira et al., 2005b) e, portanto, podem ser usadas na avaliao da qualidade de sumrios.
3.3 Deteo de Comunidades

O processo de Minerao de Dados comumente utilizado para descobrir conhecimento sobre determinado domnio de aplicao. Para isso, podem ser utilizadas diversas tecnologias como as ferramentas de aprendizado de mquina (AM), uma sub-rea da Inteligncia Articial (IA), cujo o objetivo a construo de sistemas capazes de adquirir conhecimento til de maneira automtica ou semi-automtica (Monard and Baranauskas, 2003). O aprendizado de mquina pode ser dividido em supervisionado, no-supervisionado e semi-supervisionado. Essa classicao depende da disponibilidade e caractersticas dos dados utilizados na execuo dos algoritmos de AM. 14
O clustering uma das tcnicas freqentemente utilizadas para anlise e explorao de dados no-supervisionados. Essa tcnica tem sido aplicada no contexto de redes complexas, em diferentes temas, tais como anlise do comportamento social, anlise da estrutura fsica da Internet, de pginas Web, problemas de epidemiologia e outros relacionados bioinformtica. Dentro da nomenclatura utilizada pelos pesquisadores de redes complexas, o clustering usualmente denominado deteco de comunidades. importante observar que o clustering em AM no exatamente o mesmo que deteco de comunidades aplicada sobre redes complexas e, portanto, no devem ser confundidos apesar de apresentarem diversas caracterstias em comum. A semelhana entre essas duas tcnicas possibilita que algoritmos implementados para uma possa ser facilmente adaptado para outra e vice-versa. Por exemplo, um conjunto de dados em alta dimenso pode ser representado por meio de uma rede complexa, adicionando arestas entre os vrtices similares, para aplicao de um algoritmo de deteco de comunidade. Entretando, essa adaptao, em geral, apresenta resultados piores que os algoritmos j existentes para a resoluo de problemas especcos. O estudo de deteco de comunidades est altamente correlacionado com os conceitos da teoria dos grafos e com a abordagem de clustering hierrquico. Essa correlao vem da utilizao de mtodos de particionamento da rede em sub-grafos que representam individualmente cada comunidade presente na rede. O particionamento em si no suciente para anlise e entendimento da estrutura de dados mapeados na rede, pois no se conhece a priori se e como a rede separa os vrtices em comunidades, nem tampouco o nmero e o tamanho das possveis comunidades. Por outro lado, o clustering hierrquico utilizado para de descobrir divises naturais na rede. Essa tcnica normalmente baseada em mtricas de similaridade ou fora das conexes entre vrtices. Os aloritmos de clustering hierrquico so classicados em duas abordagens (Jain and Dubes, 1988): aglomerativa e divisiva. Na primeira, cada exemplo (vrtice da rede) considerado um cluster unitrio. Em seguida, arestas so iterativamente adicionadas ao grafo, para a unio dos sub-grafos at que todos os vrtices pertenam a apenas um grafo (cluster). A abordagem divisiva faz o oposto, ela inicia com apenas um grafo contendo todos os vrtices e procede dividindo esse grafo em sub-grafos cada vez menores, at que cada vrtice seja um grafo isolado ou at que se alcance algum critrio de parada, freqentemente o nmero de sub-grafos desejados (Murtagh, 1983). Em alguns casos, os algoritmos de clustering so capazases de encontrar as divises naturais da rede, pois a mtrica utilizada pelo algoritmo corresponde mtrica interna da rede. Em outros casos, o algoritmo pode no ser capaz de identicar essa estrutura, pois a rede no tem uma descrio mtrica 15
natural. Nesses casos, outras medidas podem ser utilizadas na identicao dos clusters, tais como coecientes de correlao, comprimento de caminhos entre vrtices, uxo maximo (Ahuja et al., 1993) e operaes sobre matrizes (Newman and Girvan, 2004). Freqentemente so desenvolvidos estudos para avaliao de interaes sociais entre indivduos pela comunidade cientca (Zachary, 1997). Essas interaes so representadas por meio de redes complexas para a deteco de comunidades que auxiliem os pesquisadores na interpretao do comportamento dos indivduos. Essas comunidades so obtidas com o agrupamento de vrtices que contm alta densidade de arestas entre eles e baixa densidade de arestas que interligam grupos distintos. Esse comportamento pode ser vericado quando ocorre a diviso de pessoas em grupos de interesse, ocupao ou faixa etria, por exemplo (Newman, 2003; Hopcroft et al., 2003). A sub-diviso das reas de conhecimento e suas sub-reas outro exemplo claro de existncia de comunidades. Nesse caso, pode-se analisar aspectos como a cooperao entre pesquisados de uma determinada rea na elaborao de trabalhos, a inter-disciplinaridade das linhas de pesquisa e tambm as citaes entre tabalhos de diferentes autores. Outras aplicaes da deteco de comunidades em redes complexas podem ser citadas. Por exemplo, o estudo da estrutura de redes Webs desenvolvido por Virtanen (2003). Nesse trabalho, o autores realizam o clustering sobre um grafo que representa um sub-conjunto da Web, restrito s pginas chilenas. A identicao de clusters nesse sub-conjunto pode auxiliar nas estratgias de indexao das pginas e, tambm, na extrao de conhecimentos semnticos a respeito da estrutura da rede. Em (Newman and Girvan, 2004), foi proposto um algoritmo para identicao e avaliao de comunidades em redes complexas. As melhorias propostas pelo autor para esse algoritmo foram posteriormente implementadas em (Newman, 2004). Outros trabalhos foram desenvolvidos utilizando as idias apresentadas nesse algoritmo e aplicando o conceito de betweenness para o clculo do caminho mnimo entre vrtices do grafo (Girvan and Newman, 2001; Holme et al., 2003). O betweenness uma medida utilizada para identicar arestas que conectam comunidades, apresentando valores altos para essas arestas e penalizando as arestas que conectam vrtices de um mesmo sub-grafo. Para entender a idia dessa medida, considere duas comunidades que so ligadas por um conjunto pequeno de arestas. Neste caso, todos os caminhos da rede com origem em um vrtice de uma comunidade e destino em um vrtice da outra comunidade devem passar por alguma dessas arestas que conectam as duas comunidades. Com isso, pode-se mensurar a importncia de cada aresta par a juno dessas comunidades com base no nmero de caminhos 16
que utilizam cada uma das arestas. A medida de betweenness , portanto, baseada no caminho mnimo. O algoritmo de detco de comunidades proposto por Newman and Girvan (2004) segue a abordagem de clustering divisiva. Entretanto, ele utiliza uma estratgia diferente das adotadas por algoritmos propostos anteriormente, pois ao invz de procurar por pares de vrtices com menor similaridade e remover a aresta que os une, esse algoritmo remove as arestas responsveis pela conexo entre sub-grafos. Essas arestas no so necessariamente fracas no contexto de similaridade entre vrtices, mas so arestas que determinam o aparecimento das comunidades quando removidas da rede, pois contm o maior valor de betweenness. Alm disso, a cada remoo de uma aresta, o algoritmo atualiza o betweenness das arestas que permanecem no grafo. No caso dos outros algoritmos, o valor de betweenness calculado apenas uma vez e, a partir desses valores, as arestas so removidas da rede em ordem decrescente de betweenness para a construo do dendograma. Porm, uma vez que uma aresta removida da rede, eses valores no reetem mais o seu estado atual, o que pode apresentar resultados indesejados, resultando em uma estrutura que no pertence rede. Devido a esse fato, o betweenness reclaculado a cada iterao do algoritmo. Os passos realizados por esse algoritmo so: 1. Clculo do betweenness para todas as arestas da rede; 2. Busca e remoo da aresta que maximiza o betweenness; 3. Reclculo do betweenness para as arestas restantes; 4. Retorno ao passo 2. A complexidade do clculo do betweenness depende da quantidade de arestas e vrtices da rede. Em um grafo com M arestas e N vrtices, o clculo do caminho mnimo entre um par especco de vrtices pode ser feito utilizando o procedimento de busca em largura com tempo de execuo na ordem O(M ). Assim, como existem O(N 2 ) pares de vrtices, a complexidade total para o clculo do betweenness est na ordem de O(M N 2 ). Entretanto, Newman (2001) props um algoritmo que executa esse clculo de maneira mais eciente e consome tempo em ordem linear (O(M N )). O algoritmo proposto por Newman and Girvan (2004) apresentou bons resultados quando aplicado sobre redes aleatrias e reais com estruturas conhecidas. No entanto, em situaes reais, dicilmente a estrutura da rede conhecida a priori, o que acarreta a necessidade de algum mtodo para validar a estrutura recuperada pelo algoritmo. Isto ocorre porque todo algoritmo aglomerativo ou divisivo sempre produz uma diviso da rede em sub-grafos 17
(comunidades), mesmo em redes completamente aleatrias que no possuam comunidades signicativas. Devido a isso, os autores do algoritmo criaram uma medida capaz de mensurar a qualidade da diviso feita na rede. Essa medida foi denominada modularidade (Newman, 2006). Como ilustrao do funcionamento dessa medida, considere a diviso de uma rede em k parties. Considere tambm, uma matriz simtria E de ordem k , cujos elementos eij so a frao de arestas na rede que conectam vrtices presentes na comunidade i aos vrtices presentes na comunidade j . O trao dessa matriz T r E = i eii representa a frao de arestas que conectam vrtices dentro da mesma comunidade. Claramente, uma boa diviso entre comunidades deve apresentar valores altos para o trao da matriz. Porm, somente esse valor no um bom indicador de qualidade da diviso da rede, pois se todos os vrtices estiverem presentes em uma nica comunidade o valor do trao ser mximo, i.e., T r E = 1. Para resolver essa limitao, utilizado o somatrio dos elementos das linhas (ou colunas) da matriz, o qual representa a frao de arestas que conectam dois vrtices presentes em uma comunidade. Assim, ai = j eij indica a frao para a comunidade i. Com isso, a modularidade pode ser denida por meio da Equao 6:
Q=
i
2 (eij a2 i) = Tr E E
(6)
onde, E a soma dos elementos da matriz E . Valores prximos a 1 para Q indicam a forte presena de estrutura na rede. Na prtica, os valores para a modularidade variam entre 0.3 e .7. Em alguns casos podem chegar mais prximo de 1, mas so raros os casos em que isso acontece. Para identicar a melhor diviso da rede, Q usualmente calculado para cada conjunto de sub-grafos. A partir do dendograma do algoritmo hierrquico divisivo, calcula-se o valor de Q para cada nvel de agrupamento, seguindo a abordagem top-down. O mximo valor alcanado indica a melhor diviso encontrada pelo algoritmo para a rede analisada. Esse algoritmo foi utilizado para avaliar a estrutura de diversas redes, entre elas uma rede articial, criada especicamente para a avaliao do algoritmo de deteco de comunidades, em um experimento controlado, e outras redes amplamente estudas pela comunidade cientca. Das aplicaes apresentada no artigo original de Newman and Girvan (2004), duas so descritas brevemente neste trabalho: rede articial e anlise de uma rede social. 18
3.3.1 Rede articial Para executar um experimento controlado, foi criada uma rede articial com estrutura de comunidade conhecida. O objetivo do experimento foi avaliar se o algoritmo proposto capaz de identicar essa estrutura. Essa rede composta por 128 vrtices divididos em 4 comunidades de tamanho uniforme, 32 vrtices em cada comunidade. Foram considerados valores de probabilidades para a coneo entre vrtices: pin para arestas que conectam vrtices de uma mesma comunidade e pout para arestas que conectam vrtices de diferentes comunidades. Cada vrtice da rede possui grau igual a 16. O dendograma4 obtido para essa rede apresentado na Figura 7 na qual apresentado, tambm, o grco do valor de modularidade construido em funo do corte no dendograma. Como pode ser observado no grco, h um pico bem denido, que indica a diviso do dendograma nas 4 comunidades conhecidas. O valor da modularidade obtido para essa diviso do dendograma est dentro da faixa de valores tpicos qye variam entre 0.3 e 0.7.
Para melhor visualizao, apresentado o dendograma de apenas 64 vrtices da rede
19
Figura 7: Dendograma e modularidade da rede articial (Newman and Girvan, 2004).
20
3.3.2 Rede social sobre dados reais Esse experimento foi realizado sobre uma rede amplamente estudada pela comunidade, cujo objetivo a anlise de interaes sociais. Durante dois anos na dcada de 1970, Wayne Zachary observou interaes entre membros de uma academia de karat de uma universidade Norte Americana (Zachary, 1997). A partir dessa observao, ele construiu uma rede que representa as interaes sociais entre membros dessa academia, dentro e fora dela. Zachary observou que existiam dois grupos distintos de pessoas, um que seguia o professor principal da academia e outro que seguia o administrador.
Figura 8: Rede de interao social dos membros da academia de karat (Newman and Girvan, 2004). Na Figura 8 apresentada a estrutura da rede identicada por Zachary. Utilizando essa rede como entrada do algoritmo para deteco de comunidades, foi construdo o dendograma apresentado na Figura 9. A partir desse dendograma, observa-se que o valor de modularidade obtido a partir da diviso da rede em dois sub-grafos relativamente alto, indicando a existncia de uma diviso natural desses vrtices na rede. Alm disso, a diviso nesse ponto quase perfeita em relao a diviso verdadeira, pois apenas um vrtice est presente no sub-grafo, o qual no pertence na diviso feita por Zachary. Na Figura 10 apresentado o resultado obtido sobre essa mesma rede, sem considerar a atualizao do valor de betweenness das arestas restantes a cada iterao do algoritmo.
3.4 Congestionamento em redes

Em trabalho recente, Liang et al. (2005) abordaram o congestionamento em redes de comunicao atravs de uma modelagem matemtica baseada na teoria de Redes Complexas. O principal objetivo do estudo foi analisar como 21
Figura 9: Dendograma e modularidade da rede social (Newman and Girvan, 2004).
22
Figura 10: Dendograma e modularidade da rede social sem atualizao de betweenness (Newman and Girvan, 2004).
23
a topologia de rede inuencia no trfego de pacotese, a partir dessa anlise, explorar maneiras de minimizar seus efeitos. Nas redes de trfego de pacotes, h dois elementos computacionais: os hosts e os rotadores. Os primeiros criam pacotes com endereo de destinatrio e recebem pacotes vindos de outros hosts. Os segundos so responsveis por encontrar o melhor caminho entre os hosts remetente e destinatrio e encaminhar os pacotes por este caminho ao longo do tempo. O melhor caminho denido pelo menor nmero de hosts visitados para um pacote sair de sua origem e atingir seu destino. Dois modelos foram criados para estudar o fenmeno e se baseiam na forma como os dados so transmitidos na Internet. Alguns estudos sugerem que a rede Internet possui caractersticas de redes Livres de Escala e Pequeno-Mundo (Barabasi and Albert, 1999b), (Albert and Barabsi, 2002). Os modelos desenvolvidos trabalho, utilizam dois parmetros: uma taxa de criao de pacotes e um parmetro , que controla a cpacidade de processamento de pacotes de cada vrtice. No primeiro modelo, a capacidade de entrega de pacotes de um vrtice proporcional ao seu grau. No segundo modelo, proporcional quantidade de caminhos mnimos que passam pelo vrtice (betweenness). A quantidade de de pacotes congestionados na rede, c , medida pelo nmero de pacotes criados na rede em um dado instante de tempo em que ocorre uma transio de estado do uxo de trfego livre para congestionado. Se < c , ento a razo de pacotes criados e entregues equilibrada e a rede est em estado de uxo livre. Se > c , ento h um desequilbrio entre pacotes criados e entregues, resultando em congestionamento. Como o c depende da topologia da rede, os autores estudaram sua relao com redes complexas do tipo rvores de Cayley e algumas redes, tais como as Regulares, Livres de Escala e Aleatrias. Os modelos de trfego de pacotes so descritos pelos passos a seguir: 1. a cada iterao, o host i gera um pacote com probabilidade e entrega Ci pacotes na direo do caminho timo denido pelo roteador. Para o modelo 1, C I = (1 + int[ki ]), onde 0 < < 1 um parmetro de controle e ki o grau do vrtice i. Para o modelo 2, Ci = 1 + int[Bi /N ], onde Bi o beteweenness. Uma vez que o pacote alcana seu destino, ele retirado do trfego. 2. Depois de ser criado, o pacote posto no nal la do host que o criou ou entregue se a la de pacotes estiver vazia. Cada uma das aes de criao e entrega de um pacote ocorre em uma iterao. Portanto, um pacote no pode ser criado e entregue na mesma iterao. A entrega de um pacote ocorre no mnimo uma iterao aps a sua criao. Uma vez criado o pacote, escolhe-se aleatoriamente um vrtice destino para ser 24
enregue. O roteador encontra o menor caminho entre o host gerador e o vrtice destino. Assim, o pacote gerado transmitido para a rede ao longo do seu caminho durante os passos seguintes. Se existir mais de um caminho mnimo entre o host gerador e o vrtice destino, escolhe-se o caminho cujo o prximo vrtice, a partir do host gerador, possui o menor tamanho para a la de pacotes. 3. A cada iterao, os Ci primeiros pacotes da la de pacotes do vrtice i so transmitidos para a rede em direo ao destino de cada um dos pacotes e, ento, so postos no nal da la de pacotes do vrtice escolhido (vizinho do vrtice i). Caso o vrtice i possua mais de Ci pacotes na la, ento os pacotes que permanecem na la so reposicionados Ci posies. Dessa maneira, o tempo de entrega de um pacote no contabilizado somente pela distncia (nmero de iteraes) entre o host gerador e o vrtice destino, mas tambm pelo nmero de pacotes existentes ao longo de seu caminho, ou mais especicamente, pelo tamanho da la de pacotes dos vrtices intermedirios que o pacote do vrtice i visitou. Sendo que N seja o nmero de vrtices da rede, o nmero total de pacotes criados em uma iterao N e o nmero total de pacotes entregues a cada N iterao aproximadamente i=1 Ci , se todo vrtice tem uma quantidade suciente de pacotes, que maior que o nmero total de pacotes criados na rede, portanto < 1. Em se tratando de redes complexas, torna-se provvel que os pacotes, antes de chegarem em seus destinos, sejam transmitidos para os vrtices com altos valores de betweenness, pois apresentam os caminhos mnimos entre qualquer par de vrtices. Este fato resulta em um possvel congestionamento de pacotes.
3.5 Controle do Congestionamento de Pacotes

Considerando o problema de congestionamento de pacotes citado na seo anterior, proposta uma abordagem para evitar o congestionamento. Para modelar uma rede de computadores utilizada a represntao de uma rede complexa, em que os vrtices representam os computadores (hosts e roteadores) e as arestas representam os links entre os computadores. A modelagem com rede complexa foi adotada por suportar grande quantidade de vrtices como o caso desse problema. A rede complexa do tipo aleatria com grau mdio 4. Por ser aleatria, os vrtices da rede podem ser conectados com quaisquer outros com probablidade . No entanto, algumas restries foram impostas. A primeira restrio a de que o grau mdio da rede deve ser 4, ou seja, o nmero mdio de conexes de cada vrtices deve ser 4. A segunda refere-se ao fato de impedir a criao 25
de componentes isolados. Aps a criao da rede, todos os vrtices devem ser alcanados partindo de qualquer outro vrtice da rede. Assim, possvel que um pacote gerado em qualquer vrtice possa ser entregue ao seu destino. Cada n, representando um computador da rede, responsvel pela criao dos pacotes e pela hospedagem dos mesmos quando so provenientes de outros vrtices. Para isso, todo vrtice da rede rede possui uma la de pacotes a ser entregues a seus destinos. medida em que os pacotes chegam em um vrtice, eles so armazenados nessa la. A quantidade de pacotes entregues por um vrtice em uma iterao denida pelo valor de sua capaciade de entrega (ou processamento) de pacotes. A cada iterao, os vrtices so capazes de gerarem um pacote com probabilidade . No instante da criao de um pacote atrbudo a ele um vrtice destino aleatoriamente e, ento, o pacote colocado no nal da la do vrtice gerador para que, na prxima iterao, seja entregue ou deslocado na la de pacotes. Ao chegar ao seu destino, o pacote removido da rede. Alm da la de pacotes, cada vrtice possui uma tabela de roteameto (criada atravs do algoritmo de Dijkstra) que contm o prximo vrtice do caminho mnimo entre aquele vrtice e o destino, para o qual o pacote ser enviado. Em casos em que h mais de um caminho entre dois vrtices, a tabela de roteamento capaz de armazenar os prximos vrtices de caminhos mnimos encontrados. Nesse caso, a escolha do vrtice depender do tamanho da la de pacotes. O vrtice que apresentar o menor tamanho para a la de pacotes escolhido para receber o pacote. Inicialmente, o algoritmo de Dijkstra aplicado para determinar o caminho mnimo entre todos os pares de vrtices da rede. Para isso, foram denidos custos unitrios para todas as arestas da rede. Ao longo das iteraes, pacotes so gerados e passam a circular na rede, sendo removidos quando chegam ao destino. Dessa maneira, possvel que os pacotes congestionem o trfego na rede, sobrecarregando, principalmente, os vrtices com maior valor para o betweenness, pois esses apresentam os menores caminhos, e portanto, so mais solicitados para intermediar a entrega de um pacote ao seu destino. Com o objetivo de amenizar o congestionamento na rede, foi denido um intervalo de iteraes para que o algoritmo de Dijkstra fosse aplicado a todos os vrtices da rede novamente. Exceto na primeira aplicao do algoritmos, antes mesmo da criao dos pacotes e o envio dos mesmos, o algoritmo para encontrar o caminho mnimo entre dois vrtices considera o tamanho da la e a capacidade de entrega de pacotes dos vrtices da rede. Quanto maior o tamanho da la de pacotes, maior o custo para que um pacote chegue ao seu destino. Por outro lado, quanto menor a capacidade de entrega de pacotes de um vrtice, menor o custo para que um pacote chegue ao destino. A alta capacidade de entrega de um vrtice induz a um tamanho reduzido da la 26
(a)
(b)
Figura 11: Grco do congestionamento de pacotes com variao de para o modelo 1.
de pacotes evitando que um pacote que armazenado por muitas iteraes. Dessa forma, as rotas entre dois vrtices da rede podem ser alteradas devido aos fatores que inuenciam no custo das arestas da rede. Dessa maneira, o tempo de entrega de um n inuenciado no somente pela quantidade de vrtices presentes no caminho at alcanar seu destino,mas tambm pelo tamanho da la de pacotes e da capacidade de entrega dos vrtices da rede. Um experimento foi realizado usando uma rede composta por 300 vrtices com grau mdio 4. O algoritmo de Dijkstra foi aplicado a cada 20 iteraes para amenizar um possvel congestionamento, e assim, criar rotas alternativas para a entrega de pacotes. Durante o experimento, cinco simulaes foram realizadas, analisando-se a quantidade mdia de pacotes que circulavam na rede, denotada por . Alm disso, foi feita uma anlise comparativa do trfego de pacotes sem controle de congestionamento e com a aplicao do controle de congestionamento. Os resultados obtidos so sintetizados nas Figuras 11, 12, 13 e 14. Tais guras mostram a relao entre a probabilidade de gerao de pacotes () e a quantidade de vrtices existentes na rede ( ). As Figuras 11(a) e 11(b) apresentam os resultados da simulao variando-se os valores de = {0.1, 0.2, 0.3, 0.4, 0.5} para o modelo 1. Nota-se nas guras que, praticamente, no houve controle de congestionamento. Na Figura 11(a), o controle realizado pela aplicao espordica do algoritmo de Dijkstra considerando o tamanho das las de pacotes e de cada vrtice da rede, conforme explicado anteriormente. Percebe-se que, em geral, o controle de congestionamento foi bem sucedido. As curvas dos variando-se os valores de sofreram um pequeno deslocamento para a direita, indicando que o congestionamento ocorreu de forma tardia. Isso quer dizer que o nmero de pacotes aumentou. Estas consideraes tambm podem ser aplicadas s Figuras 12(a) e 12(b), que ilustram os resultados dos experimentos baseados no modelo2. 27
(a)
(b)
Figura 12: Grco do congestionamento de pacotes com variao de para o modelo 2.
(a)
(b)
Figura 13: Grco do congestionamento de pacotes com variao do grau para o modelo 1.
(a)
(b)
Figura 14: Grco do congestionamento de pacotes com variao do grau para o modelo 2.
28
As Figuras 13 e 14 mostram os resultados variando-se o grau mdio de cada n da rede. No caso do modelo 1 (Figuras 13(a) e 13(b)), o controle de congestionamento retardou o crescimento de . Alm disso, as curvas de crescimento caram mais suaves. As Figuras 14(a) e 14(b) mostram que o controle de congestionamento apresentou desempenho inconclusivo no modelo 2. Embora o congestionamento tenha ocorrido precocemente, as curvas curvas de crescimento de foram suavizadas, sinalizado um aumento de congestionamento tardio.
29
Consideraes Finais
Este relatrio apresentou conceitos fundamentais sobre as redes complexas, assim como algumas de suas princioais propriedades e alguns dos modelos mais comumente utilizados. Aplicaes reais envolvendo esses conceitos tambm foram descritas, como anlise da qualidade de textos e sumrios automticos, deteco de comunidades em redes sociais e controle de trfego de pacotes em redes de comunicao.
30
Referncias Bibliogrcas
Ahuja, R. K., Magnanti, T. L., and Orlin, J. B. (1993). Network Flows: Theory, algorithms and Applications. Prentice Hall. 16 Albert, R. and Barabsi, A.-L. (2002). Statistical mechanics of complex networks. Rev. Mod. Phys., 74(1):4797. 24 Antiqueira, L. (2006). Desenvolvimento de tcnicas baseadas em redes complexas para sumarizao extrativa de textos (monograa de qualicao). Masters thesis, USP, ICMC. 9 Antiqueira, L., Nunes, M. G. V., Jr., O. N. O., and Costa, L. F. (2005a). Complex networks in the assessment of quality text. In Physics, 0504033. Physics. 9, 11, 12 Antiqueira, L., Nunes, M. G. V., Jr., O. N. O., and Costa, L. F. (2005b). Modelando textos como redes complexas. In XXV Congresso da Sociedade Brasileira de Computao (III Workshop em Tecnologia da Informao e da Linguagem Humana - TIL 2005), So Leopoldo - RS, Brasil. In Anais do III Workshop em Tecnologia da Informao e da Linguagem Humana - TIL. 9, 10, 12, 13, 14 Barabasi, A. L. and Albert, R. (1999a). Emergence of scaling in random networks. Science, pages 286509. 6, 8 Barabasi, A.-L. and Albert, R. (1999b). networks. Science, 286:509. 24 Emergence of scaling in random
Barabsi, A. L. (2003). Linked: How everything is connected to everything else and what it means for business, science and everyday life. Plume. 1, 3 Buchanan, M. (2002). Nexus - small world and the groundbreaking science of network. W. W. Norton Company. 7 da F. Costa, L., Rodrigues, F. A., Travieso, G., and Boas, P. R. V. (2005). Characterization of complex networks: A survey of measurements. 3 Girvan, M. and Newman, M. E. J. (2001). Community structure in social and biological networks. In Proceedings of National Academy of Sciences, number 99, pages 82718276, USA. 16 Holme, P., Huss, M., and Jeong, H. (2003). Subnetwork hierarchies of biochemical pathways. Bioinformatics, 19:532. 16 31
Hopcroft, J., Khan, O., Kulis, B., and Selman, B. (2003). Natural communities in large linked networks. In KDD 03: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 541546, New York, NY, USA. ACM Press. 16 Jain, A. K. and Dubes, R. C. (1988). Algorithms for Clustering Data. 15 Liang, Z., Lai, Y.-C., Park, K., and Ye, N. (2005). Onset of trafc congestion in complex networks. Physical Review E (Statistical, Nonlinear, and Soft Matter Physics), 71(2):026125. 21 Monard, M. C. and Baranauskas, J. A. (2003). Conceitos sobre aprendizado de mquina, volume 1 of 1, chapter 4, pages 89114. Barueri, SP, Brasil, 1 edition. 14 Murtagh, F. (1983). A survey of recent advances in hierarchical clustering algorithms. The Computer Journal, 26(40):354359. 15 Mdolo, M. (2003). Supor: Um ambiente para explorao de mtodos extrativos para a sumarizao automtica de textos em portugus. Masters thesis, UFSCAR, Departamento de Computao. 13 Newman, M. (2003). The structure and function of complex networks. volume 45, pages 167256. SIAM Review. 2, 3, 6, 8, 16 Newman, M. E. J. (2001). Scientic collaboration networks. ii. shortest paths, weighted networks, and centrality. Phys. Rev. E, 64(1):016132. 17 Newman, M. E. J. (2004). Fast algorithm for detecting community structure in networks. Physical Review E, 69:066133. 16 Newman, M. E. J. (2006). Modularity and community structure in networks. PROC.NATL.ACAD.SCI.USA, 103. 18 Newman, M. E. J. and Girvan, M. (2004). Finding and evaluating community structure in networks. Physical Review E (Statistical, Nonlinear, and Soft Matter Physics), 69(2):026113. iii, 16, 17, 18, 20, 21, 22, 23 Pardo, T. A. . S., Antiqueira, L., Nunes, M. G. V., Jr., O. N. O., and Costa, L. F. (2006a). Modeling and evaluation summaries using complex networks. In 7th Workshop on Computational Processing of Written and Spoken Portuguese - Propor, Itatiaia - RJ, Brasil. 9, 12, 13 Pardo, T. A. . S., Antiqueira, L., Nunes, M. G. V., Jr., O. N. O., and Costa, L. F. (2006b). Using complex networks for language processing: The case of summary evaluation. In 4th International Conference on Communications, Circuits and Systems ICCCAS, Guilin, China. 9, 12, 13, 14 32
Pardo, T. A. . S. and Rino, L. H. M. (2004). Descrio do gei - gerador de extratos ideais para o portugus do brasil. Technical Report NILC-TR-04-07, Srie de Relatrios do NILC. 13 Pardo, T. A. S., Rino, L. H. M., and Nunes, M. G. V. (2003). Gistsumm: A summarization tool based on a new extractive method. In 6th Workshop on Computational Processing of the Portuguese Language Written and Spoken Propor, pages 210218. In Proceedings of the 6th Workshop on Computational Processing of the Portuguese Language Written and Spoken - Propor. 13 Strogatz, S. H. (2001). Exploring complex networks. Nature, 410:268276. http://dx.doi.org/10.1038/35065725. 7, 9 Virtanen, S. E. (2003). Clustering the chilean web. In Proceedings of the First Latin American Web Congress, pages 229231. IEEE Computer Society. 16 Watts, D. J. and Strogatz, S. H. (1998). Colletive dynamics of small-world networks. Nature, (393):440442. 7 Zachary, W. W. (1997). An information ow model for conict and ssion in small groups. Anthropological Research, pages 452473. 16, 21
33

Redes Complexas Conceitos e Aplicações

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Redes Complexas Conceitos e Aplicações

Transféré par

Droits d'auteur :

Formats disponibles

Instituto de Cincias Matemticas e de Computao

Redes Complexas: conceitos e aplicaes

RELATRIOS TCNICOS DO ICMC

Figura 1: Representao da rede Web do Google.

Figura 2: Representao da estrutura da Internet (Newman, 2003).

2.1 Propriedades das Redes

2.2 Tipos de Redes

Figura 4: Rede complexa livre de escala (Strogatz, 2001).

Aplicaes de Redes Complexas

3.1 Avaliao da Qualidade de Textos

Figura 5: Poema No meio do caminho (Antiqueira et al., 2005b).

3.2 Avaliao de Sumrios

Markov-1 Markov-2 Markov-3 Markov-4 Markov-5

Sumrios Manuais 0.03045 0.03045 0.03174 0.03350 0.03537

GEI 0.03538 0.03538 0.03657 0.03807 0.03977

GistSumm 0.03673 0.03673 0.03833 0.04046 0.04262

SuPor 0.04373 0.04374 0.04489 0.04643 0.04808

Sumrios Manuais GEI GistSumm SuPor

Tabela 2: Resultados do experimento 2: coeciente de aglomerao.

Grau de sada dos vrtices e

3.3 Deteo de Comunidades

Para melhor visualizao, apresentado o dendograma de apenas 64 vrtices da rede

Figura 7: Dendograma e modularidade da rede articial (Newman and Girvan, 2004).

3.4 Congestionamento em redes

Figura 9: Dendograma e modularidade da rede social (Newman and Girvan, 2004).

3.5 Controle do Congestionamento de Pacotes

Figura 11: Grco do congestionamento de pacotes com variao de para o modelo 1.

Figura 12: Grco do congestionamento de pacotes com variao de para o modelo 2.

Vous aimerez peut-être aussi