Aprendizado Semissupervisionado Via Competição de Partículas em Redes Complexas: Modelagem, Análise e Aplicações

Aprendizado semissupervisionado via competio de partculas em redes complexas: modelagem, anlise e aplicaes
Thiago Christiano Silva
ii
iii
SERVIO DE PS-GRADUAO DO ICMC-USP Data de Depsito: 20 de setembro de 2011 Assinatura:
Aprendizado semissupervisionado via competio de partculas em redes complexas: modelagem, anlise e aplicaes
Thiago Christiano Silva
Orientador: Prof. Dr. Zhao Liang
Monograa apresentada ao Instituto de Cincias Matemticas e de Computao ICMC/USP, para o exame de Qualicao, como parte dos requisitos para obteno do ttulo de Doutor em Cincias de Computao e Matemtica Computacional.
USP - So Carlos Setembro de 2011
iv
Resumo
Aprendizado de mquina gura como uma rea de pesquisa que visa a desenvolver mtodos computacionais capazes de aprender com a experincia. As tcnicas tradicionais de aprendizado de mquina, na construo de classicadores, necessitam de uma grande quantidade de dados rotulados. Estes dados so geralmente difceis de serem obtidos, principalmente quando envolvem a rotulao manual por parte de um especialista. Recentemente, uma nova vertente da rea de aprendizado de mquina, intitulada aprendizado semissupervisionado, tem atrado a ateno de muitos pesquisadores. Esta forma de aprendizado objetiva a propagao de rtulos para todos os dados no rotulados, de tal forma a preservar a distribuio original. Alm disso, recentemente, um crescente interesse nas tcnicas que utilizam redes para representar os dados foi vericado. Este fato deve-se ao surgimento das redes complexas como um tpico unicador de sistemas complexos e como uma poderosa ferramenta de representao e abstrao de dados, sendo capazes de capturar suas relaes espaciais, topolgicas e funcionais. Nos ltimos anos, foram desenvolvidas tcnicas de aprendizado de mquina baseadas em competio partculas por meio de redes complexas, as quais dispem de alta preciso e baixa complexidade computacional. Todavia, apenas resultados empricos esto presentes na literatura, carecendo tal modelo de uma anlise matemtica rigorosa. Com o intuito de suprir esta lacuna, neste projeto sero desenvolvidas tcnicas de competio de partculas, no contexto de aprendizado semissupervisionado, baseadas em competio e cooperao de partculas em redes complexas, em conjunto com uma modelagem analtica do sistema competitivo. A hiptese assumida que tal modelo de competio exista e possa ser analiticamente avaliado. Alm disso, o assunto de conabilidade dos dados em aprendizado semissupervisionado ser analisado, o qual ainda congura-se como um ramo pouco estudado na literatura. Com o objetivo de validar as tcnicas desenvolvidas em problemas reais, estas sero aplicadas para anlise de dados em bases amplamente aceitas na comunidade. Os modelos matemticos propostos sero avaliados quanto a sua acurcia na previso dos processos descritos, por meio de mtodos estatsticos. Enm, acredita-se que este estudo possa gerar contribuies relevantes para a rea de aprendizado de mquina. Palavras-chave: aprendizado competitivo, caminhadas aleatrias, aprendizado semissupervisionado, classicao, redes complexas.
vi
Abstract
Machine Learning is evidenced as a research area whose main purpose is to develop computational methods that are capable of learning with their previously acquired experiences. The traditional machine learning techniques, in what concern about classiers, must be presented to a signicant amount of labeled data in order to produce relevant results. In a general manner, these data are cumbersome and expensive to gather, by virtue of requiring manual labeling of an expert. Recently, a new branch of this research area, denominated semi-supervised learning, has attracted attention of the researchers. This learning paradigm aims to propagate labels to all the unlabeled data, always preserving its initial distribution. Besides that, in the last years, an increasing interest in techniques based on graphs has been veried. This emergence is explained by the inherent advantages provided by the complex network representation, which is able to capture the spatial, topological and functional relations of the data. In the recent years, it has been proposed machine learning techniques based on particle competition by using complex networks, which harmonize high precision and low computational complexity. However, only empirical results have been presented, without any rigorous mathematical analysis. In light of this absence, in this work, we will develop techniques based on particle competition, in the context of semi-supervised learning, as well as a solid analytical model which describes the behavior of the proposed technique. The assumed hypothesis is that such competition model exists and is passible of being analytically evaluated. In addition to that, data reliability issues will be explored in the semi-supervised learning. Such matter is found to be of little investigation in the literature. With the purpose of validating these techniques on real problems, simulations on broadly accepted databases will be conducted. Ultimately, the proposed mathematical model will be evaluated against the empirical behavior of the model, with the aid of statistical methods. Finally, it is expected that this study will contribute, in a relevant manner, to the machine learning area. Keywords: competitive learning, random walks, semi-supervised learning, classication, complex networks.
vii
viii
Sumrio
Resumo Abstract Sumrio Lista de Figuras 1 Introduo 1.1 Objetivos e Motivaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Organizao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . Redes Complexas 2.1 Evoluo Histrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Modelos de Formao de Rede . . . . . . . . . . . . . . . . . . . . 2.2.1 Redes Randmicas . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Redes de Pequeno Mundo . . . . . . . . . . . . . . . . . . . 2.2.3 Redes Livre de Escala . . . . . . . . . . . . . . . . . . . . . 2.2.4 Redes Aleatrias Clusterizadas . . . . . . . . . . . . . . . . 2.3 Deteco de Comunidades . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Conceitos Relevantes . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Trabalhos Relevantes . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Competio de Partculas para Deteco de Comunidades 2.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v vii ix xi 1 5 8 11 11 13 13 15 17 18 20 20 20 21 23 25 25 28 28 29 30 32 32 33 33 47
Aprendizado Semissupervisionado 3.1 Aprendizado de Mquina . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Aprendizado Semissupervisionado: Denies, Motivaes e Modelos 3.2.1 Uma Breve Evoluo Histrica . . . . . . . . . . . . . . . . . . . 3.2.2 Motivaes para o Aprendizado Semissupervisionado . . . . . 3.2.3 Formulao Matemtica . . . . . . . . . . . . . . . . . . . . . . . 3.3 Abordagens de Aprendizado Semissupervisionado . . . . . . . . . . . 3.3.1 Modelos Generativos . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Mtodos de Separao por Regies de Baixa Densidade . . . . . 3.3.3 Mtodos Baseados em Grafos . . . . . . . . . . . . . . . . . . . . 3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Sumrio
Resultados Obtidos 4.1 Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Viso Geral do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Derivao da Matriz de Transio Competitiva . . . . . . . . . . . 4.1.3 O Modelo de Aprendizado Competitivo Semissupervisionado . . 4.1.4 As Condies Iniciais do Sistema Competitivo . . . . . . . . . . . 4.1.5 O Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.6 Anlise de Complexidade Algortmica . . . . . . . . . . . . . . . . 4.2 Anlise Matemtica do Modelo Competitivo . . . . . . . . . . . . . . . . 4.2.1 Resultados Tericos . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Um Exemplo Numrico . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Validao dos Resultados Tericos . . . . . . . . . . . . . . . . . . 4.3 Simulaes Computacionais . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Anlise Emprica da Sensibilidade dos Parmetros do Modelo . . 4.3.2 Simulaes com Bases de Dados Articiais . . . . . . . . . . . . . 4.3.3 Simulaes em Bases de Dados Reais . . . . . . . . . . . . . . . . 4.3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . Proposta de Pesquisa 5.1 Estratgia de Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Modelagem da Tcnica de Competio de Partculas para Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . . 5.1.2 Anlise Matemtica do Modelo de Competio Semissupervisionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Extenso do Modelo Competitivo ao Aprendizado No Supervisionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.4 Deteco de Vrtices e Comunidades Sobrepostos . . . . . . . . . 5.1.5 Tratamento da Conabilidade dos Dados no Processo de Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . . 5.2 Atividades e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Materiais e Recursos Disponveis . . . . . . . . . . . . . . . . . . . . . . . 5.4 Forma de Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . .
49 49 49 52 60 62 63 64 67 67 80 83 85 85 87 90 96 97 97 98 98 99 100 101 102 103 103 105
Referncias Bibliogrcas
Lista de Figuras
1.1
Exemplo de rede com estrutura de comunidades retirado de uma rede de protenas. As cores representam as comunidades. Figura extrada de (Girvan e Newman, 2002) . . . . . . . . . . . . . . . . . . . . . . . . . . . Um exemplo de rede aleatria de Erds e Rnyi. (a) uma rede construda por meio da abordagem randmica proposta por Erds e Rnyi; (b) o grco da mdia de distribuio de grau de uma rede apresentando N = 10000 e p = 0.2. Figura integralmente extrada de Costa et al. (2007). . . . Mtodo de construo de uma rede de pequeno mundo, de acordo com o proposto por Watts e Strogatz em (Watts e Strogatz, 1998). Figura extrada de Costa et al. (2007). . . . . . . . . . . . . . . . . . . . . . . . . . . Comportamento da rede com a mudana do parmetro responsvel pela frequncia de remanejamento das arestas. . . . . . . . . . . . . . . . . .
2.1
14
2.2
16 16
2.3 2.4
( a) Ilustrao de uma rede livre de escala; (b) Grco da distribuio de grau em funo do grau k. Figura modicada a partir da proposta em Barabasi e Albert (1999). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Esquemtico de uma rede aleatria clusterizada. As comunidades so representadas pelas cores. Figura integralmente retirada de Papadopoulos et al. (2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquemtico dos trs modos de aprendizado de mquina. Aprendizado: (a) no supervisionado (agrupamento); (b) semissupervisionado (classicao semissupervisionada); (c) supervisionado (classicao supervisionada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Motivao para o estudo de aprendizado semissupervisionado. A linha pontilhada mostra o plano decisor que divide as duas classes feita por um algoritmo supervisionado. A linha contnua denota o plano decisor gerado por um algoritmo semissupervisionado. . . . . . . . . . . . . . . Motivao para utilizao de grafos. (a) Problema inicial para classicao semissupervisionada. (b) Resultado obtido aplicando SVM. (c) Resultado obtido aplicando kNN. (d) Resultado ideal. Figura extrada de Zhou et al. (2003). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
18
2.5
19
3.1
27
3.2
30
3.3
34
xii
Lista de Figuras
4.1
Uma tpica situao em que a partcula vermelha, presentemente localizada no vrtice v1 , tem de selecionar o prximo vizinho a visitar. Neste exemplo, h 2 partculas, vermelha e azul (a partcula azul no mostrada). A cor bege denota os vrtices que ainda no foram dominados por quaisquer partculas at o instante t. . . . . . . . . . . . . . . . . . . . 4.2 Ilustrao do procedimento de reanimao. H duas partculas, a vermelha e azul, localizadas nos vrtices v17 e v1 no instante t, respectivamente, as quais se tornaram exaustas. A rede engloba 20 vrtices. A cor do vrtice representa qual partcula est impondo o maior nvel de dominao no tempo t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Diagrama de uxo que indica, em alto nvel, como o sistema dinmico evolui no tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Tempo consumido para que N (t) se estabilize. Cada ponto na curva uma mdia de 10 realizaes independentes. As barras verticais de erro representam o maior e menor tempos de processamento. . . . . . . . . . 4.5 Uma rede construda para ilustrar a trajetria que uma partcula deve percorrer para aumentar uma entrada arbitrria de N (t) o mais rpido possvel. (a) Rede sem autolaos; (b) rede com autolaos. . . . . . . . . . 4.6 Comparao entre as distribuies terica e emprica para trs vrtices distintos: v4 , v11 e v16 em relao ao nvel de dominao imposto pela partcula vermelha. Pode-se vericar que o nvel de dominao mais provvel que a partcula vermelha impor ao vrtice v4 ser aproximadamente de 0.88 com 34% de chance, ao vrtice v11 ser 0.53 com 47% de chance, e ao vrtice v16 ser 0.14 com 33% chance. . . . . . . . . . . . . . 4.7 Acurcia de classicao vs. . Nestas simulaes, N = 1000, h 4 comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.07. Cada ponto na curva a mdia de 100 realizaes. As barras verticais indicam o desvio padro. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Acurcia de classicao vs. . Nestas simulaes, N = 1000, h 4 comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.6. Cada ponto na curva a mdia de 100 realizaes. As barras verticais indicam o desvio padro. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9 Ilustrao de um processo de classicao semissupervisionada via competio de partculas. As redes possuem 100 vrtices. Vrtices escuros ainda no foram dominados por nenhuma partcula. As cores nos vrtices representam a partcula que o est dominando. Retrato da rede quando: (a) t = 0; (b) t = 100; (c) t = 200; e (d) t = 300. . . . . . . . . . . 4.10 Comportamento evolucional do nvel de dominao mdio imposto pelas partculas no modelo. (a) Nvel mdio de dominao imposto pela partcula 1; e (b) Mesma informao para a partcula 2. . . . . . . . . . . 4.11 Classicao de dados semissupervisionada. A cor do vrtice indica a partcula que o est dominando. Os pontos escuros so vrtices ainda no dominados. (a) e (b) Duas classes com formatos de banana; (c) e (d) Duas classes, cada qual seguindo uma distribuio Highleyman; (e) e (f) Duas classes, cada qual seguindo uma distribuio Lithuanian; (g) e (h) Quatro classes, cada qual seguindo uma distribuio Gaussiana. . . . . .
55
59 63
68
74
85
86
87
88
89
91
C APTULO
1
Introduo
Os seres humanos nascem com uma capacidade surpreendente de aprender. Com ela, absorvem e assimilam conhecimento durante toda a vida. Com o propsito de simular computacionalmente esta capacidade, surgiu a rea da Cincia da Computao denominada aprendizado de mquina. Essa rea visa a desenvolver mtodos computacionais capazes de aprender com a experincia (Bishop, 2007; Duda et al., 2000; Mitchell, 1997). Por meio da representao computacional de dados obtidos a partir de domnios diversos, as tcnicas de aprendizado de mquina podem, de forma automtica, gerar modelos capazes de organizar o conhecimento existente ou ainda imitar o comportamento de um especialista humano nos domnios considerados. De uma forma geral, as tcnicas de aprendizado de mquina so tradicionalmente classicadas em dois modos principais: aprendizado supervisionado e aprendizado no supervisionado (Bishop, 2007; Mitchell, 1997). No aprendizado supervisionado, o objetivo deduzir conceitos a partir de exemplos rotulados de acordo com uma classe conhecida. Isto , o processo de aprendizagem visa construo de uma funo de mapeamento entrada/sada com base na observao dos dados de treinamento fornecidos. Quando o rtulo composto por valores discretos, o problema denominado classicao e, quando valores contnuos so utilizados, regresso. J no aprendizado no supervisionado, a tarefa principal est no agrupamento de dados segundo algum critrio de similaridade estabelecido, e o processo, neste caso, guiado pelos dados, pois no necessrio um conhecimento prvio sobre as classes existentes (Mitchell, 1997). A tarefa de rotular manualmente os dados pode ser um processo lento e caro, que normalmente envolve o trabalho de um especialista. Para lidar com essa diculdade, foi proposto o aprendizado semissupervisionado, cujo objetivo primrio reside em propagar os rtulos para os dados no rotulados. O classicador semissupervisionado 1
Captulo 1 - Introduo
induzido a partir de uma base de dados, geralmente, composta por uma grande quantidade de dados no rotulados e apenas uma pequena parcela de dados rotulados fornecida. Desta forma, o trabalho do especialista na rotulagem dos exemplos consideravelmente reduzido. Alm disso, resultados empricos tm demonstrado que a utilizao de dados no rotulados pode aumentar o desempenho do classicador (Chapelle et al., 2006). A competio um processo natural observvel na natureza e em diversos sistemas sociais que compartilham recursos escassos, tais como gua, comida, parceiros, territrios, entre muitos outros. O aprendizado competitivo uma importante abordagem no aprendizado de mquina e amplamente utilizado em redes neurais articiais para realizar aprendizado no supervisionado. Trabalhos relevantes anteriores incluem o desenvolvimento do famoso Mapa Auto-Organizvel (SOM - Self-organizing Map) (Kohonen, 1990), Aprendizado Competitivo Diferencial (Kosko, 1991), e Teoria de Ressonncia Adaptativa (ART - Adaptive Resonance Theory) (Carpenter e Grossberg, 1987; Grossberg, 1987). Desde ento, muitas redes neurais baseadas em aprendizado competitivo foram desenvolvidas (Amorim et al., 2007; Athinarayanan et al., 2002; Jain et al., 2010; Kaylani et al., 2010; Lpez-Rubio et al., 2009; Lu e Ip, 2009; Meyer-Bse e Thmmler, 2008; N. Allinson e Slack, 2001; Principe e Miikkulainen, 2009; Tan et al., 2008) e uma vasta gama de aplicaes foi vericada (Bacciu e Starita, 2008; Chen et al., 2005; Deboeck e Kohonen, 2010; do Rgo et al., 2010; Liu et al., 2008; Wang et al., 2009; Xu e II, 2005), quais sejam em agrupamento de dados, visualizao computacional de dados, reconhecimento de padres e processamento de imagens. Sem sombras de dvidas, redes neurais baseadas em aprendizado competitivo representam um dos principais sucessos do desenvolvimento de redes neurais. Entretanto, dois problemas remanescem: (i) geralmente, a rede construda pequena. Desta forma, a competio ocorre entre um pequeno nmero de neurnios; consequentemente, o modelo pode no exibir grande robustez para o processamento dos dados. (ii) No h uma ligao direta entre os dados de entrada e a rede neural treinada. Quando um grande conjunto de dados mapeado em uma rede com um pequeno nmero de neurnios, constitui uma tarefa complexa traduzir a correspondncia entre os dados originais e a rede neural treinada. Esta uma das razes pelas quais as redes neurais so, normalmente, consideradas como sistemas caixa-preta. Uma caminhada aleatria uma formalizao matemtica de uma trajetria consistindo em tomar sucessivos passos aleatrios. Tal conceito j foi usado para descrever muitos fenmenos naturais, bem como foi aplicado para resolver inmeros problemas de engenharia, tais como em correspondncia entre grafos (graph matching) e reconhecimento de padres (Gori et al., 2005), segmentao de imagens (Grady, 2006), modelagem de redes neurais (Jiang e Wang, 2000; Liang et al., 2009), indicao de centralidade de uma rede (Noh e Rieger, 2004), partio de redes (Zhou, 2003a), construo e an-
lise de redes de telecomunicao (Zeng et al., 2010; Zhong et al., 2008), entre diversos outros. Entretanto, at o presente momento, no h teoria ainda que descreva um processo geral de vrias caminhadas aleatrias que se interagem. Nos ltimos anos, ocorreu um intenso desenvolvimento em uma rea de pesquisa chamada redes complexas. Tais redes tm emergido como um tpico unicador em sistemas complexos e esto presentes em vrios ramos da cincia (Bornholdt e Schuster, 2003). Estruturalmente, as redes complexas so representadas por um grafo de grande escala G = V , E , em que V representa o conjunto de vrtices e E , o conjunto de arestas. Segundo Albert et al. (2004), as redes complexas so modelos para sistemas em geral, em virtude de possurem uma topologia no trivial, alm de serem compostas por uma grande quantidade de vrtices. Dentre alguns exemplos plausveis de representao em rede, incluem-se: a Internet (Faloutsos et al., 1999), a World Wide Web (WWW) (Albert et al., 1999), redes neurais biolgicas (Sporns, 2002), redes sociais entre indivduos (Scott, 2000) e entre companhias e organizaes (Mizruchi, 1982), cadeias alimentares (Montoya e Sol, 2002), redes do metabolismo (Jeong et al., 2000) e de distribuio como a corrente sangunea (West et al., 1999), rotas de entrega postal e de distribuio de energia eltrica (Albert et al., 2004), etc. De acordo com (Strogatz, 2001), algumas caractersticas inerentes a esse tipo de rede so: a complexidade estrutural - que se traduz na diculdade de visualizao da rede; a evoluo - que marca a constante alterao na estrutura da rede devido incluso e remoo de vrtices e conexes; a diversidade de conexes - pois estas ligaes entre os vrtices podem apresentar muitas variaes em suas caractersticas, tais como a capacidade, o comprimento, a largura e o sentido; e a dinmica e a estrutura complexas - as quais inuem em grande escala nos estados de uma rede, j que podem ser entendidas como o trfego de informaes (Zhao et al., 2007), as ocorrncias de falhas de comunicao (Zhao et al., 2004, 2005, 2007), as relaes de similaridade entre vrtices, a distribuio de funes (Newman, 2003), entre outras. As redes com topologias complexas eram tradicionalmente descritas, em meados da dcada de 60, de acordo com o modelo proposto em (Erds e Rnyi, 1959), mais conhecido como grafos randmicos ou redes randmicas. Em 1998, Watts e Strogatz descobriram que a mdia de caminhos mais curtos em uma rede pode ser drasticamente reduzida por uma alterao aleatria de poucas ligaes, partindo-se de uma rede regular (Watts e Strogatz, 1998). Esta rede resultante chamada de Rede de Pequeno Mundo (Small-World Network). Em 1999, Barabsi e Albert descobriram que muitas redes reais tm uma distribuio de grau dos vrtices que obedece a lei de potncia: P(k ) k , na qual k o nmero de ligaes de um vrtice escolhido aleatoriamente e o expoente de escala (Barabasi e Albert, 1999). Essa distribuio heterognea modela a existncia de um pequeno grupo de vrtices que apresenta um grande nmero de ligaes. Tais redes so denominadas Redes Livres de Escala (Scale-free Networks).
Por outro lado, existem as Redes Aleatrias (Random Networks), que tm uma distribuio de grau homognea, resultando, nesse caso, na ausncia de vrtices dominantes. Ademais, algumas redes complexas, ou modelagens de sistemas e dados como redes, apresentam comunidades (Danon et al., 2007). Tais comunidades podem ser denidas como grupos de vrtices da rede densamente conectados, enquanto que as conexes entre vrtices de grupos diferentes so esparsas (Newman e Girvan, 2004), conforme pode ser observado na Figura 1.1. Pela gura, de fcil percepo que existem inmeras conexes entre vrtices da mesma comunidade e uma quantidade escassa do mesmo entre comunidades distintas. As comunidades representam padres de interao entre os vrtices de uma rede e sua identicao importante para o entendimento dos mecanismos de crescimento e formao da rede (Clauset, 2005).
Figura 1.1: Exemplo de rede com estrutura de comunidades retirado de uma rede de protenas. As cores representam as comunidades. Figura extrada de (Girvan e Newman, 2002)
Recentemente, muitas tcnicas para a deteco de comunidades tm sido desenvolvidas (Boccaletti et al., 2007; Danon et al., 2007; Newman e Girvan, 2004; Reichardt e Bornholdt, 2004; Zhou, 2003b). As tcnicas de deteco de comunidades em redes complexas podem ser diretamente empregadas para se realizar o aprendizado no supervisionado de agrupamento de dados (Cook e Holder, 2000; Karypis et al., 1999; Quiles et al., 2008; Schaeffer, 2007). Para tanto, o conjunto de dados deve ser transformado em uma rede. Este processo pode ser realizado tomando cada item de dado como um vrtice de uma rede. As ligaes entre os vrtices denem as similaridades entre os dados. Assim, dados com maiores similaridades estaro mais conectados en-
tre si e pouco ligados a outros dados com menores similaridades. Logo, a aplicao de tcnicas de deteco de comunidades na rede permite evidenciar os grupos de vrtices fortemente ligados, ou seja, as comunidades. Em suma, uma tarefa de agrupamento de dados se transforma em uma tarefa de deteco de comunidades, to logo que a rede seja construda a partir do conjunto de dados. Alm disso, essa abordagem apresenta interessantes vantagens em relao a outras abordagens de agrupamento de dados, como a capacidade de deteco de clusters de formas variadas e a representao hierrquica dos dados, como, por exemplo, na forma de dendogramas (Duda et al., 2000; Jain et al., 1999).
1.1
Objetivos e Motivaes
Este projeto de pesquisa traz como objetivo geral o desenvolvimento e fundamentao terico-matemtica de uma nova tcnica de aprendizado semissupervisionado para a anlise de dados baseada em redes complexas. A hiptese assumida da existncia de tal modelo matemtico que represente o comportamento de competio de partculas. Os objetivos especcos so listados abaixo. 1. Proposio e desenvolvimento de uma nova tcnica de aprendizado semissupervisionado baseada em competio de partculas em redes complexas. Neste caso, alguns vrtices da rede so rotulados, ou seja, suas classes (grupos) so previamente denidas. O modelo a ser desenvolvido dever ser capaz de propagar os rtulos para os outros vrtices da rede via competio e cooperao de partculas, de forma eciente em relao aos algoritmos j produzidos na literatura. Um mecanismo de cooperao entre as partculas ser desenvolvido, de forma que partculas do mesmo time propaguem o mesmo tipo de rtulo (classe). Esperase que a proposio desse modelo dinmico competitivo trar uma contribuio para o campo de mltiplas caminhadas aleatrias com interao, cuja modelagem e estudo inexistem na literatura. 2. A partir do modelo semissupervisionado desenvolvido na etapa anterior, ser conduzida uma anlise matemtica do modelo, a m de descrever o comportamento emprico do mesmo por meio de equaes probabilsticas. esperado tambm que uma validao seja realizada, com o propsito de constatar se o modelo matemtico realmente se assemelha com o comportamento emprico do modelo competitivo. 3. O modelo semissupervisionado ser estendido ao modo de aprendizado no supervisionado. Neste caso, espera-se que o modelo possa realizar tarefas de deteco de comunidades e agrupamento de dados. Para o caso de tarefas de deteco
de comunidades, sero utilizados benchmarks bem conhecidos (Danon et al., 2005; Fortunato, 2010) e redes reais para vericar a qualidade do modelo. Quanto s tarefas de agrupamento de dados, sero utilizadas algumas bases de dados fornecidas pelo repositrio UCI (Frank e Asuncion, 2010) e pela base de dados MNIST de dgitos manuscritos (LeCun et al., 1998). Por ltimo, a partir da prpria informao gerada pelo modelo competitivo, ser proposta uma medida para estimao do nmero de clusters em uma base de dados. 4. A partir do modelo de competio de partculas proposto, ser estudada e desenvolvida uma nova medida para deteco de vrtices sobrepostos (overlapping vertices). Para validar a medida proposta, simulaes com bases de dados conhecidas na literatura sero conduzidas, tais como a rede de karat de Zachary (Zacharys karate club network) (Zachary, 1977), rede social de golnhos (dolphin social network) (Lusseau, 2003), rede da novela Les Misrables (Les Misrables network) (Knuth, 1993), rede representando uma liga de futebol americano (American college football network) (Girvan e Newman, 2002) e rede de colaborao cientca (scientic collaboration network) (Newman, 2006). 5. Na ltima fase, ser tratado do assunto de conabilidade na classicao dos dados no aprendizado semissupervisionado. Especicamente, espera-se que a tcnica a ser desenvolvida seja capaz de: (i) oferecer nvel de pertinncia de cada item de dado a cada classe (soft-label), ao invs de s oferecer rtulo de classe (hard-label); e (ii) detectar outliers e, consequentemente, impedir a sua propagao. Por m, sero conduzidos estudos e anlises de propagao de erros (dados erroneamente rotulados) junto propagao de rtulos em redes, ou seja, certa percentagem de erros ser introduzida antes do processo de propagao de rtulos. Pretende-se identicar, com isso, o ponto crtico de porcentagem de erros introduzidos que leva a uma preciso de classicao drasticamente decada. Esse tipo de estudo muito importante no s para obter uma classicao precisa, mas tambm para obter um melhor entendimento do conjunto de dados em processamento. As motivaes vm do fato de que as redes complexas so ferramentas poderosas para muitas disciplinas da cincia, inclusive para a modelagem e a aplicao de aprendizado de mquina em anlise de dados. Em razo da alta complexidade e da versatilidade dessa aproximao, ainda existe um grande espao para explorao. Outra motivao embasa-se no argumento que o processo de competio de partculas muito similar a diversos processos sociais e naturais, quais sejam: competio entre animais, explorao territorial por humanos (animais), campanhas eleitorais, entre outros. Ademais, a movimentao aleatrio-preferencial incorporada na poltica de
1.1 - Objetivos e Motivaes
movimentao das partculas pode, de forma substancial, melhorar a taxa de classicao, como ser visto no captulo de resultados obtidos. Este modelo corrobora a importncia do papel da aleatoriedade em sistemas evolucionrios, cuja funo principal de evitar, de forma automtica, que as partculas caiam em armadilhas locais, alm de proporcionar, para as partculas, a habilidade de explorar territrios desconhecidos. Logo, uma certa quantidade de aleatoriedade essencial para o processo de aprendizado. Tal aleatoriedade incumbida de representar o estado No sei e presta-se como um eciente explorador de novas caractersticas. O modelo de competio de partculas foi originalmente proposto em Quiles et al. (2008) no campo de aprendizado no supervisionado, em que apenas um procedimento de competio de partculas foi introduzido, sem nenhuma denio formal. Tal tcnica mostra pelo menos duas vantagens salientes, em cotejo entre muitas outras tcnicas de deteco de comunidades atuais (Boccaletti et al., 2007; Danon et al., 2007; Newman e Girvan, 2004; Reichardt e Bornholdt, 2004; Zhou, 2003b): (i) o mecanismo de competio de partculas no s oferece uma tcnica de deteco de comunidades, mas tambm apresenta um esquema geral de aprendizado de mquina competitivo; e (ii) a tcnica apresenta alta preciso de deteco e, ao mesmo tempo, baixa ordem de complexidade computacional. No trabalho presente, uma denio rigorosa ser fornecida, na qual a competio de partculas formalmente modelada a partir de um sistema dinmico estocstico. Tal modelo , ao contrrio do originalmente proposto em Quiles et al. (2008), utilizado em classicao semissupervisionada, i.e., no campo de aprendizado semissupervisionado. Alm disso, um mecanismo de cooperao entre as partculas ser introduzido. Tendo em vista que o modelo de vrias partculas que se interagem corresponde a muitos sistemas naturais e articiais, o estudo deste tpico congura-se como uma importante tarefa. Em virtude da ausncia de teoria para tais modelos, este trabalho (a denio do modelo per se) um importante passo para compreender e dominar tais sistemas. Adicionalmente, o mecanismo de cooperao entre partculas permite que partculas do mesmo time propaguem o mesmo tipo de rtulo e, ao mesmo tempo, times distintos compitam uns contra os outros para denir as bordas das classes. Outra caracterstica saliente do modelo a propagao local dos rtulos, i.e., em decorrncia do processo competitivo, cada partcula apenas visita uma poro de vrtices potencialmente pertencente quela partcula ou ao seu time. Esta caracterstica pode ser entendida como um efeito dividir para conquistar embutido no prprio esquema competitivo-cooperativo. Em funo disto, muitas caminhadas longas e redundantes realizadas pelas partculas so evitadas. Como resultado, o algoritmo apresenta complexidade temporal baixa. Outra particularidade importante que a rede subjacente construda diretamente do conjunto de dados de entrada; portanto, a correspondncia entre os dados de entrada e o resultado de processamento (a rede nal) mantida. Como consequncia disso, o efeito caixa-preta, o qual existe,
por exemplo, em muitos sistemas competitivos neurais, signicativamente reduzido. As tcnicas tradicionais de aprendizado semissupervisionado baseadas em grafo envolvem minimizao de uma funo de custo e multiplicao de matrizes. Desta forma, a complexidade computacional dessas tcnicas geralmente da ordem O(V 3 ) ou superiores (Belkin e Niyogi, 2003; Belkin et al., 2004; Zhou et al., 2003), onde V o nmero de vrtices. Espera-se que os modelos gerados baseados em competio de partculas sejam mais ecientes, o que importante para tratar grandes bases de dados. Portanto, a tcnica a ser proposta deve tentar suprir essa lacuna, no que tange complexidade computacional. Quanto deteco de vrtices e comunidades sobrepostos, deve ser exaltado que a maioria dos mtodos de deteco de comunidades propostos na literatura objetiva designar um vrtice a apenas um grupo (classe) (Danon et al., 2005; Fortunato, 2010). Entretanto, em redes reais, os vrtices normalmente so compartilhados entre grupos diferentes (Fortunato, 2010). Por exemplo, em uma rede de associao semntica de conceitos (Kiss et al., 1973), o conceito Brilhante pode ser um membro de vrios grupos, tais como o grupo representando os conceitos relativos Luz, Astronomia, Cor, e assim sucessivamente (Palla et al., 2005). Em uma rede social, cada pessoa naturalmente pertence ao grupo da empresa em que trabalha e tambm ao grupo representando os membros de sua famlia. Diante desse cenrio, a descoberta de vrtices sobrepostos importante no s para minerao de dados, mas tambm para a anlise dos dados em geral. Em aprendizado semissupervisionado, o problema de conabilidade pode ser ainda mais crtico, pois uma pequena quantidade de erros pode se espalhar desde um pequeno subconjunto at o conjunto inteiro de dados. Por exemplo, em um diagnstico mdico, em virtude da quantidade de trabalho e da complexidade do problema, pode acontecer que somente uma pequena percentagem de sintomas classicada (rotulada) por determinado especialista humano. A tcnica de aprendizado semissupervisionado deve propagar esses rtulos de classes para sintomas (itens de dados) no rotulados. Neste processo, o erro em rotulao de poucos sintomas pode contaminar uma percentagem razovel de sintomas no rotulados, causando diagnsticos errados. Portanto, a conabilidade de resultados do aprendizado semissupervisionado, apesar de pouco estudada, crucial em muitos sistemas de classicao. Por isso, este projeto de pesquisa tem a expressa preocupao de tratar do assunto referente conabilidade dos dados no contexto de aprendizado semissupervisionado.
1.2
Organizao do Documento
Este documento foi organizado da seguinte forma: nos Captulos 2 e 3, sero fornecidos uma reviso bibliogrca pertinente ao projeto de pesquisa proposto: Redes
1.2 - Organizao do Documento
Complexas e Aprendizado Semissupervisionado, respectivamente. No captulo 4, os resultados obtidos so apresentados minuciosamente. Por m, no captulo 5, apresentado o plano de pesquisa deste projeto.
10
C APTULO
2
Redes Complexas
Neste captulo, ser apresentada toda fundamentao terica relevante ao plano de pesquisa desse projeto concernente rea de Redes Complexas. Aqui sero ilustrados a trajetria de evoluo desse sub-ramo de pesquisa da rea de Inteligncia Articial, as suas principais tcnicas de formao de rede, bem como os conceitos e mtodos de deteco de comunidades.
2.1
Evoluo Histrica
O estudo de redes teve incio a partir do desenvolvimento da teoria dos grafos, inaugurada por Leonhard Euler em 1736 com a soluo do problema das sete pontes de Knigsberg, hoje, Kaliningrado, Rssia. O problema, bem discutido na poca, registrava que existiam sete pontes que atravessavam o rio Pregel, com duas ilhas intermedirias, com as quais os moradores desejavam saber se era possvel atravessar todas essas sete pontes, sem repetio, e regressar ao ponto de partida. Euler demonstrou para a Academia de Cincias Russa de So Petersburgo, analiticamente, que no era possvel completar tal caminhada, com auxlio de uma representao grca constituda de pontos e curvas interligando estes pontos. Era o incio da representao formal e grca de uma rede ou grafo, at hoje conhecido, com vrtices e arestas. A partir desse momento, vrios pesquisadores comearam a estudar esse ramo de pesquisa em busca de novos teoremas e aplicaes (Newman, 2003). De fato, o primeiro grande passo para o estudo de Redes Complexas foi impulsionado por Paul Erds e Alfrd Ryni que analisaram um certo tipo de rede, denominada de redes aleatrias, ou redes randmicas, em seu trabalho publicado em 1959, abrindo 11
12
Captulo 2 - Redes Complexas
portas para uma rea de estudos: a teoria de redes aleatrias, que representa uma mistura de teoria dos grafos e teoria da probabilidade (Erds e Rnyi, 1959). Seguindo a cronologia, em 1967, Stanley Milgram resolveu aceitar o desao proposto por Frigyes Karinthy, inspirado pelas conjecturas de Guglielmo Marconi em 1909, o qual desaava algum encontrar outra pessoa a qual no poderia ser conectada por meio de, no mximo, 5 pessoas intermedirias (Milgram, 1967). Estava lanado o conceito denominado de separao em seis graus, que constituiu a semente para o estudo de redes de pequeno mundo. Para solucionar tal desao, Milgram conduziu experimentos no intuito de tentar descobrir a probabilidade de duas pessoas quaisquer se conhecerem. Para tanto, foram enviadas cartas para pessoas aleatrias residentes em regies pr-determinadas dos Estados Unidos, cujo contedo versava sobre informaes de outra pessoa qualquer. Caso a pessoa referida na carta fosse conhecida pelo leitor, ento este remetia a carta para o destinatrio. Por outro lado, caso no a conhecesse, ento deveria enviar para alguma outra pessoa conhecida. No m do experimento, Milgram constatou que a mdia de encaminhamentos de uma pessoa para outra atingia 5, 5 pessoas. Estava, portanto, descoberta a propriedade de pequeno mundo, em termos empricos, que arma que mesmo que existam milhes de vrtices interconectados em uma rede social, a distncia mdia entre eles no passa de um pequeno valor, no caso do exemplo, 5, 5 pessoas (Milgram, 1967). Apesar das concluses de Milgram, foi somente no nal da dcada de 90 que as pesquisas foram retomadas nesta rea. Em 1998, Watts e Strogatz descobriram que a mdia de caminhos mais curtos em uma rede pode ser drasticamente reduzida por uma alterao aleatria de poucas ligaes, partindo-se de uma rede regular (Watts e Strogatz, 1998). Esta rede resultante chamada de Rede de Pequeno Mundo (SmallWorld Network), j empiricamente descoberta por Milgram. Em 1999, Barabsi e Albert descobriram que muitas redes reais tm uma distribuio de grau dos vrtices que obedece a lei de potncia: P(k) k , na qual k o nmero de ligaes de um vrtice escolhido aleatoriamente e o expoente de escala (Barabasi e Albert, 1999). Essa distribuio heterognea modela a existncia de um pequeno grupo de vrtices que possuem um grande nmero de ligaes. Tais redes so denominadas Redes Livre de Escala (Scale-free Networks). Impulsionada pelo avano tecnolgico computacional e as crescentes propores de dados a serem analisados, as redes complexas tm emergido como um tpico unicador em sistemas complexos e esto presentes em vrios ramos da cincia (Bornholdt e Schuster, 2003). Estruturalmente, as redes complexas so representadas por um grafo de grande escala G = V , E , onde V representa o conjunto de vrtices e E , o conjunto de arestas. Segundo Albert et al. (2004), as redes complexas so modelos para sistemas em geral, em virtude de possurem uma topologia no trivial, alm de serem compostas por uma grande quantidade de vrtices. Dentre alguns exemplos plausveis de
2.1 - Evoluo Histrica
13
representao em rede, incluem-se: a Internet (Faloutsos et al., 1999), a World Wide Web (Albert et al., 1999), redes neurais biolgicas (Sporns, 2002), redes sociais entre indivduos (Scott, 2000) e entre companhias e organizaes (Mizruchi, 1982), cadeias alimentares (Montoya e Sol, 2002), redes do metabolismo (Jeong et al., 2000) e de distribuio como a corrente sangunea (West et al., 1999), rotas de entrega postal e de distribuio de energia eltrica (Albert et al., 2004), etc. De acordo com (Strogatz, 2001), algumas caractersticas inerentes a esse tipo de rede so: a complexidade estrutural - que se traduz na diculdade de visualizao da rede; a evoluo - que marca a constante alterao na estrutura da rede devido incluso e remoo de vrtices e conexes (Dorogovtsev e Mendes, 2003); a diversidade de conexes - pois estas ligaes entre os vrtices podem apresentar muitas variaes em suas caractersticas, tais como a capacidade, o comprimento, a largura e o sentido; e a dinmica e a estrutura complexas - as quais inuem em grande escala nos estados de uma rede, j que podem ser entendidas como o trfego de informaes (Zhao et al., 2007), as ocorrncias de falhas de comunicao (Zhao et al., 2004, 2005, 2007), as relaes de similaridade entre vrtices, a distribuio de funes (Newman, 2003), entre outras.
2.2
Modelos de Formao de Rede
Com a expectativa de estudar propriedades topolgicas que esto presentes em redes reais, diversos modelos de redes foram propostos. Alguns desses modelos, inclusive, ensejam um estudo aprofundado devido s suas caractersticas de grande interesse. Como exemplo de categorias de redes importantes, podem ser elencadas: redes randmicas, o modelo de pequeno mundo, as redes aleatrias clusterizadas e as redes de Barabsi-Albert, mais conhecidas como redes livres de escala (Costa et al., 2007). Nas prximas subsees, sero revisados os principais modelos de rede conhecidos na literatura.
2.2.1
Redes Randmicas
A rede desenvolvida por Erds e Rnyi pode ser considerada o modelo mais fundamental das redes complexas. No seu artigo de 1959 (Erds e Rnyi, 1959), Erds e Rnyi apresentaram um modelo gerador de redes aleatrias consistindo de N vrtices e M arestas. Iniciando de N vrtices completamente desconectados (nenhuma aresta na rede), a rede construda a partir da adio de L arestas aleatoriamente, sempre evitando conexes mltiplas ou autoconexes (determinado vrtice i ligar com ele mesmo). Outro modelo similar dene N vrtices e uma probabilidade p de conectar cada par de vrtices. O ltimo modelo amplamente reconhecido como o modelo de Erds e Rnyi. A Figura 2.1a mostra um exemplo que goza dessa propriedade de rede
14
randmica.
Figura 2.1: Um exemplo de rede aleatria de Erds e Rnyi. (a) uma rede construda por meio da abordagem randmica proposta por Erds e Rnyi; (b) o grco da mdia de distribuio de grau de uma rede apresentando N = 10000 e p = 0.2. Figura integralmente extrada de Costa et al. (2007).
Uma vez que, para cada vrtice i da rede (de um total de N), existem N 1 possibilidades de conexo, segue que a cardinalidade do espao amostral, que representa a totalidade de opes em uma rede que uma aresta pode existir, dada por: N ( N 1) , (2.1) 2 sendo que a diviso por dois decorre do fato que as arestas aqui tomadas no so direcionadas, isto , se existe uma aresta que origina de vi e termina em v j , ento, por consequncia, existe uma aresta que origina de v j e termina em vi . Em termos gerais, a presena dessas duas arestas representa a ocorrncia do mesmo evento probabilstico. Tendo como base quen para cada aresta que esteja inclusa no espao amostral , existe a probabilidade p dela ocorrer e 1 p, caso contrrio, e sabendo que h ( N k 1) formas de escolher k vrtices entre N 1 no total, e pk a probabilidade deles terem k arestas, ento ( N k 1) pk representa a probabilidade de um vrtice da rede possuir arestas para k outros vrtices. Entretanto, deve-se impor no modelo que no exista mais nenhuma aresta, alm dessas k, ou seja, para a quantidade de vrtices restantes, dada por N 1 k, deva ocorrer o evento complementar de existir arestas, isto , (1 p)( N 1k) . Portanto, a distribuio de grau segue uma Binomial ( N 1, p), cuja equao regida pela seguinte expresso:
|| =
P(grau(k )) =
N1 k p (1 p)( N 1)k . k
(2.2)
Dado que N e p sejam suciente pequenos, possvel mostrar que uma
2.2 - Modelos de Formao de Rede
15
Binomial ( N 1, p) aproxima-se da distribuio de Poisson() (Meyn e Tweedie, 2009), com a seguinte expresso de relacionamento:
( N 1) p = .
(2.3)
Retomando da teoria de probabilidade que a mdia e varincia de uma distribuio de Poisson() so dadas simplesmente por = 2 = , nota-se, a partir da observao da rede na Figura 2.1b, a qual construda a partir dos parmetros N = 10000 e p = 0.2, que a distribuio realmente de Poisson com mdia (pico) prxima de = ( N 1) p = (10000 1)0.2 2000. Ademais, a mdia do menor caminho l pequena nessas redes, aumentando de ln( N ) forma proporcional ao logaritmo do tamanho da rede, isto , l ln( k ) , sendo k dado pela mdia da distribuio de Poisson (mdia do grau), ou seja, k = = ( N 1) p, sempre que N e p sejam suciente pequenos (Costa et al., 2007). A maior descoberta de Erds e Rnyi foi que muitas propriedades importantes de uma rede randmica aparecem conforme se incrementam os hiperparmetros da Binomial ( N 1, p), de forma que, por exemplo, para uma determinada probabilidade crtica p, a maioria das redes apresentam alguma propriedade especca Q, tal como apresentar apenas um componente. Para valores superiores a essa probabilidade crtica, a rede no mais apresenta um nico componente, mas sim vrios sub-grafos desconexos (Newman, 2003).
2.2.2
Redes de Pequeno Mundo
Muitas redes do mundo real exibem a propriedade de mundo pequeno, isto , a maioria dos vrtices pode ser atingido por quaisquer outros, por meio de um pequeno nmero de arestas. Esta caracterstica encontrada, por exemplo, em redes sociais, onde praticamente todas as pessoas do mundo podem ser alcanadas por uma pequena cadeia de pessoas (Watts, 2003; Watts e Strogatz, 1998). De forma a construir uma rede que goze da propriedade de pequeno mundo, podese utilizar um processo de formao de rede da seguinte forma: a rede inicialmente regular, composta de N vrtices, tal como mostra a Figura 2.2, na qual cada vrtice conecta-se com os seus k vizinhos mais prximos em cada direo, totalizando 2k conexes. Em seguida, cada aresta aleatoriamente remanejada, isto , dado um vrtice i qualquer da rede, toma-se uma aresta genrica ligando os vrtices i e j e troca-se o vrtice-destino ao qual aquela aresta ligava, ou seja, substitui-se j por um outro vrtice k qualquer, tal que j = k, com uma probabilidade p. Quando p = 0, no haver remanejamentos e, portanto, a rede continuar sendo regular, enquanto que, para o caso em que p tende ao valor mximo 1, o remanejamento se torna constante e muito provvel que todas as arestas troquem de vrtice-destino (Watts e Strogatz, 1998). A Figura 2.3
16
traz um esquemtico do comportamento do parmetro p, responsvel pela frequncia de remanejamento das arestas. Perceba que para valores de p pequenos, tem-se redes efetivamente regulares. Conforme p aumenta, a propriedade de pequeno mundo se torna evidente. Quando p = 1, a rede se torna randmica. O pico da distribuio de grau, seguindo esta abordagem de construo, se localiza prximo do valor 2k (Watts, 2003; Watts e Strogatz, 1998).
Figura 2.2: Mtodo de construo de uma rede de pequeno mundo, de acordo com o proposto por Watts e Strogatz em (Watts e Strogatz, 1998). Figura extrada de Costa et al. (2007).
Figura 2.3: Comportamento da rede com a mudana do parmetro responsvel pela frequncia de remanejamento das arestas.
A implicao imediata para redes que apresentem a propriedade de pequeno mundo que o transporte de qualquer informao, posto que ela foi gerada em qualquer vrtice da rede, muito rpido. Por exemplo, no contgio viral: dado que uma pessoa contraiu algum vrus, o qual esteja vivendo em um ambiente propcio para sua multiplicao e disseminao, ento, espera-se que, em pouco tempo, vrias pessoas estejam contagiadas por este vrus.
17
2.2.3
Redes Livre de Escala
Em um estudo proposto por Barabsi e Albert, eles notaram que algumas redes possuem um pequeno nmero de vrtices com graus elevados, enquanto que a maioria possui graus muito reduzidos (Barabasi e Albert, 1999). Com esta observao em mente, em 1999, eles propuseram as redes livre de escala, na qual a distribuio de grau obedece a lei de potncia (power-law) dada por: P (k ) k , (2.4)
onde representa um expoente de escala. Analiticamente, pode ser mostrado que o modelo de construo que ser estudado abaixo evolui para um estado de escala invariante, o qual segue uma a lei de potncia com expoente = 3, independentemente do conjunto inicial de vrtices (Barabasi e Albert, 1999). Perceba que, xando , conforme o grau k aumenta, o nmero de vrtices que possui grau k diminui. Assim, esperase que P(k ) tenha um alto valor para baixos valores de k e um baixo valor para altos valores de k, o que condiz com a observao encontrada por Barabsi e Albert. O modelo de rede de Barabsi e Albert baseia-se em duas regras fundamentais: o crescimento e a ligao preferencial. A rede gerada a partir de um conjunto m0 de vrtices. Em seguida, a cada passo da construo, a rede cresce por meio da adio de novos vrtices. Para cada novo vrtice agregado, m novas arestas so inseridas entre o novo vrtice e alguns vrtices anteriores aleatoriamente escolhidos. Os vrtices que recebem essas novas arestas so escolhidos segundo uma regra de ligao preferencial linear, isto , a probabilidade de um novo vrtice i se conectar com um vrtice j existente proporcional ao grau do vrtice j. Em termos matemticos, se k i denotar o grau do vrtice i, ento esta caracterstica pode ser precisamente indicada por: P (i j ) = kj . u k u (2.5)
Portanto, os vrtices mais conectados possuem maior probabilidade de receber a ligao de novos vrtices. Barabasi e Albert (1999) argumentaram que a natureza das redes livre de escala estava associada a dois mecanismos bsicos, compartilhados por diversos tipos de redes reais. Os modelos anteriores consideravam um conjunto inicial de vrtices xo, dado por N, e apenas o conjunto de arestas era modicado conforme avanavam-se nos passos do algoritmo de formao de rede. A maioria das redes reais, no entanto, representa sistemas que crescem pela adio contnua de vrtices, que caracterstico de redes complexas, devido sua dinamicidade. Partindo de um ncleo pequeno de vrtices, o nmero de vrtices total aumenta durante a vida til da rede, por meio de subsequentes adies de vrtices. Um exemplo clssico a World Wide Web, cujo crescimento exponencial em relao ao tempo, tendo em vista que a adio
18
de novas pginas ocorre a praticamente todo momento. Outro ponto que difere das abordagens anteriores que os modelos vistos assumem que a probabilidade de dois vrtices serem conectados independe do grau dos vrtices, ou seja, feita de forma uniformemente aleatria. A maioria das redes reais, todavia, exibe a propriedade de ligao preferencial, na qual a existncia de uma aresta depende diretamente do grau do vrtice em questo. Retomando o exemplo da World Wide Web, ca evidente que muito mais provvel haver uma ligao de uma nova pgina a outra que seja mais referenciada em relao quelas j existentes na rede (Barabasi e Albert, 1999). A Figura 2.4a ilustra um exemplo de rede livre de escala. Perceba que, com o auxlio da Figura 2.4b, constata-se um nmero reduzido de vrtices com grau alto (evidenciado com cores na rede em Figura 2.4a), enquanto que existem muitos vrtices com grau baixo, o que mostra a tendncia de novos vrtices de se conectarem a vrtices com graus j elevados.
Figura 2.4: ( a) Ilustrao de uma rede livre de escala; (b) Grco da distribuio de grau em funo do grau k. Figura modicada a partir da proposta em Barabasi e Albert (1999).
2.2.4
Redes Aleatrias Clusterizadas
Algumas redes reais, tais como sociais e biolgicas, apresentam estruturas modulares (Girvan e Newman, 2002). Essas redes so constitudas de conjuntos ou comunidades de vrtices, com a caracterstica de que vrtices pertencentes a mesma comunidade possuem muitas arestas os interligando e, ao mesmo tempo, vrtices de comunidades distintas possuem poucas arestas ligando uma comunidade com a outra. Um modelo para gerar tais comunidades foi proposto por Girvan e Newman (2002). Inicialmente, um conjunto de N vrtices disposto em M comunidades distintas, sem sobreposio.
19
Em seguida, dois vrtices so selecionados e conectados com probabilidade pin , se eles pertencerem a mesma comunidade, ou pout , se eles forem oriundos de comunidades distintas. Os valores de pin e pout devem ser escolhidos de acordo com quo denidas as comunidades devem ser. Um valor alto de pin remete a uma rede com comunidades bem denidas, enquanto que valores baixos tornam a propriedade de comunidades na rede pouco visvel. Em termos empricos, pout pin para haver comunidades bem denidas na rede. A Figura 2.5 ilustra uma rede com quatro comunidades bem denidas. Atente s comunidades na gura as quais apresentam-se de forma bem denida, j que o nmero de arestas ligando vrtices da mesma comunidade muito maior que a quantidade de arestas ligando vrtices de comunidades distintas. Diante dessas quantidades, tambm denem-se o nmero de arestas intracomunidades e intercomunidades zin e zout , respectivamente, para uma rede arbitrria de grau mdio k . Com base nisso, pode-se denir a frao de arestas intracomunidades zin/ k e, da mesma forma, a frao de arestas intercomunidades zout/ k . A quantidade zout/ k quantica a mistura entre as comunidades, i.e., conforme zout/ k aumenta, as comunidades cam mais difceis de serem visualizadas. Estas quantidades so bastante utilizadas no benchmark proposto em Danon et al. (2005), o qual ser utilizado neste projeto em captulos posteriores.
Figura 2.5: Esquemtico de uma rede aleatria clusterizada. As comunidades so representadas pelas cores. Figura integralmente retirada de Papadopoulos et al. (2009).
20
2.3
Deteco de Comunidades
Nesta seo, ser dada uma viso geral sobre os conceitos e tcnicas de deteco de comunidades. Especicamente, especial ateno ser importada tcnica proposta em Quiles et al. (2008), uma vez que o plano de pesquisa relaciona-se com esta tcnica.
2.3.1
Conceitos Relevantes
A cincia moderna em redes trouxe um avano substancial para o entendimento de redes complexas. Uma das caractersticas evidentes e de destaque em redes complexas a presena de comunidades. A noo de comunidade em redes direta: cada comunidade denida como um sub-grafo cujos vrtices esto densamente interconectados, e, ao mesmo tempo, tais vrtices possuem poucas ligaes com o restante da rede. A deteco de comunidades em redes complexas tornou-se um importante tpico em minerao em grafos e dados (Danon et al., 2005; Fortunato, 2010; Newman, 2004a). Na teoria dos grafos, a deteco de comunidades corresponde ao problema de partio de grafos, o qual j foi mostrado ser um problema NP-completo (Fortunato, 2010). Outro conceito importante de comunidades e vrtices sobrepostos (Fortunato, 2010). Tais vrtices so denidos como membros de mais de uma comunidade ou classe ao mesmo tempo (Palla et al., 2005). Por exemplo, em uma rede de associao semntica de conceitos (Kiss et al., 1973), o conceito Brilhante pode ser um membro de vrios grupos, tais como o grupo representando os conceitos relativos Luz, Astronomia, Cor, e assim sucessivamente (Palla et al., 2005). Em uma rede social, cada pessoa naturalmente pertence ao grupo da empresa em que trabalha e tambm ao grupo representando os membros de sua famlia. Diante desse cenrio, a descoberta de vrtices e comunidades sobrepostos importante no s para minerao de dados, mas tambm para a anlise dos dados em geral.
2.3.2
Trabalhos Relevantes
Tendo em vista que o problema de deteco de comunidades de forma exata NP-completo, muitos esforos esto sendo gastos para desenvolver solues aproximadas e ecientes, tais como mtodos espectrais (Newman, 2006), a tcnica baseada na medida betweenness (Newman, 2004a), otimizao da modularidade (Newman, 2004b), deteco de comunidades baseada no modelo de Potts (Reichardt e Bornholdt, 2004), sincronizao (Arenas et al., 2006), teoria da informao (Fortunato et al., 2004) e caminhadas aleatrias (Zhou, 2003a). Fortunato (2010) apresenta uma recente reviso neste tpico. Quanto s tcnicas de deteco de vrtices e comunidades sobrepostos, vrios mtodos foram propostos na literatura (Evans e Lambiotte, 2009; Lancichinetti et al., 2009;
2.3 - Deteco de Comunidades
21
Nicosia et al., 2009; Palla et al., 2005; Shen et al., 2009; Sun et al., 2011; Zhang et al., 2007). Em Zhang et al. (2007), os autores combinam a ideia da funo de modularidade Q, relaxao espectral e agrupamento por meio de fuzzy c-means com o intuito de construir uma nova funo de modularidade baseada na funo generalizada Q de Newman e Girvan. Em Palla et al. (2005), as estruturas de comunidades so descobertas por meio de percolaes em cliques de k vrtices, enquanto que as sobreposies em comunidades so garantidas pelo fato que um vrtice pode participar de mais de um clique ao mesmo tempo. Entretanto, o mtodo por cliques de tamanho k traz alguns efeitos indesejveis, e.g., alguns vrtices podem no pertencer a nenhuma comunidade na rede. Alm disso, a estrutura hierrquica pode no ser revelada, dependendo da escolha do parmetro k. Em Lancichinetti et al. (2009), apresentado um algoritmo que encontra tanto comunidades sobrepostas, quanto a estrutura hierrquica das parties em comunidades, por intermdio de uma funo de otimizao e um parmetro de resoluo fornecidos pelo usurio. Recentemente, Evans e Lambiotte (2009) propuseram um mtodo para reconhecer estrutura de comunidades sobrepostas por meio da partio de um grafo em sub-grafos menores. Um ponto negativo da maioria dessas tcnicas que a deteco de comunidades e vrtices sobrepostos realizada como um processo dedicado, ou seja, separado do processo de deteco de comunidades. Desta forma, um processamento computacional adicional necessrio.
2.3.3
Competio de Partculas para Deteco de Comunidades
A tcnica proposta por Quiles et al. (2008) ser estudada em detalhes nesta seo, uma vez que ela se assemelha muito ao principal tpico de pesquisa desse documento. Em termos gerais, tal tcnica se baseia em competio de partculas. Essas partculas navegam na rede com o propsito de conquistar novos vrtices, enquanto que, tambm, tentam defender seus vrtices previamente conquistados. O modelo foi originalmente proposto para deteco de comunidades em redes complexas e, portanto, gura-se como uma tcnica pertencente ao aprendizado no supervisionado. Um partcula, denotada por j , matematicamente expressa por duas variveis escalares: (i) v (t), a qual representa o vrtice vi visitado pela partcula j no instante t; e j (t) [ (ii) j min , max ], a qual indica o potencial de explorao da partcula no tempo t. A dinmica que rege a movimentao e atualizao da capacidade de explorao das partculas dada por:
v ( t + 1) = v i j
(2.6)
22
(t) j j ( t + 1) = (t) + (max (t)) j j (t) ( (t) )

j j min
se vi (t) = 0 se vi (t) = j = 0 se
vi ( t )
(2.7)
= j = 0
onde controla a variao do nvel de explorao ou potencial que cada partcula perde ou ganha, dependendo da natureza do vrtice que visita. Especicamente, caso visite um vrtice dominado pela partcula visitante, o nvel de explorao daquela partcula aumentado, caso contrrio, decrementado. Cada vrtice vi da rede representado por meio de trs variveis escalares: (i) vi (t), a qual dene a partcula proprietria do vrtice vi no instante t; (ii) vi (t) indica o nvel de dominao imposto pela partcula j ao vrtice vi no instante t; e (iii) vi simboliza se o vrtice vi est sendo visitado por alguma partcula no instante t. Com o auxlio dessas variveis, a dinmica dos vrtices regida pelo seguinte conjunto de equaes:
v i ( t + 1)
vi ( t ) j
se vi (t) = 0 se vi (t) = 1 e vi (t) = min se vi (t) = 0 se vi (t) = 1 e vi (t) = j se vi (t) = 1 e vi (t) = j
(2.8)
vi ( t ) v i ( t + 1) = max{min , vi (t) v } j ( t + 1)
(2.9)
onde v denota a frao de nvel de explorao perdida por um vrtice, caso uma partcula rival venha a visit-lo. O algoritmo de deteco de comunidades inicia inserindo K partculas em K vrtices escolhidos aleatoriamente. No incio do processo dinmico, cada partcula j e cada vrtice vi possuem potencial igual a (0) = min j (t) = e vi min , respectivamente. Alm disso, cade vrtice no dominado por nenhuma partcula, i.e., ela est no estado livre, o qual matematicamente modelado por vi (0) = 0. A cada iterao, cada partcula escolhe um vrtice para visitar, segundo uma poltica de movimentao aleatria ou determinstica. Na primeira, a partcula visita aleatoriamente os vizinhos, enquanto que, na segunda, a partcula prefere visitar vrtices j dominados por ela. A seguir, ilustram-se os casos que podem ocorrer quando da escolha, por um partcula, de um vrtice adjacente: 1. Se o vrtice visitado vi ainda no pertencer a uma partcula: vi (0) = 0. Logo, o vrtice passa a pertencer a essa partcula visitante, i.e., vi (t) = j . O potencial da partcula j no alterado e o potencial do vrtice vi recebe o potencial da partcula: vi (t) = (t); j 2. Se o vrtice visitado dominado pela mesma partcula, o potencial da partcula visitante, j , incrementado e vi recebe o novo potencial da partcula: vi (t) =
2.3 - Deteco de Comunidades
23
( t ); j 3. Caso o vrtice visitado pertena a partcula diversa, ento os potenciais da partcula e do vrtice so enfraquecidos. Se o potencial da partcula atingir um j valor inferior que min , ento essa partcula reiniciada em um novo vrtice escolhido aleatoriamente. Caso o potencial do vrtice v atingir um valor menor j que min , ento o vrtice no mais propriedade de partcula alguma no modelo, i.e., o mesmo regressa ao estado livre: v = 0. j Assim, o nvel de dominao de um vrtice aumenta, caso seja visitado pela partcula a qual o domina no instante atual. A contrario sensus, quando da visita de uma partcula rival a um vrtice no dominado pela mesma, ocorre um enfraquecimento do nvel de dominao da partcula proprietria sobre aquele vrtice. Caso essa dominao no for slida o suciente, a partcula ora dominante perde a propriedade sobre aquele vrtice. Em um amplo perodo de tempo, espera-se que cada partcula domine uma comunidade na rede. O modelo proposto em Quiles et al. (2008) apresenta duas caractersticas salientes: (i) altas taxas de deteco de comunidades e (ii) baixa complexidade computacional. No entanto, no trabalho original, apenas um procedimento de competio de partculas introduzido, sem nenhuma denio formal. Isto impossibilita qualquer anlise ou predio do comportamento do modelo. Como ser visto mais para frente, uma das principais contribuies dessa pesquisa apresentar um modelo rigoroso por meio de um sistema dinmico estocstico competitivo.
2.4
Consideraes Finais
Neste captulo, foi explorada a rea de redes complexas, mostrando as vantagens inerentes sua utilizao, como a de levar em considerao a topologia estrutural para realizar as tarefas a que so incumbidas. Esta vantagem de especial importncia, pois traz independncia do modelo a distncias de similaridade, caracterstica comum em mtodos que no utilizam redes complexas. Alm disso, foram revisados os conceitos de comunidades e sobreposio de comunidades e vrtices. Por ltimo, as principais tcnicas de deteco de comunidades propostas na literatura baseadas em Redes Complexas foram revistas, com especial importncia para a tcnica de deteco de comunidades via competio de partculas.
24
C APTULO
3
Aprendizado Semissupervisionado
Neste captulo, sero fornecidos conceitos fundamentais sobre o aprendizado semissupervisionado. Especicamente, sero analisadas tcnicas pertencentes ao aprendizado semissupervisionado, com nfase nas baseadas em redes.
3.1
Aprendizado de Mquina
Tradicionalmente, existem dois tipos fundamentais de aprendizados em aprendizado de mquina. O primeiro intitulado de aprendizado no supervisionado, cuja formulao dada a seguir: seja X = { x1 , . . . , xn } um conjunto de n exemplos ou pontos, em que xi para todo i [n] := {1, . . . , n}, onde representa o espao caracterstico dos dados. Tipicamente, assumido que os pontos so identicamente e independentemente distribudos com uma distribuio comum . conveniente denir, por questes de clareza, para um problema em que os pontos so d-dimensionais, a matriz de dimenses n d denotada por X = ( xiT )iT n] que contm, em cada uma de suas n [ linhas, os itens de dados. Fundamentalmente, pode-se dizer que o problema de aprendizado no supervisionado consiste em estimar a densidade geradora dos dados em (Chapelle et al., 2006). Entre as principais tarefas de aprendizado no supervisionado, podem-se destacar: agrupamento (Girvan e Newman, 2002; Karypis et al., 1999; Newman, 2006), deteco de outliers (Liu et al., 2004; Lu et al., 2003), reduo de dimensionalidade (Lim e Park, 2009), associao (Piatetsky-Shapiro, 1991), entre outras. No agrupamento, espera-se encontrar grupos em que itens de dados do mesmo grupo sejam bem semelhantes uns aos outros, enquanto que itens de dados de grupos distintos pouco se assemelhem, em termos da funo de similaridade adotada (Mitchell, 1997). Na deteco de outliers, a meta encontrar itens de dados que destoam muito da 25
26
Captulo 3 - Aprendizado Semissupervisionado
distribuio original que o gerou, i.e., objetiva-se encontrar aqueles itens de dados que so diferentes da maioria (Liu et al., 2004). Na reduo de dimensionalidade, espera-se dispor os itens de dados em um espao dimensional inferior ao espao da distribuio original, com o m de simplicar as relaes entre os dados (Lim e Park, 2009). Na associao, buscam-se gerar regras que relacionem subconjuntos de atributos preditivos (Piatetsky-Shapiro, 1991). O segundo tipo de aprendizado denomina-se aprendizado supervisionado. A meta aqui aprender um mapeamento de x para y, dado o conjunto de treinamento constitudo pelos pares ( xi , yi ). Neste caso, yi Y chamado de rtulo do exemplo xi . Se os rtulos tiverem natureza numrica, ento y = (yi )iT n] denota o vetor-coluna [ de rtulos. Novamente, um requisito padro que os pares ( xi , yi ) sejam amostrados identicamente e independentemente distribudos de uma distribuio mapeada no espao Y (Chapelle et al., 2006). Este aprendizado bem denido, uma vez que esse mapeamento pode ser avaliado atravs do desempenho preditivo do classicador no conjunto de testes. Quando Y = R ou Y = Rd , isto , o conjunto possvel de rtulos contnuo, a tarefa chamada de regresso. Caso o conjunto de rtulos possveis seja discreto, a tarefa dita de classicao. Existem duas famlias de algoritmos para o aprendizado supervisionado. Os algoritmos generativos tentam modelar a densidade condicional das classes p( x |y) utilizando algum procedimento de aprendizado no supervisionado. A densidade preditiva pode ser inferida a partir do teorema de Bayes: p(y | x ) = p( x | y) p(y) . p( x | y) p(y)dy Y (3.1)
De fato, p( x | y) p(y) = p( x, y) representa a densidade conjunta dos dados, da qual os pares ( xi , yi ) Y podem ser gerados. J como segundo tipo de algoritmo de aprendizado supervisionado, existem os mtodos discriminativos que no tentam estimar como os xi foram gerados, mas sim focalizam em estimar p(y| x ). Alguns mtodos discriminativos at limitam-se a modelar se p(y| x ) maior ou igual a 0, 5; um exemplo disto as Mquinas de Vetor Suporte (SVM - Support Vector Machines) (Chapelle et al., 2006). Em outras palavras, a principal diferena de uma tarefa relacionada ao aprendizado supervisionado com outra concernente ao aprendizado no supervisionado reside no fato de que a primeira possui todo o conjunto de treinamento rotulado, sendo que o objetivo criar uma funo preditiva que possa generalizar a partir deste conjunto de treinamento. Por outro lado, tarefas de aprendizado no supervisionado buscam comportamentos ou tendncias nos dados, tentando agrup-los de forma que dados mais similares estejam em um mesmo grupo. Pode-se dizer que, neste caso, tais tarefas guiam-se a partir da composio intrnseca dos dados. Como uma nova vertente de pesquisa, o aprendizado semissupervisionado foi proposto, de forma a aliar os pontos
3.1 - Aprendizado de Mquina
27
positivos de cada modo de aprendizado. Nele, apenas alguns dados so rotulados, enquanto que a maioria no rotulada. O objetivo propagar o rtulo de exemplos rotulados para os exemplos no rotulados. A Figura 3.1 ilustra um esquemtico mostrando a diferena dos trs modos de aprendizado. Especicamente, na Figura 3.1a mostrada como uma tarefa de agrupamento realizada em aprendizado no supervisionado. Observe-se que no h informao alguma sobre os dados e o agrupamento realizado a partir de uma funo de similaridade entre os dados. Na Figura 3.1b ilustrado o cenrio de uma classicao semissupervisionada em aprendizado semissupervisionado. Note que alguns dados j possuem rtulos de antemo e outros no. O classicador deve propagar estes rtulos para os dados no rotulados. Por m, na Figura 3.1c explicitada uma tarefa de classicao em aprendizado supervisionado. Inicialmente, apenas os dados circulares so apresentados para o classicador, todos rotulados. Aps o mesmo induzir uma hiptese sobre aquele conjunto de dados, novos dados - explicitados pelos dados triangulares - so apresentados para o classicador decidir sobre qual classe cada um pertence. Na prxima seo, sero detalhados os conceitos sobre aprendizado semissupervisionado, o qual ser objeto de estudo no presente projeto de pesquisa.
(a)
(b)
(c) Figura 3.1: Esquemtico dos trs modos de aprendizado de mquina. Aprendizado: (a) no supervisionado (agrupamento); (b) semissupervisionado (classicao semissupervisionada); (c) supervisionado (classicao supervisionada).
28
3.2
Aprendizado Semissupervisionado: Denies, Motivaes e Modelos
Algoritmos capazes de aprender utilizando apenas alguns exemplos rotulados tm despertado o interesse da comunidade de Inteligncia Articial. O aprendizado semissupervisionado visa, dentre outras caractersticas, a reduzir o trabalho do especialista na rotulao de dados. Esta caracterstica bastante interessante principalmente quando o processo de anlise dos dados caro e demorado, como, por exemplo, em indexao de vdeo, classicao de sinais de udio, categorizao de textos, diagnsticos mdicos, dados do genoma, dentre outros (Chapelle et al., 2006). Na Subseo 3.2.1, sero exploradas as razes do aprendizado semissupervisionado. J na Subseo 3.2.2, algumas motivaes so elucidadas. Finalizando, na Subseo 3.2.3, uma formulao matemtica rigorosa apresentada.
3.2.1
Uma Breve Evoluo Histrica
Conforme a literatura indica, uma das primeiras ideias de se utilizar dados no rotulados para classicao foi no auto-aprendizado, que ocorreu em meados da dcada de 60. Este representa um algoritmo iterativo que repetidamente utiliza mtodos supervisionados a cada iterao. No seu incio, apenas so utilizados, na sua fase de treinamento, os dados previamente rotulados. medida que cada passo se conclui, uma parte dos dados no rotulados rotulada de acordo com uma funo de deciso. Aps isso, o mtodo supervisionado retreinado utilizando suas prprias predies com os dados adicionais que o mtodo rotulou nos passos anteriores (Chapelle et al., 2006). Um aspecto negativo do auto-aprendizado reside no fato de que o efeito de rotular novos dados no rotulados depende do mtodo de superviso utilizado neste aprendizado. Se o auto-aprendizado for utilizado para minimizao de riscos empricos, i.e., para descrever limites tericos para o desempenho do algoritmo, e de perdas binrias, os dados no rotulados no surtiro efeitos na soluo. Ao invs disso, se for utilizado um mtodo de maximizao marginal, como resultado, os limites de deciso sero alocados em lugares que se situam longe dos dados no rotulados (Vapnik, 1998). Um grande aplicao de auto-aprendizado pode ser encontrada para desambiguao de palavras em Yarowsky (1995). Seguindo a cronologia, o aprendizado semissupervisionado obteve um grande desenvolvimento em meados da dcada de 70, quando o problema de estimar o discriminante linear de Fisher com dados no rotulados foi analisado. Mais precisamente, o problema examinado constitua o caso em que cada densidade condicionada s classes era Gaussiana com matrizes de covarincia iguais. A probabilidade do modelo
3.2 - Aprendizado Semissupervisionado: Denies, Motivaes e Modelos
29
ento maximizada utilizando tanto os dados rotulados quanto os no rotulados com o auxlio de um algoritmo iterativo, tal como o Expectation Maximization (Dempster et al., 1977). J na dcada de 90 e na primeira dcada do sculo XXI, o interesse em aprendizado semissupervisionado cresceu no mbito de aplicaes (Chapelle et al., 2006), sendo que foi utilizado em problemas de linguagem natural, classicao de textos (Yarowsky, 1995) e anlise e desenvolvimento de tcnicas com baixas complexidade temporal e espacial (Breve et al., 2010; Callut et al., 2008).
3.2.2
Motivaes para o Aprendizado Semissupervisionado
De um ponto de vista de engenharia, claro que a coleta de dados rotulados muito mais intensa e onerosa em relao coleta de dados no rotulados. Entretanto, o propsito do aprendizado semissupervisionado vai alm de consideraes puramente utilitrias. De forma discutvel, a maioria do aprendizado natural (humano e animal) ocorre no regime semissupervisionado. No mundo em que se vive, os seres vivos esto em uma constante exposio a um uxo de estmulos naturais. Tais estmulos englobam os dados no rotulados que so facilmente perceptveis. Por exemplo, em um contexto de aquisio e reconhecimento fonolgico, uma criana exposta a muitos sons acsticos. Muitos destes sons no so familiares criana. Um feedback positivo por parte de uma outra pessoa a fonte principal de dados rotulados. Em muitos casos, uma pequena poro de feedback suciente para permitir a criana dominar o mapeamento acstico-fontico de quaisquer linguagens (Belkin et al., 2005, 2006). A habilidade humana de aprender conceitos no supervisionados, como, por exemplo, clusters e categorias de objetos, sugere que dados no rotulados podem ser utilizados de forma satisfatria para aprender invarincias naturais, para formar categorias e para construir classicadores. Em muitas tarefas de reconhecimento de padres, humanos apenas tm acesso a uma pequena quantidade de dados rotulados. Logo, o sucesso do aprendizado humano nesse pequeno conjunto de dados reconhecido, sem sombras de dvida, acontece pela efetiva utilizao de grandes conjuntos de dados no rotulados para extrair informao que til para generalizao. Consequentemente, se o objetivo for progredir no entendimento e dominao de como o aprendizado natural se processa, h a necessidade de se pensar em termos de aprendizado semissupervisionado (Belkin et al., 2004, 2006). Outra motivao para o estudo de aprendizado semissupervisionado est intrinsicamente ligada melhoria da acurcia de modelos. Em um recente trabalho proposto por Singh et al. (2008), foi denido que, utilizando uma anlise de amostras nita, se a complexidade da distribuio sob considerao for muito alta para ser aprendida por n dados rotulados, mas pequena o suciente para ser aprendida por m n dados
30
no rotulados, ento o aprendizado semissupervisionado capaz de melhorar o desempenho de uma tarefa supervisionada. Como exemplo, considere a Figura 3.2 em que os crculos escuros denotam dados rotulados, enquanto que crculos claros, dados no rotulados. Aplicando-se um algoritmo supervisionado, a fronteira de deciso seria estabelecida, muito provavelmente, nas vicinidades da linha pontilhada. De maneira anloga, algoritmos semissupervisionados xariam, com uma grande margem de certeza, a fronteira de deciso na linha contnua. No caso desse exemplo, algoritmos supervisionados no seriam capazes de ecientemente classicar os exemplos no rotulados. Por outro lado, algoritmos semissupervisionados, a partir da utilizao de dados no rotulados, poderiam obter acurcias bem superiores. Isto exatamente o que ocorre na gura, a qual mostra que o algoritmo semissupervisionado reete mais elmente a distribuio das classes. Isto decorre graas utilizao da informao dos dados no rotulados no ato do treinamento do classicador.
Figura 3.2: Motivao para o estudo de aprendizado semissupervisionado. A linha pontilhada mostra o plano decisor que divide as duas classes feita por um algoritmo supervisionado. A linha contnua denota o plano decisor gerado por um algoritmo semissupervisionado.
3.2.3
Formulao Matemtica
De uma forma geral, o aprendizado semissupervisionado pode ser denido da seguinte maneira (Chapelle et al., 2006): seja um conjunto de dados X = { x1 , x2 , . . . , xn }, dividido em duas partes, Xl = { x1 , x2 , . . . , xl } onde l < n e Xu = { xl +1 , . . . , xn }. J, Y = {1, 2, . . . , c} representa o conjunto de rtulos. Para todo exemplo xi Xl , um rtulo y j Y fornecido. Os rtulos do subconjunto Xu no so conhecidos a priori. Normalmente, l u, ou seja, a grande maioria de vrtices no possui um rtulo (Chapelle et al., 2006). Isto ocorre porque a tarefa de rotulao extremamente onerosa e deve ser feita por especialista. A Figura 3.1b ilustra um esquemtico de uma tarefa de classicao semissupervisionada. Com base nestas denies, o aprendizado semissupervisionado pode ter como funo tanto tarefas de classicao de dados, quando os exemplos rotulados so utilizados no processo de rotulao de exemplos no rotulados, quanto de tarefas de
3.2 - Aprendizado Semissupervisionado: Denies, Motivaes e Modelos
31
agrupamento. Neste ltimo caso, os exemplos rotulados so responsveis por guiar o processo de formao de clusters (Chapelle et al., 2006). Entretanto, para um adequado funcionamento das tcnicas de aprendizado semissupervisionado, algumas suposies sobre a consistncia dos dados so essenciais (Chapelle et al., 2006): Suposio de agrupamento: pontos que pertenam a uma mesma regio de alta densidade, isto , estejam localizados em um mesmo agrupamento so plausveis de pertencerem a mesma classe. Esta suposio tambm referenciada como suposio de variedade, onde assume-se que dados pertencentes a uma mesma variedade tambm so rotulados com a mesma classe. Suposio de suavidade: pontos prximos no espao de atributos so provveis de pertencerem a mesma classe. Esta suposio fora que a funo responsvel por rotular seja mais suave em regies de alta densidade do que em regies de baixa densidade. Fica claro o porqu desta restrio: basta pensar que, em regies onde existam vrios pontos adjacentes, mais provvel que estes pertenam mesma classe; logo, caria incoerente ter uma funo que mudasse rapidamente de sada para estas regies. Esta anlise vai ao encontro com a suposio de agrupamento e as duas, portanto, se complementam. Suposio de existncia de manifolds: Tal ideia se embasa na premissa que um conjunto de dados em alta dimenso pode ser, de forma aproximada, reduzido a um espao de menor dimenso (manifold dos dados). Esta hiptese normalmente seguida para amenizar o problema da maldio da dimensionalidade. Tal problema relativo ao fato que o volume do espao aumenta exponencialmente com o nmero de dimenses, e um nmero exponencialmente maior de exemplos necessrio para induo de classicadores com o mesmo poder de acurcia. A forma como os algoritmos de aprendizado semissupervisionado tratam essas suposies de consistncia representa uma das diferenas fundamentais entre eles. Vrios algoritmos de aprendizado semissupervisionado foram propostos (Chapelle et al., 2006; Zhu, 2005a), sendo que grande parte destes utiliza como base algum algoritmo que foi projetado como tcnica de aprendizado supervisionado ou no supervisionado, o qual modicado para tratar dados rotulados e no rotulados. Como exemplo: COP K-Means (Wagsta et al., 2001) e outros, que so modicaes do K-Means; SVM transdutiva (Cortes e Vapnik, 1995; Vapnik, 1998), que uma extenso da tcnica SVM (Vapnik, 1999); algoritmos baseados em Expectation Maximization (Nigam et al., 2000); dentre diversos outros (Chapelle et al., 2006; Zhu, 2005b). Outra abordagem interessante utilizada pela tcnica denominada Co-Training. O Co-Training visa a rotular automaticamente mais exemplos a partir de um pequeno con-
32
junto previamente rotulado. Esta tcnica se baseia na cooperao de dois algoritmos de aprendizado supervisionado, sendo que a ideia principal consiste em um classicador rotular exemplos que so utilizados pelo segundo classicador e vice-versa (Blum e Mitchell, 1998; Goldman e Zhou, 2000). Desta forma, espera-se aumentar a preciso de classicao quando comparado com a aplicao direta de uma tcnica de aprendizado supervisionado.
3.3
Abordagens de Aprendizado Semissupervisionado
A diviso de abordagens que os algoritmos de aprendizado semissupervisionado podem tomar difere muito entre autores. Neste documento, a diviso de classes ser elencada baseando-se em Chapelle et al. (2006). Em termos gerais, existem trs tipos: os modelos generativos, explorados na Subseo 3.3.1, os mtodos de separao por regies de baixas densidades, vistos na Subseo 3.3.2, e os mtodos baseados em grafos, detalhados na Subseo 3.3.3. Dentre essas abordagens, o desenvolvimento de tcnicas baseadas em grafos tem, nos ltimos anos, obtido maior ateno (Chapelle et al., 2006; Zhu, 2005a). Nas prximas sees, sero analisadas essas abordagens em detalhes, com ateno especial para a ltima.
3.3.1
Modelos Generativos
A inferncia por modelos generativos envolve a estimao da densidade condicional p( x | y). Nesta abordagem, qualquer informao adicional correspondente natureza de p( x ) de extrema valia. Para efeitos didticos, suponha, por exemplo, que p( x | y) seja Gaussiano (Chapelle et al., 2006). Ento, pode-se utilizar o algoritmo Expectation Maximization para encontrar os parmetros concernentes distribuio geradora da Gaussiana para cada classe do problema. A nica diferena entre o famoso algoritmo Expectation Maximization padro, aquele utilizado para agrupamento, e o em estudo resta no fato de que as variveis desconhecidas associadas a cada exemplo rotulado, na verdade, no so a priori desconhecidas, ou seja, so sabidas e devem ser iguais aos rtulos das classes j pr-denidos ao longo de todo o processo de otimizao do Expectation Maximization (Zhu e Goldberg, 2009). Vale frisar que a suposio de clusters deve ser cumprida, a m de que o mtodo gere resultados coerentes. Um ponto forte da abordagem generativa que o conhecimento da estrutura do problema ou dos dados pode ser facilmente incorporado ao modelo. De acordo com Ratsaby e Venkatesht (1995), os dados rotulados corretamente so exponencialmente mais efetivos para a minimizao do erro de classicao do que os dados no rotulados. J para o caso de dados no rotulados, conforme Shahshahani e Landgrebe (1994) indica, estes podem degradar o desempenho de classicadores utilizando esta aborda-
3.3 - Abordagens de Aprendizado Semissupervisionado
33
gem se forem introduzidos apenas dados outliers, ou, em outras palavras, dados que so muito diferentes que os outros da sua classe. Nota-se, portanto, que as tcnicas que utilizam esta abordagem so, de maneira geral, muito sensveis aos dados rotulados e no rotulados. Uma pr-anlise deve ser efetuada antes de proceder s simulaes computacionais desses algoritmos, visto que rudos podem degradar consideravelmente o desempenho nal do algoritmo (Alpaydin, 2004; Chapelle et al., 2006; Grtner, 2008; Zhu e Goldberg, 2009).
3.3.2
Mtodos de Separao por Regies de Baixa Densidade
Nesta abordagem, os algoritmos buscam implementar a suposio de baixa densidade interclasse por meio do afastamento dos limites de deciso (hiperplanos de deciso) dos dados no rotulados (Chapelle et al., 2006). O mtodo mais comum para atingir esse objetivo consiste em utilizar o algoritmo de maximizao marginal, tal como as SVMs transdutivas. Entretanto, salienta-se que tal problema de maximizao , na maioria dos casos, no convexo e, portanto, apresenta srias diculdades na sua otimizao, tendo em vista que encontrar o melhor hiperplano que maximize a distncia total no trivial (Zhu e Goldberg, 2009). Algumas alternativas, com o intuito de resolver esses problemas de maximizao no convexa, foram propostas na literatura (Alpaydin, 2004; Chapelle et al., 2006; Cortes e Vapnik, 1995; Zhu e Goldberg, 2009). Por exemplo, em Vapnik (1998), inicia-se de uma soluo da SVM treinada apenas com os dados rotulados, e, conforme cada iterao avana, os dados no rotulados so rotulados por meio de predies da SVM. O processo refeito com os novos dados rotulados at se atingir alguma condio de parada especca. Cada iterao conduzida de forma que os pesos dos dados no rotulados utilizados na maximizao so sucessivamente incrementados. Como outro exemplo, o trabalho proposto em De Bie e Cristianini (2004) discute uma abordagem alternativa baseada na relaxao convexa do problema de otimizao associada em SVM transdutivas.
3.3.3
Mtodos Baseados em Grafos
Durante os ltimos anos, a rea mais ativa de pesquisa no campo de aprendizado semissupervisionado foi a relacionada a mtodos baseados em grafos ou redes. O ponto comum das tcnicas que utilizam essa abordagem consiste no fato de utilizarem os dados como sendo os vrtices da rede, enquanto que ligaes entre os dados existem, dependendo da funo de similaridade escolhida, bem como da rotulao dos vrtices (Chapelle et al., 2006). Uma das vantagens salientes da utilizao de grafos para a anlise de dados est na habilidade de revelar a estrutura topolgica entre o conjunto de dados. Por exemplo, considere uma tarefa de classicao semissupervisionada em
34
um problema binrio, conforme mostrada na Figura 3.3a, em que as classes possuem distribuio com formato de bananas e apenas dois dados foram pr-rotulados. O resultado da tcnica SVM dado na Figura 3.3b, enquanto que o resultado da tcnica k-vizinhos mais prximos (kNN) mostrado na Figura 3.3c. Considere que a classicao ideal dada na Figura 3.3d. Em ambos os resultados anteriores, os algoritmos no foram capazes de encontrar as classes corretamente. A utilizao de grafos nesse tipo de problema pode revelar a estrutura topolgica entre os dados, permitindo, assim, a deteco de classes e grupos com formatos arbitrrios (Karypis et al., 1999; Zhou et al., 2003).
Figura 3.3: Motivao para utilizao de grafos. (a) Problema inicial para classicao semissupervisionada. (b) Resultado obtido aplicando SVM. (c) Resultado obtido aplicando kNN. (d) Resultado ideal. Figura extrada de Zhou et al. (2003).
O aprendizado semissupervisionado baseado em redes comea pela construo do l grafo a partir do conjunto de treinamento. Matematicamente, sejam {( xi , yi )}i=1 o conjunto de vrtices rotulados e { x j }lj+u+1 , o conjunto de vrtices no rotulados. Cla=l ramente, a rede ser de larga escala se l + u, o nmero de instncias rotuladas e no rotuladas, for grande. Perceba que, uma vez que a rede seja construda, o processo de aprendizado envolver designar o valor yt para todo vrtice no rotulado xt . Isto possvel por meio da informao que as arestas, as quais interconectam os vrtices, transportam (Chapelle et al., 2006). de extrema valia mencionar que, em contraste com as tcnicas tradicionais que se utilizam de tabelas atributo-valor para conduzir suas anlises sobre os dados, a utilizao de grafos utiliza diretamente a informao da vizinhana para analisar os dados. Conforme explicitado em Zhu (2005b), isto pode gerar mais robustez e eccia na construo de classicadores.
35
Quanto natureza das arestas, a literatura indica que podem ser direcionadas (dgrafos), no direcionadas, com peso, entre outros tipos. Na maioria dos problemas, normalmente, as arestas so consideradas no direcionadas (um contraexemplo so os links de pgina web). O peso da aresta wij entre dois vrtices xi e x j pode representar, por exemplo, a similaridade entre essas duas instncias. Neste caso, a ideia que se wij for grande, ento os dois rtulos de yi e y j so esperados de serem o mesmo. Observe aqui a conexo com a suposio de suavidade, porm com representao distinta: ao invs de regies de alta densidade, aqui considera-se o peso wij . Portanto, de extrema importncia a designao correta dos pesos das arestas do grafo, pois esses traduzem as relaes entre o conjunto de dados para a representao em grafo. Os pesquisadores da rea especicam os pesos das arestas a partir de heursticas bem conhecidas, algumas das quais so elencadas a seguir. Reitera-se que a lista apresentada ca longe de ser exaustiva. Rede completamente conectada: cada par de vrtices xi , x j conectado por uma aresta. O peso da aresta decresce medida que a distncia xi x j aumenta. Uma funo de peso popular dada por: xi x j 22
2
wij = exp
(3.2)
onde conhecido como o parmetro de comprimento de banda e faz o papel de controlar a velocidade na qual os pesos so decrementados, conforme cada unidade de distncia aumenta. Este peso tem a mesma forma que uma funo Gaussiana, e, por isso, esta funo tambm intitulada como kernel Gaussiano ou kernel RBF (do ingls - Radial Basis Function). Esse peso equivale um quando xi = x j e zero quando xi x j (Zhou e Schlkopf, 2004). Um exemplo bem utilizado para calcular a distncia xi x j a funo de Minkowski para um p xo, cuja expresso satisfaz:
d
1 p
d ( xi , x j ) = xi x j =
k =1
|xik x jk |2
(3.3)
em que d representa a dimenso dos dados. Claramente, pode-se vericar que, quando p = 2, a Equao (3.3) reduz-se ao caso Euclidiano. Adicionalmente, quando p = 1, a Equao (3.3) torna-se a de Manhattan. A ltima normalmente utilizada em problemas geogrcos de rodovias, corridas de txis, entre outros (Duda et al., 2000). Rede k-vizinhos mais prximos (kNN): cada vrtice dene seus k vizinhos mais prximos a partir de uma distncia de similaridade, tal como a Euclidiana. Vale
36
notar que, em um grafo dgrafo, se xi estiver entre os k vizinhos mais prximos de x j , o contrrio no necessariamente verdade, isto , x j pode no estar entre os k vizinhos mais prximos de xi . Haver uma conexo, portanto, entre xi e x j , caso qualquer um dos dois estiver na vizinhana dos k mais prximos um do outro. Se xi e x j no forem conectados, ento wij = 0. O mtodo de construo kNN naturalmente adapta-se s densidades das instncias no espao gerado pelo domnio das caractersticas. Em outras palavras, em uma regio densa, o raio de vizinhana kNN ser pequeno, j que, por suposio, existem vrios vrtices pertos uns dos outros, enquanto que, em uma regio esparsa, este raio de vizinhana tende a ser maior em relao ao anterior. Empiricamente, as redes kNN com valores de k pequenos cumprem satisfatoriamente seus papis (Chapelle et al., 2006). Redes -radius: conectam-se xi e x j se xi x j , onde representa o tamanho da vizinhana desejado. As arestas podem ser tanto sem peso ou com peso. No ltimo caso, geralmente, utiliza-se a prpria similaridade entre os dois dados. Se xi e x j no estiverem conectados, ento wij = 0. Nota-se, nesta composio, que um pequeno aumento em pode surtir uma grande elevao do grau mdio da rede, dado que a rede no apresenta muitos dados dispersados. Em contraste, para uma rede dispersa, um alto valor de ser necessrio, ou incorre-se o risco da rede ter muitos componentes separados (Alpaydin, 2004). De uma forma geral, os mtodos baseados em redes podem ser caracterizados como tcnicas transdutivas (Zhu, 2005a), isto , o algoritmo visa a obter um valor para cada vrtice no rotulado sem a necessidade de gerar (induzir) uma funo global de mapeamento entrada-sada para os dados. Dentre as principais vantagens destas tcnicas, podem ser citadas (Chapelle et al., 2006; Zhu, 2005a): Representam agrupamentos com formas variadas; No dependem explicitamente de uma funo de distncia; Facilitam a representao de bases com mltiplas classes; Alguns problemas so originalmente representados por redes, por exemplo: dados de conexes entre sites, redes de interaes de protenas, etc; Dentre outras. A seguir, sero resumidas algumas tcnicas representativas de aprendizado semissupervisionado baseado em redes.
37
Classicador de Regularizao Local e Global
Nesta seo, ser analisado o classicador de Regularizao Local e Global (Zhou et al., 2003), pioneiro na rea e um dos responsveis por alavancar as pesquisas no ramo de aprendizado semissupervisionado baseado em redes. Tal classicador considera o problema geral de aprendizado de dados rotulados e no rotulados por meio da construo de uma funo de classicao que sucientemente suave com respeito estrutura intrnseca que revelada pelos dados rotulados e no rotulados. Antes de adentrar nos conceitos especcos da tcnica supracitada, vlido registrar alguns pontos fundamentais que esta tcnica tem em comum com outros mtodos baseados em minimizao de energia. Em termos gerais, tais tcnicas objetivam a minimizao de uma expresso de custo, constituda essencialmente por duas funes que modelam aspectos distintos do conjunto de dados em anlise, quais sejam: (i) funo de perda: objetiva penalizar o algoritmo para decises em que os dados j prrotulados tem seus rtulos modicados ao longo do processo de propagao. Em termos prticos, para minimizar este termo, basta evitar a mudana de rtulos de vrtices pr-rotulados; e (ii) funo regularizadora: responsvel por modelar o custo de propagar rtulos a dados ainda no previamente rotulados. Tendo em vista a suposio de suavidade, tal funo deve ser suave em regies densas da rede. Vistos estes pontos em comum, o Classicador de Regularizao Local e Global agora apropriadamente explanado. Vale notar que esta seo foi baseada em sua maior parte em Zhou et al. (2003). Dado um conjunto de pontos X = { x1 , . . . , xl , xl +1 , . . . , xn } Rm e um conjunto de rtulos L = {1, . . . , c}, os primeiros l pontos xi (i l) so previamente rotulados como yi L, enquanto que os pontos remanescentes xu (l + 1 u n) no esto rotulados. A meta rotular este segundo conjunto de vrtices com base em alguma funo de classicao. Considere que denote o conjunto de matrizes de dimenses n c, todas com enT T tradas no negativas. Uma matriz F = [ F1 , . . . , Fn ] T corresponde a uma classicao dos itens de dados X, de tal forma que, a cada dado no rotulado xi , designado um rtulo a partir da expresso yi = arg max Fij . Pode-se entender F como sendo uma funo vetorial F : X que atribui um vetor Fi para cada dado xi , isto , para cada dado, o algoritmo mantm o nvel de pertinncia para cada rtulo possvel, sendo que, este dado recebe, ao m das iteraes, aquele rtulo cujo nvel de pertinncia o maior. Dena tambm uma matriz Y de dimenses n c com Yij = 1 se xi estiver rotulado como yi = j e atribua Yij = 0, caso contrrio. Claramente, Y consistente com os rtulos iniciais, uma vez que isto manualmente feito pelo algoritmo na primeira iterao e cada rtulo fornecido pelo usurio. O algoritmo procede da seguinte forma (Zhou et al., 2003): 1. Crie a matriz de anidade W, a qual denida por Wij = exp(
xi x j 22
2
Rc
jc
) se i = j e
38
Wii = 0, caso contrrio. 2. Construa a matriz S = D 2 WD 2 , na qual D uma matriz diagonal com sua entrada (i, i ) equivalente soma da i-sima linha de W 3. Itere F (t + 1) = SF (t) + (1 )Y at que convirja, onde representa um parmetro entre (0, 1). 4. Considere que F denote o limite da sequncia { F (t)}. Ento, rotule cada dado xi seguindo a frmula: yi = arg max Fij .
jc
1 1
Em Zhou et al. (2003) foi demonstrado que tal sequncia { F (t)} converge e que tambm a soluo do problema de propagao de rtulos assume uma frmula fechada dada por: F = lim F (t) = ( I S)1 Y.
t
(3.4)
Com a Equao (3.4), ca vivel encontrar a soluo tima F sem nenhuma iterao, bastando apenas realizar a inverso matricial. Alm disso, esta equao mostra que o resultado nal da iterao, depois de convergido, no depende das condies iniciais do problema (Smola e Kondor, 2003). importante notar tambm que este algoritmo, com o propsito de obter a soluo tima, deve realizar uma tarefa de inverso de matrizes, incorrendo, portanto, em uma complexidade temporal custosa, O(V 3 ). Assim, para redes de grande escala, esta tcnica no vivel. De acordo ainda com Zhou et al. (2003), esses realizaram uma deduo de um framework de regularizao motivados pelo algoritmo supracitado. Este framework visa minimizao de uma funo de custo que, na esfera fsica, pode ser entendida como uma funo de energia. Tal funo, denotada aqui por F, denida como: C( F) = 1 1 Wij D Fi 2 i,j=1 ii
n
1 Fj D jj
+ Fi Yi 2 ,
i =1
(3.5)
onde > 0 o parmetro regularizador. Neste caso, a funo de classicao ca: F = arg min C ( F ).
F
(3.6)
O primeiro termo da Equao (3.5) traduz-se como uma restrio de suavidade, signicando que uma boa funo classicadora no deve mudar muito de valor entre dados prximos. exatamente a denio de uma funo regularizadora. J o segundo termo simboliza uma restrio de ajuste, relatando que uma boa funo classicadora tambm no deve mudar muito os rtulos dos vrtices inicialmente rotulados. Neste
39
caso, tal termo encaixa-se perfeitamente na descrio de uma funo de perda. O contrapeso entre estas duas quantidades conitantes indicado pelo parmetro positivo . Observe que a restrio de ajuste contm tanto dados rotulados quanto no rotulados (Zhou et al., 2003). Matematicamente falando, ca fcil evidenciar a restrio de suavidade da Equao (3.5), bastando notar que um grande valor de Wij , que acontece quando os dados so
2
bem similares, deve ser nulicado ou minimizado por uma norma
1 Fi Dii
1 Fj D
jj
reduzida; e, para conseguir tal fato, as entradas Fi e Fj devem ser prximas, ou seja, necessitam ter os mesmos rtulos dominantes. Quanto ao segundo termo, com o intuito de minimiz-lo, ca claro que no constitui uma boa mudana, a priori, trocar os rtulos dos vrtices que foram inicialmente rotulados, incorrendo no risco, caso os troquem, de uma penalidade indicada por uma aumento desta funo de custo, j que, neste caso, Fi = Yi .
Regularizador por Manifolds
A tcnica proposta por Belkin et al. (2006) baseia-se em uma famlia de algoritmos de aprendizado fundamentados em uma nova forma de regularizao, que permite a explorao da geometria da distribuio marginal dos dados. Em especco, a principal contribuio do trabalho em comento a unicao de trs conceitos, antes tratados independentemente, em um framework genrico. Tais conceitos so listados abaixo. O primeiro deles se remete teoria espectral de grafos (Chung, 1997) que j foi aplicada em uma ampla gama de tarefas de classicao e agrupamento. Tais mtodos, tipicamente, reduzem-se anlise dos autovalores do laplaciano do grafo. O segundo conceito origina-se do ponto de vista geomtrico dos dados. Tal abordagem toma como hiptese a existncia de manifolds nos dados. Esses mtodos tentam usar a distribuio de probabilidades gerada por essa geometria para a construo de manifolds de Riemann (Weinberger e Saul, 2006). O terceiro conceito embasa-se no conjunto de ideias que norteiam regularizadores em espaos de Hilbert (Smola e Kondor, 2003). Isto leva a uma classe de algoritmos baseados em kernels para classicao e regresso. Tecnicamente, os frameworks, at ento propostos, aliceravam-se apenas sobre dois termos, em relao composio da funo de energia, quais sejam: a funo de perda e a funo regularizadora (como, por exemplo, a tcnica que foi vista anteriormente). J o framework em Belkin et al. (2006) inaugura um terceiro termo, o qual responsvel
40
pelo aprendizado baseado em manifolds. Manifold denido como um espao topolgico de dimenso menor que o espao original dos dados, cuja transformao feita preservando as caractersticas locais dos dados. Matematicamente, a funo de energia expressa por (Belkin et al., 2006):
f = arg min
1 l V ( xi , yi , f ) + A f f HK l i =1
2 K
+ I f
2 I,
(3.7)
onde f 2 um termo penalizador que reete a estrutura geomtrica da distribuio I marginal dos dados. Intuitivamente, f 2 um penalizador suave correspondendo a I distribuio probabilstica dos dados. Por exemplo, se for possvel a reduo da distribuio probabilstica para um manifold, ento f 2 poder penalizar f neste novo esI pao. A controla a complexidade da funo classicadora no espao ambiente (espao original dos dados), enquanto que I controla a complexidade da funo classicadora perante a geometria dos dados oriunda da probabilidade marginal dos mesmos. Em termos sucintos, o primeiro termo a funo de perda, a qual penaliza modicaes de rtulos de dados j pr-rotulados; o segundo termo um regularizador, o qual penaliza rotulaes no suaves entre dados prximos no espao original dos dados; e o terceiro termo um outro regularizador, o qual penaliza rotulaes no suaves em um espao de menor dimenso dos dados (manifold), gerado a partir da distribuio marginal. Os coecientes A e I so incumbidos de dar maior ou menor importncia aos dois ltimos termos regularizadores, dependendo de suas magnitudes. Embora a tcnica seja uma framework genrico dependente dos dados, pode ser observado que ela sofre de alguns inconvenientes, quais sejam: (i) erro de generalizao e convergncia: o problema crucial de anlise do erro de generalizao como uma funo dos dados rotulados e no rotulados no foi apresentado; (ii) a seleo do modelo envolve a escolha de muitos parmetros, alguns dos quais altamente dependentes dos dados em anlise; (iii) o framework proposto tem ordem de complexidade cbica em funo do nmero de exemplos. Escalabilidade e aplicaes em problemas reais so, portanto, limitadas.
Classicador Semissupervisionado Guiado pela Medida de Modularidade
Nesta seo, ser discutida uma tcnica recentemente proposta em Silva e Zhao (2011a). A principal ideia desse mtodo consiste em uma modicao estrutural do algoritmo de otimizao de modularidade para o paradigma de aprendizado semissupervisionado, algoritmo o qual foi originalmente proposto para o aprendizado no supervisionado (Clauset, 2005; Newman, 2006). Em termos gerais, o algoritmo cria uma rede utilizando o conjunto de dados de entrada e, a partir de modicaes re-
41
alizadas no prprio processo de otimizao de modularidade, realiza a classicao semissupervisionada por meio da propagao de rtulos articiais. Inicialmente, dada uma breve descrio do algoritmo cuja tcnica em apreo obteve inspirao: o mtodo de deteco de comunidades via otimizao da modularidade (Clauset, 2005; Newman, 2006). Sumariamente, a medida de modularidade quantica a qualidade de um particionamento da rede. Pequenos valores representam redes totalmente aleatrias, enquanto que valores altos indicam a presena de comunidades na rede em anlise. Matematicamente, ela calculada a partir da expresso:
Q=
ki k j 1 ei,j 2m 2m i,j
( c i , c j ),
(3.8)
onde m representa o nmero total de arestas na rede; k i o grau do vrtice i; ( x, y) a funo Delta de Kronecker, que produz 1 se x = y e 0, caso contrrio; eij caracteriza a frao de arestas que une as comunidades i e j. Em adio a isso, a matriz responsvel por quanticar o potencial incremento de duas comunidades i e j, caso sejam fundidas em uma nica comunidade, dada por (Clauset et al., 2004):
Qij =
1 2m
ki k j , (2m)2
se i e j estiverem conectadas caso contrrio
0,
(3.9)
No algoritmo original proposto em Clauset (2005), a cada iterao, duas comunidades, diga-se i e j, so fundidas, de tal forma que ocorra o maior incremento (ou menor decremento) da modularidade da rede. Na sua congurao inicial, cada vrtice uma comunidade. Uma propriedade interessante do processo de otimizao que, uma vez que todas as entradas da matriz Q sejam negativas, fuses subsequentes sempre geraro novas matrizes Q com todas as entradas negativas. Neste processo de otimizao, nenhuma restrio quanto s comunidades a serem fundidas estabelecido. De forma a adaptar o algoritmo de otimizao de modularidade para o contexto de aprendizado semissupervisionado, sero realizadas as seguintes modicaes: Passo I Inicialmente, existem | L| vrtices rotulados na rede. A tarefa consiste em propagar esses rtulos para vrtices no rotulados. Uma vez que um vrtice no rotulado recebe um rtulo, este no pode ser mais mudado. Passo II A cada passo, sero fundidas as comunidades (no comeo, cada comunidade engloba apenas um vrtice) de tal forma que a modularidade maximizada. Entretanto, tal fuso sujeita a algumas restries: com o intuito de imitar a propagao de rtulos na rede, uma fuso apenas ocorrer se pelo menos uma das
42
comunidades a serem fundidas j foi rotulada anteriormente. Suponha que as comunidades ci e c j foram selecionadas para serem fundidas no passo atual, cada l qual carregando os rtulos ci e clj (considere que denote uma classe sem rtulos), ento um dos quatro casos a seguir deve acontecer:
l l Caso 1 A fuso no ocorre se ci = clj , desde que ci = e clj = . Este caso representa um confronto entre os limites de duas comunidades diferentes que foram anteriormente rotuladas. l l Caso 2 A fuso ocorre se ci = e clj = , ou ci = e clj = . Este caso representa a propagao de rtulos tradicional de uma comunidade rotulada a outra l l comunidade sem rtulo. clj recebe o rtulo de ci no primeiro caso, e ci recebe o rtulo de clj no segundo caso. l l Caso 3 A fuso ocorre se ci = clj , desde que ci = e clj = . Neste caso, o processo de fuso apenas coloca duas comunidades da mesma classe juntas, maximizando a modularidade. l Caso 4 A fuso no ocorre se ci = e clj = , uma vez que nenhum rtulo est sendo propagado.
Se a fuso no ocorrer, ento as prximas duas comunidades que oferecerem o segundo maior incremento de modularidade so selecionadas para serem potencialmente fundidas, i.e., o Passo II realizado novamente, e assim sucessivamente, at que uma fuso vlida ocorra. Tendo em vista que o coeciente de modularidade tenta maximizar o nmero de arestas entre vrtices da mesma comunidade, enquanto que, concomitantemente, tenta minimizar esta quantidade entre diferentes comunidades, tal dinmica propagar os rtulos de tal forma a manter a caracterstica supracitada. Aqui, estabelecido como hiptese a suposio de clusters, a qual premedita que uma classe naturalmente um cluster. Desta forma, o algoritmo modicado de otimizao de modularidade executa o trabalho de propagar os rtulos de uma forma otimizada, i.e., as fuses e propagaes de rtulos ocorrem de forma que uma classe ou comunidade que fortemente conectada e classes ou comunidades diferentes quem esparsamente conectadas. O algoritmo naliza quando todos os vrtices no rotulados forem devidamente rotulados, desconsiderando, para todos os efeitos, o valor da modularidade da rede atual, j que no buscada uma boa diviso da rede, mas sim uma forma ordenada de rotulao de vrtices, a qual satisfeita naturalmente pelo mecanismo de otimizao da modularidade. Uma anlise da convergncia foi conduzida em Silva e Zhao (2011a) e foi provado que o algoritmo sempre converge. Em termos tcnicos, o algoritmo apresentado no paramtrico, o que uma vantagem sobre a maioria dos mtodos propostos na literatura. Mais ainda, simulaes foram conduzidas e foi demonstrado, de
43
forma positiva, a capacidade do modelo frente a dados de bases de dados reais. Por m, alm do classicador semissupervisionado guiado pela otimizao da modularidade, os autores em Silva e Zhao (2011a) propuseram um esquema de reduo da rede, de forma que o algoritmo possa ser aplicvel a redes de larga escala.
D-Walks
Uma outra tcnica que pertence ao aprendizado semissupervisionado intitulada pelos autores criadores de D-Walks, que recentemente foi proposta por Callut et al. (2008), ser objeto de estudo detalhado nesta seo. Uma vez que esta tcnica embasase na teoria das cadeias de Markov, vlido deni-las formalmente a seguir. Denio 1. Cadeias de Markov de Tempo Discreto: Uma cadeia de Markov de Tempo Discreto denida como um processo estocstico { Xt |t N}, onde a varivel aleatria X toma um valor especco para cada tempo discreto t em um conjunto contvel pr-denido , denominado espao de estados, de tal forma que: P [ X t = q | X t 1 , X t 2 , . . . , X0 ] = P [ X t = q | X t 1 ] . (3.10)
Heuristicamente, o aspecto crtico de um modelo de Markov que tal processo, conforme avana no tempo, o mesmo esquece sobre seus estados passados, com exceo do imediatamente anterior. Uma caminhada aleatria em uma cadeia de Markov pode ser denida da seguinte forma: um caminhante aleatrio inicia em um estado q, de acordo com uma distribuio p0 conhecida. Logo aps, ele se move para algum estado q , respeitando a matriz probabilstica de transio P. Repetindo esta ltima operao k vezes, resultase em uma caminhada aleatria de k passos. Em termos matemticos, a matriz que representa a matriz de transio de k-passos representada por Pk , caso a caminhada seja homognea (Szummer e Jaakkola, 2001). O conjunto destes passos no decorrer do tempo em um processo estocstico denomina-se realizao do processo (Meyn e Tweedie, 2009). Em uma cadeia de Markov, um estado q dito ser absorvente se existe a probabilidade de valor 1 de ir de q para ele mesmo. Em outras palavras, uma vez que o estado absorvente seja atingido em uma caminhada aleatria, o caminhante no mais sair daquele estado pelo resto dos passos subsequentes. Uma cadeia de Markov a qual possui probabilidade 1 em terminar em um estado absorvente classicada como uma cadeia de Markov absorvedora. Em tal modelo, o conjunto de estados pode ser dividido em um conjunto de estados absorventes, denotado por A e seu conjunto complementar, denominado conjunto de estados transientes, denotado por T = \ A . A funo tempo de passagem, medida de suma importncia nesta tcnica, conta o nmero de vezes que um dado vrtice foi visitado em uma caminhada aleatria (Callut et al., 2008). Matematicamente, ela denida por:
44
Denio 2. Tempo de Passagem: Dada uma cadeia de Markov, M = , P, p0 , o tempo de passagem uma funo pt : N, tal que pt(q) o nmero de vezes que o processo atinge o estado q em uma realizao. O tempo de passagem mdio denota a esperana do tempo de passagem, ou seja, E[ pt(q)]. O tempo de passagem mdio, pois, claramente innito para estados absorventes, j que uma vez atingido ele nunca mais sai do mesmo. Para estados transientes, o tempo de passagem mdio pode ser obtido a partir da matriz fundamental, dada por N = ( I PT )1 , onde I representa a matriz identidade | XT | | XT | (inlar, 1975). A entrada nq q contm o tempo mdio de passagem do estado q T durante caminhaT T das aleatrias comeando no estado q . Desta forma, E[ pt(q)] = [ p0 N ]q , onde p0 a transposta do vetor de probabilidades inicial reduzido apenas para os estados transientes . Mister se faz registrar que a esperana calculada sobre todas as caminhadas aleatrias de qualquer tamanho (positivo). A D-Walk, em termos gerais, denida como uma caminhada aleatria que comea em um vrtice rotulado e termina em um vrtice cuja classe igual ao do primeiro vrtice em que se iniciou a caminhada. Tal ideia rigorosamente fornecida na Denio 3. Denio 3. D-Walk: Dada uma cadeia de Markov denida no conjunto de estados e uma classe y Y, uma D-Walk uma sequncia de estados q0 , q1 , . . . , ql tal que yq0 = yql = y e yqt = y para todo 0 < t < l. A notao D y refere-se ao conjunto de todas as D-Walks que comeam e terminam em um vrtice da classe y. A funo betweenness B(q, y) mede quantas vezes um vrtice q U se localiza entre os vrtices da classe y Y. O betweenness B(q, y) formalmente denido como o nmero esperado de vezes que um vrtice q encontrado durante D y -walks, conforme pode ser observado na Denio 4. Denio 4. Betweenness de uma D-Walk: Dado um vrtice no rotulado q U e uma classe y Y, a funo de betweenness para D-Walks U Y R+ denida como: B(q, y) E[ pt(q)| D y ]. (3.11)
Agora, apresentam-se duas motivaes para limitar as D-Walks: (i) complexidade algortmica: fcil vericar que o tempo para o clculo do betweenness exato da ordem de O(n3 ), em virtude da realizao da tarefa de inverso de matrizes, especicamente para encontrar a matriz fundamental N, a qual essencial no clculo. (ii) A segunda motivao cumpre papel precpuo na anlise e reside no fato de que se for prolongado muito uma D-Walk, o caminhante acabaria por sair da regio de interesse, isto , da regio em que os vrtices da sua prpria classe esto localizados, e comearia a inuenciar no betweenness de vrtices mais longnquos, degenerando a taxa de classicao correta. A Denio 5 mostra precisamente a denio de D-Walks limitadas.
45
Denio 5. Betweenness de D-Walks limitadas: Dado um vrtice no rotulado q U e uma classe y Y, a funo de betweenness para D-Walks limitadas U Y R+ denida como: B(q, y) E[ pt(q) | D L ],
y
(3.12)
onde D L representa todas as D-Walks limitadas at o tamanho L. A restrio de limitar o tamanho da caminhada introduz dois grandes benefcios, como j discutidos anteriormente: (i) melhores resultados de classicao so sistematicamente obtidos no que tange a caminhadas de tamanhos quaisquer (at o innito), (ii) a medida de betweenness pode ser calculada de maneira eciente. O betweenness com caminhadas sem limites de tamanho pode ser aproximado para um de caminhadas limitadas de tamanho, considerando grandes, mas nitos, valores de L. Mais precisamente, podese provar que o betweenness de caminhadas limitadas no tamanho converge em tempo geomtrico no que diz respeito ao parmetro L para o seu valor exato, ou seja, aquele cujas caminhadas no possuem restries de tamanho (Callut et al., 2008). A tcnica aplicada a todos os pares de vrtices da rede pr-rotulados. O clculo do betweenness em D-Walks limitadas pode ser realizado utilizando variveis forward e backward, similares quelas propostas pelo algoritmo de Baum-Welch (Zhai, 2006). Uma vez calculados todos os betweenness dos vrtices no rotulados, estes so classicados seguindo uma regra de deciso de maximizao da a priori do betweenness de cada classe. Neste caso, a distribuio a priori P[y] utilizada ser a proporo estimada de vrtices da classe y. Portanto, o rtulo de um vrtice q U classicado utilizando a seguinte equao:
yq = arg max P [q|y] P[y].

y Y
(3.13)
Os autores em Callut et al. (2008) realizaram vrias simulaes com bases de dados reconhecidas na comunidade, tais como IMDb, CORA, WebKB e obtiveram, de maneira geral, resultados de classicao superiores aos algoritmos clssicos da rea, como o Regularized Laplacian (Zhu et al., 2003), Net Kit (Macskassy e Provost, 2005) e de Zhou et. Al (Zhou e Schlkopf, 2004), para vrias propores iniciais de vrtices rotulados. No entanto, verica-se no trabalho original que o clculo do timo L feito apenas empiricamente por meio de fora bruta, o que acaba por aumentar a complexidade temporal do mtodo. Uma anlise terica do L timo ainda constitui um problema interessante em aberto.
46
Caminhadas Aleatrias Markovianas sem Restrio
Os autores em Szummer e Jaakkola (2001) propuseram uma tcnica de classicao semissupervisionada baseada puramente em caminhadas aleatrias sem restries. Neste contexto, a caminhada aleatria baseada em uma mtrica local apropriada. Usualmente, tal mtrica faz uso da informao topolgica da rede, no caso, a vizinhana local do item de dado, aqui concebido como um vrtice. A partir dessa mtrica, a matriz de transio probabilstica montada a partir da seguinte expresso:
P(i, j) =
ai,j , V u=0 ai,u
(3.14)
onde P(i, j) denota a probabilidade de o caminhante realizar uma transio do vrtice i para o j; ai,j indica a similaridade atribuda, a partir da mtrica escolhida, aos vrtices i e j. No trabalho original, a mtrica utilizada o kernel Gaussiano (Chapelle et al., 2006). A matriz construda com base na Equao (3.14) para (i, j) V V congurase como a matriz de transio de 1 passo no processo Markoviano. Tal matriz aqui denotada por P. A tcnica desenvolvida em Szummer e Jaakkola (2001) se fundamenta na anlise da distribuio dos dados no rotulados por meio da utilizao da matriz de transio genrica de t passos. Desta forma, a probabilidade de iniciar do vrtice i e terminar em um vrtice j depois de t passos matematicamente expresso por:
Pt (i, j) = [Pt ]ij .
(3.15)
Na iterao inicial, assumido que a caminhada aleatria pode se inicializar de qualquer vrtice da rede, i.e., segue uma distribuio uniforme P(i ) = 1/N . As probabilidades condicionais Pt (i, j) denem a representao dos itens de dados. Em outras palavras, cada item de dado k associado com um vetor de probabilidades condicionais Pt (i, j), i = 1, . . . , V. Os itens de dados nesta representao estaro prximos caso os mesmos demonstrem uma distribuio semelhante em relao aos estados inicias. Esta representao crucialmente afetada pelo tamanho do passo t. Quando t , todos os itens de dados se tornam indistinguveis, j que a distribuio de todos os vrtices se aproxima da distribuio invariante, dado que o grafo aperidico e ergdico (inlar, 1975). Valores pequenos de t, por outro lado, aglomeram os itens de dados em pequenos clusters. Por conseguinte, nesta representao, o parmetro t controla a resoluo na qual os dados so analisados. O modelo de classicao assume que cada item de dado possui uma distribuio P(y | i ) sobre todos os rtulos y de classe presentes no problema. Essas distribuies so desconhecidas a priori e representam os parmetros a serem apropriadamente es-
47
timados. Com isto em mente, dado um item de dado k, o qual pode gurar como um dado rotulado ou no, este interpretado como uma realizao de uma caminhada aleatria Markoviana de t passos. Assim, a probabilidade a posteriori do rtulo y ser do item de dado k dado por:
Ppost (y|k) =
i =0
P(y | i) Pt (i, k).
(3.16)
Com o propsito de classicar este item de dado k, o classicador escolhe a classe que maximiza esta a posteriori:
ck = arg max Ppost (y = c | k ).

c
(3.17)
No entanto, P(y | i ) geralmente desconhecido para itens de dados no rotulados. Com o intuito de estimar tal distribuio, os autores em Szummer e Jaakkola (2001) utilizaram a tcnica Expectation-Maximization (EM) de estimao paramtrica. O critrio xado dado pela seguinte expresso dos dados rotulados:
k =1
log( P(yk | k) = log P(yk | i) Pt (i, k).

k =1 i =1
(3.18)
Um grande problema dessa tcnica reside na denio exata da resoluo t. Em base de dados simples, normalmente um t baixo j consegue realizar a classicao de forma satisfatria. No entanto, conforme a complexidade das classes cresce, um t maior necessrio. Em contrapartida, um t muito grande faz com que a classicao degenere, uma vez que todas as distribuies de qualquer item de dado ser igual a distribuio invariante do grafo, sob certas condies. Em suma, o parmetro t muito sensvel qualidade de classicao do algoritmo e deve ser calibrado de acordo com a base de dados em anlise.
3.4
Consideraes Finais
Neste captulo, foi explorados os conceitos de aprendizado semissupervisionado, explicitando onde o mesmo se localiza em funo da macrorea de Inteligncia Articial e da rea de Aprendizado de Mquina. Foram elencadas as principais motivaes que contriburam para o nascimento desta rea, sendo a principal delas o aumento exponencial dos dados e o alto custo de rotulao. Esta rea permitiu solucionar este tipo de problema, apenas se embasando nos poucos exemplos j rotulados e, a partir da, fa-
48
zendo a predio dos dados remanescentes. Alm disso, foram mostradas as principais abordagens tomadas no aprendizado semissupervisionado, com uma nfase maior nos mtodos baseados em grafos, suas limitaes e vantagens sobre as abordagens generativas e de baixa densidade. Estas limitaes incorrem devido aos altos custos de inverso matricial e de otimizao das funes quadrticas de custos. Motivados por esta razo, mtodos alternativos foram propostos, na tentativa de se desvencilharem dessas operaes custosas. Especicamente, foram visto em detalhes cinco mtodos de aprendizado semissupervisionado baseado em redes, quais sejam: classicador de regularizao local e global, regularizador por manifolds, classicador semissupervisionado guiado pela medida de modularidade, D-Walks e caminhadas aleatrias sem restrio. Os dois primeiros se fundamentam na minimizao de um funo de energia; o terceiro embasa-se no processo de otimizao da medida de modularidade, originalmente proposta para deteco de comunidades; e o quarto e quinto se aliceram sobre a teoria de caminhadas aleatrias.
C APTULO
4
Resultados Obtidos
Nesta seo, sero descritos os resultados obtidos, quais sejam: (i) modelagem do sistema de competio de partculas para o modo de aprendizado semissupervisionado via sistema dinmico estocstico; (ii) anlise matemtica do modelo proposto; e (iii) simulaes computacionais. As sees seguintes seguem didaticamente estes tpicos. Vale ressaltar que todos os resultados obtidos nesta seo baseiam-se no artigo Silva e Zhao (2011b), o qual encontra-se em processo de reviso.
4.1
Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico
Nesta seo, ser discorrido sobre a formalizao do sistema de competio de partculas. Especicamente, na Subseo 4.1.1, fornecida uma viso geral do modelo competitivo; na Subseo 4.1.2, a matriz competitiva de transio demonstrada; na Subseo 4.1.3, o sistema dinmico estocstico exibido; na Subseo 4.1.4, um conjunto de condies iniciais pertencente ao sistema dinmico elucidado; na Subseo 4.1.5, o algoritmo de competio de partculas discutido; e, nalmente, na Subseo 4.1.6, a anlise de complexidade computacional do mtodo proposto estudada.
4.1.1
Viso Geral do Modelo
Considere que seja fornecido um grafo G = V , E , onde V = {v1 , . . . , vV } denote o conjunto de vrtices, enquanto que E = {e1 , . . . , e L } V V , o conjunto de arestas. No modelo de aprendizado competitivo, um conjunto de partculas K = {1, . . . , K } 49
50
Captulo 4 - Resultados Obtidos
inserido nos vrtices da rede de forma aleatria. Cada partcula pode ser considerada como portadora de uma bandeira e seu objetivo precpuo resume-se em conquistar novos territrios - aqui representados pelos vrtices -, enquanto que, simultaneamente, tambm defende seus territrios previamente conquistados. Observe que, como o territrio nesse modelo possui o papel de recurso escasso, um processo competitivo ir se estabelecer naturalmente entre as partculas participantes. Quando uma partcula visita um vrtice arbitrrio, ela fortalece seu nvel de dominao sobre aquele vrtice e, concomitantemente, enfraquece todos os nveis de dominao das partculas rivais sobre aquele mesmo vrtice, de tal maneira a imitar a competio por recursos que ocorre em muitos processos sociais e naturais. De forma a se obter uma ideia concreta do processo competitivo, ser considerado o problema de classicao semissupervisionada em redes complexas. esperado que este modelo, em um amplo perodo de tempo, acabe por encontrando as classes na rede, de tal forma que cada partcula, ou um time de partculas, domine inteiramente uma classe. Nesse modelo, uma partcula pode estar em um dos seguintes estados: ativo ou exausto. Quando a partcula estiver no estado ativo, ela navega pela rede segundo uma poltica de movimentao que mescla comportamentos aleatrio e preferencial, enquanto que, quando estiver no estado exausto, a partcula substitui esta mescla de comportamentos por uma nova poltica de movimentao que a obriga a regressar para seu territrio previamente conquistado, com o propsito de ser recarregada (e, portanto, voltar a car ativa). O termo de movimentao aleatria responsvel pelo comportamento aventureiro da partcula, i.e., ela visitar vrtices vizinhos sem se preocupar com os nveis de dominao impostos por outras partculas rivais. Por outro lado, o termo de movimentao preferencial incumbido do comportamento defensivo da partcula, i.e., ela preferir reforar seu territrio j conquistado, ao invs de visitar algum vrtice que ainda no esteja dominado por ela. De forma que estas propriedades possam ser materialmente realizadas, cada partcula carrega consigo um nvel de energia que, quantitativamente, indica a capacidade exploratria da mesma. Esta energia aumenta quando uma partcula est visitando um vrtice cuja proprietria a prpria partcula visitante, e decresce quando a mesma visita um vrtice que est sendo dominado por outra partcula rival. Se esta energia atingir um patamar mnimo pr-estabelecido, a partcula se torna exausta naquela iterao e, consequentemente, transportada de volta para territrio seguro, i.e., um dos vrtices dominados por aquela partcula ora exausta. Nos prximos passos, a partcula possivelmente ser recarregada por meio de visitas aos seus vrtices j conquistados. Com este mecanismo de connamento articial, espera-se que a regio de atuao de cada partcula seja restringida, reduzindo, portanto, muitas visitas a vrtices longnquos da rede, aparentemente sem qualquer relao com aquela partcula. No esquema semissupervisionado, um conjunto de vrtices pr-rotulados forne-
4.1 - Modelagem do Sistema de Competio de Partculas via Sistema Dinmico Estocstico
51
cido. Cada partcula representa um vrtice rotulado, que, por sua vez, associado a uma determinada classe. As partculas so portadoras dos rtulos daqueles vrtices os quais representam. Essas partculas representativas navegam pelos vrtices com o propsito de propagar esse rtulo, utilizando apenas a topologia local da rede. No permitida a troca de rtulos de vrtices pr-rotulados. O processo cooperativo considerado na classicao da seguinte forma: cada vrtice mantm os nveis de dominao impostos por todas as partculas presentes na rede. No ato de classicao de um vrtice no rotulado, calculado o nvel de dominao imposto por cada time de partculas. O nvel de dominao do time sobre aquele vrtice dado pela soma dos nveis de dominao impostos por cada membro pertencente quele time de partculas. Por m, a classe de um vrtice no rotulado decidida pelo time que impor o maior nvel de dominao sobre o mesmo. Por convenincia, a Tabela 4.1 traz uma breve descrio de toda notao relevante usada neste trabalho.
Tabela 4.1: Breve descrio das notaes mais relevantes utilizadas neste trabalho.
Notao t i, j k aij Ni (t) p(k) ( t ) E(k) ( t ) S(k) ( t ) min max (k) Ptrans (t) Paleat (k) Ppref (t) Prean (t) V E K C L S I M
(k) (k)
Descrio ndice denotador do tempo. ndices caracterizadores de vrtices na rede. ndice indicador de uma partcula na rede. O peso da aresta interligando os vrtices i e j. Nmero de visitas realizado pela partcula k ao vrtice i. Localizao da k-sima partcula na rede no instante t. Energia da partcula k no instante t. Indicator do estado da k-sima partcula no instante t: ativa ou exausta. Energia mnima permitida a uma partcula. Energia mxima permitida a uma partcula. Frao de energia ganha/perdida de uma partcula. Matriz de transio da partcula k no instante t. Matriz de movimentao aleatria da partcula k (invariante no tempo). Matriz de movimentao preferencial da partcula k. Matriz de reanimao da partcula k Contrabalanceador da quantidade de movimentao aleatria e preferencial. Conjunto de vrtices da rede. Conjunto de arestas da rede. Conjunto de partculas inseridas na rede. Conjunto de rtulos (classes). Conjunto de vrtices pr-rotulados e seus correspondentes rtulos. Conjunto correspondendo ao espao gerado por V K. Conjunto contendo todas os elementos que satisfazem ao Lema 3. Conjunto de todos N (t) cujas entradas esto em I .
52
4.1.2
Derivao da Matriz de Transio Competitiva
Quanto poltica de movimentao de uma partcula k K, como j explanado em oportunidade prvia, esta basicamente composta por dois tipos distintos de mo(k) vimentao: (i) um termo de movimentao aleatria modelado pela matriz Paleat , o qual permite que a partcula se aventure na rede, sem se responsabilizar pela defesa de seus vrtices previamente dominados; e (ii) um termo de movimentao preferen(k) cial modelado pela matriz Ppref , o qual responsvel por induzir a partcula a reforar os vrtices os quais possuem como dono a prpria partcula. Com o intuito de modelar tal dinmica, considere o vetor estocstico p(t) = [ p(1) (t), p(2) (t), . . . , p(K ) (t)], o qual denota a localizao do conjunto de K partculas apresentadas rede, onde a k-sima entrada, p(k) (t), indica a localizao da partcula k na rede no instante t, i.e., p(k) (t) V , k K. Neste modelo, desejado encontrar a matriz de transio que governa a distribuio de probabilidade da movimentao das partculas para um estado futuro subsequente, p(t + 1) = [ p(1) (t + 1), p(2) (t + 1), . . . , p(K ) (t + 1)]. Com o intuito de modelar os estados possveis de cada partcula inserida na rede, ser introduzido o seguinte vetor estocstico S(t) = [S(1) (t), . . . , S(K ) (t)], onde a ksima entrada, S(k) (t) {0, 1}, indica se a partcula k est ativa ou exausta no tempo t. Especicamente, se S(k) (t) = 1, ento a partcula k dita estar exausta no tempo t. Analogamente, quando S(k) (t) = 0, a partcula dita estar ativa no tempo t. Logo, se S(k) (t) = 0, a partcula navega na rede segundo uma mistura de comportamentos aleatrio e preferencial. Entretanto, caso S(k) (t) = 1, a partcula modica sua poltica (k) de movimentao para uma nova regra, a qual modelada pela matriz Prean (t). Tal matriz responsvel por compelir a partcula a regressar ao seu territrio previamente conquistado, com a meta de reanimar a correspondente partcula por meio da revitalizao de sua energia. Este fenmeno intitulado processo de reanimao. Uma vez que a partcula esteja revitalizada, a mesma, novamente, poder executar a sua movimentao aleatrio-preferencial na rede. Em suma, S(t) age como uma chave, a qual determina a poltica de movimentao de todas as partculas no instante t. Diante das informaes supracitadas, pode-se denir a matriz de transio competitiva associada partcula k como:
Ptrans (t)
(k)
(1 S(k) (t)) Ppref (t) + (1 )Paleat + S(k) (t)Prean (t),
(k)
(k)
(k)
(4.1)
onde [0, 1] simboliza a frao desejada de movimentao preferencial que todas as partculas na rede realizaro. de extrema valia salientar que a Equao (4.1) uma combinao convexa de matrizes de transio (o primeiro termo, por sua vez, tambm o ), uma vez que a soma dos coecientes unitria; logo, a matriz resultante garantida ser outra matriz de transio. Restam-se denir as trs matrizes que compem a
53
Equao (4.1) de modo detalhado. Os passos necessrios para derivar a matriz de movimentao aleatria so diretos, uma vez que essa matriz depende diretamente da matriz de adjacncia do grafo, a (k) qual conhecida a priori. Em face disto, cada entrada (i, j) V V da matriz Paleat expressa como:
Paleat (i, j)
ai,j V=1 ai,u u
(4.2)
onde ai,j denota a (i, j)-sima entrada da matriz de adjacncia A do grafo. Observe que a Equao (4.2) se assemelha com a matriz Markoviana tradicional para um nico caminhante aleatrio, aqui simbolizado por uma partcula (inlar, 1975). Cumpre reforar tambm que a matriz Paleat invariante no tempo e idntica para todas as partculas na rede. Em termos sucintos, caso a partcula esteja no vrtice i, a probabilidade de um vizinho adjacente j ser visitado, segundo esta poltica de movimentao, proporcional ao peso da aresta que interliga os vrtices i e j.
(k) Ppref (t),
Com o propsito de auxiliar no clculo da segunda matriz da Equao (4.1), ser introduzido o seguinte vetor estocstico:
Ni (t)
[ Ni (t), Ni (t), . . . , Ni
(1)
(2)
(K )
(t)],
(4.3)
onde dim( Ni (t)) = 1 K e Ni (t) representa o nmero de visitas que o vrtice i rece(k) beu de todas as partculas at o tempo t. Especicamente, a k-sima entrada, Ni (t), fornece o nmero de visitas feito pela partcula k ao vrtice i at o tempo t. Agora, essa noo estendida para todos os vrtices da rede por meio da denio da matriz global que mantm o nmero de visitas realizado por todas as partculas a cada vrtice da rede como:
N (t)
[ N1 (t), N2 (t), . . . , NV (t)]T ,
(4.4)
onde dim( N (t)) = V K. Formalmente, tambm dene-se o vetor de nvel de domi nao do vrtice i, Ni (t), de acordo com o seguinte vetor estocstico:
Ni (t)
(1) (2) (K ) [ Ni (t), Ni (t), . . . , Ni (t)],
(4.5)
onde dim( Ni (t)) = 1 K e Ni (t) retrata a frequncia relativa de visitas de todas as par (k) tculas na rede ao vrtice i at o instante t. Particularmente, a k-sima entrada, Ni (t),
54
indica a frequncia relativa de visitas feita pela partcula k ao vrtice i at o instante t. Similarmente ao caso anterior, essa noo estendida a todos os vrtices constituintes da rede por intermdio da denio da matriz global de nvel de dominao, a qual responsvel por registrar todos os nveis de dominao impostos por cada partcula a todos os vrtices na rede, a partir da seguinte expresso:
N (t)
[ N1 (t), N2 (t), . . . , NV (t)]T ,
(4.6)
(k) onde dim( N (t)) = V K. Matematicamente, pode-se calcular a entrada Ni (t) de tal matriz a partir da seguinte frmula:
(k) Ni (t)
Ni (t)
K u=1 Ni
(k)
(u)
(t)
(4.7)
luz dessas explanaes, pode-se denir Ppref (i, j, t), quantidade a qual caracteriza a probabilidade de uma nica partcula k realizar a transio do vrtice i ao j no instante t, usando exclusivamente o termo de movimentao preferencial. Matematicamente, tem-se:
(k)
(k) Ppref (i, j, t)
(k) ai,j Nj (t) (k) V=1 ai,u Nu (t) u
(4.8)
Claramente, a partir da Equao (4.8), observa-se que cada partcula possui uma matriz de transio associada a sua movimentao preferencial, matriz a qual difere de partcula para partcula. Mais ainda, ao contrrio da matriz relativa movimentao aleatria, a matriz em apreo variante no tempo com dependncia direta nos nveis de dominao de todos os vrtices da rede no instante t ( N (t)). vlido notar que a abordagem aqui tomada para caracterizar a movimentao preferencial das partculas a frequncia de visitas que cada partcula executa em cada vrtice, de tal forma que, quanto mais visitas uma partcula especca realiza em um vrtice arbitrrio, maior ser a chance da mesma repetidamente retornar ao mesmo vrtice. Como ltimo ponto a ser destacado desse tipo de movimentao, importante vericar que a Equao (4.8) produz duas caractersticas presentes em um modelo de competio natural, quais sejam: (i) o fortalecimento do nvel de dominao que a partcula visitante impe ao vrtice o qual visita; e (ii) o consequente enfraquecimento do nvel de dominao de todas as outras partculas rivais sobre aquele mesmo vrtice. Este comportamento inerentemente representado em funo da abordagem frequencial.
55
Agora, por questes didticas, um exemplo simples que sumariza os pontos-chave at ento introduzidos estudado.
Figura 4.1: Uma tpica situao em que a partcula vermelha, presentemente localizada no vrtice v1 , tem de selecionar o prximo vizinho a visitar. Neste exemplo, h 2 partculas, vermelha e azul (a partcula azul no mostrada). A cor bege denota os vrtices que ainda no foram dominados por quaisquer partculas at o instante t.
Exemplo 1. Considere a rede de 4 vrtices mostrada na Figura 4.1, em que existem duas partculas: a primeira indicada pela cor vermelha e a segunda, azul. Para ns ilustrativos, apenas a localizao da partcula vermelha explicitada, a qual, no momento, visita o vrtice v1 . Neste exemplo, ser claramente explanado o papel que o nvel de dominao possui no que tange determinao da matriz de transio. Ainda na gura, didaticamente indicado o vetor nvel de dominao de cada vrtice na rede no instante t. Observe que o proprietrio de um vrtice (na gura, marcado pela cor do vrtice) decidido de acordo com a partcula que est impondo o maior nvel de dominao quele vrtice especco. Por exemplo, no vrtice v1 , a partcula vermelha impe uma dominao de 60%, enquanto que, a partcula azul, apenas 40%. A meta aqui derivar a matriz de transio da partcula vermelha, segundo as regras da Equao (4.1). Suponha que, no tempo t, a partcula vermelha esteja ativa; logo, S(vermelha) (t) = 0 e, consequentemente, o segundo termo da combinao convexa na Equao (4.1) nulo. Arbitrariamente, xa-se = 0.8 para este exemplo. Com base na Equao (4.2), a matriz de movimentao aleatria da partcula vermelha dada por:
(vermelha) Paleat
0 1 1 1
1/3
1/3
1/3
, (4.9)
0 0 0
0 0 0
0 0 0
e a matriz de movimentao preferencial , em consonncia com a Equao (4.8), expressa por:
56
(vermelha) Ppref (t)
0 0.57 0.07 0.36 1 0 0 0 . 1 0 0 0 1 0 0 0
(4.10)
Finalmente, a matriz de transio associada partcula vermelha determinada por uma combinao ponderada entre a matriz aleatria (invariante no tempo) e a matriz preferencial no tempo t, j que a partcula, por hiptese, est ativa. Essa ponderao inuenciada pelo parmetro . Numericamente, aplicando a Equao (4.1) tem-se:
(vermelha) Ptrans (t)
= 0.2 =
0 1 1 1
1/3
1/3
1/3
0 0 0
0 0 0
0 0 0
+ 0.8
0 0.57 0.07 0.36 1 0 0 0 1 0 0 0 1 0 0 0
0 0.52 0.12 0.36 1 0 0 0 . 1 0 0 0 1 0 0 0
(4.11)
Portanto, a partcula vermelha ter uma maior chance de visitar o vrtice v2 (52% de chance) do que os outros vrtices na vizinhana. Este comportamento pode ser controlado por meio da variao do parmetro . Um alto valor induz a partcula exclusivamente a realizar movimentos segundo o termo preferencial, i.e., continuar sempre visitando vrtices cuja proprietria a prpria partcula. Em contraste, um valor baixo assegura um maior peso para o termo de movimentao aleatria, fazendo com que a partcula se assemelhe a um caminhante Markoviano tradicional quando 0 (inlar, 1975). No caso extremo, i.e., = 0, o mecanismo de competio desligado e o modelo reduz-se a mltiplas caminhadas aleatrias sem interao entre os caminhantes. Com isto em mente, o modelo aqui estudado generaliza a teoria de mltiplas caminhadas aleatrias, dependendo da escolha do parmetro .
Agora, ser denida cada entrada de Prean (t). Tal matriz responsvel por transportar uma partcula exausta k K de volta ao seu territrio j conquistado, com o propsito de revitalizar a energia da partcula (processo de reanimao). Suponha que a partcula exausta k esteja visitando o vrtice i quando sua energia completamente esgotada. Nesta situao, a partcula deve regressar para um vrtice arbitrrio j de seu domnio no instante t, em acordo com a seguinte expresso:
(k)
57
1
(k) Prean (i, j, t)
arg max
mK
(m) Nj (t) =k (m) Nu (t) =k
V=1 1 u
(4.12)
arg max
mK
onde arg max(.) retorna o ndice m que maximiza o argumento e 1{.} a funo indimK
cadora que produz 1 se o argumento for logicamente verdadeiro e 0, caso contrrio. De fato, uma anlise cuidadosa da Equao (4.12) revela que a probabilidade da partcula k retornar a um vrtice arbitrrio j, j dominado pela mesma partcula, segue uma distribuio de probabilidade uniforme. Alm disso, todas as linhas dessa matriz so iguais, mostrando que essa movimentao no depende do vrtice o qual uma partcula est visitando. Desta forma, uma forma compacta de computacionalmente representar essa estrutura pode ser empregada. Com isto em mente, a Equao (4.12) apenas resulta em probabilidades no nulas para vrtices j que esto sendo dominados pela partcula k no instante t, no importando a existncia de uma conexo entre i e j na matriz de adjacncia. Em essncia, uma vez que a partcula esteja exausta, a chave S(k) (t) ativada, que, por sua vez, obriga a partcula k a retornar ao seu territrio previamente dominado, de tal forma a recarreg-la. No modelo proposto, sempre existir pelo menos um vrtice dominado por cada partcula, como ser explicado em oportunidade vindoura. Agora, o desenvolvimento da poltica de atualizao de energia das partculas ser discutido. Primariamente, til introduzir o vetor estocstico E(t) = [ E(1) (t), . . . , E(K) (t)], onde a k-sima entrada, E(k) (t) [min , max ], max min , denota o nvel de energia que a partcula k possui no tempo t. Matematicamente, a poltica de atualizao de energia das partculas dada por:
E(k) ( t ) =
min(
max , E
( k ) ( t 1) + ),
se proprietario(k, t) se proprietario(k, t)
max(
(k) min , E ( t 1) ),
(4.13)
onde proprietario(k, t) =
(m) arg max N (k) (t) = k

mK p
(t)
uma expresso lgica que es-
sencialmente resulta em verdadeiro se o vrtice em que a partcula k esteja visitando no tempo t (i.e., o vrtice p(k) (t)) seja dominado pela mesma partcula, e falso, caso contrrio; dim( E(t)) = 1 K; > 0 simboliza o incremento ou decremento de energia que a partcula receber em um instante t qualquer. Ademais, a primeira expresso na Equao (4.13) representa o incremento da energia da partcula e ocorre quando a partcula k visita um vrtice p(k) (t), no tempo t, cuja proprietria seja ela mesma, (m) i.e., arg max N (k) (t) = k. Similarmente, a segunda expresso na Equao (4.13)
mK p
(t)
58
aponta o decremento de energia da partcula e acontece quando a partcula k visita um vrtice p(k) (t) que no dominado pela mesma, i.e., existe um nvel de dominao maior imposto quele vrtice por uma partcula rival. Em derradeiro, neste modelo, as partculas sero penalizadas caso estiverem caminhando em territrio das partculas rivais. Isso feito no intuito de minimizar caminhadas irrelevantes das partculas na rede, as quais serviriam apenas para reduzir a velocidade de convergncia do sistema dinmico. Pelas mesmas razes, espera-se que este comportamento possa melhorar a acurcia do classicador semissupervisionado. Avana-se agora a denio da regra de atualizao que rege S(t), vetor o qual responsvel por determinar a poltica de movimentao de cada partcula. Como j fora mencionado anteriormente, uma partcula k arbitrria ser transportada de volta ao seu domnio se sua energia atingir um patamar mnimo, quanticado por min . Ora, natural que cada entrada S(k) (t), portanto, necessite monitorar a energia corrente da sua partcula correspondente k, i.e., se esta energia, por alguma razo, atingir o patamar mnimo, ento a chave S(k) (t) necessita ser ligada. Analogamente, se a partcula ainda possui energia maior que esse patamar mnimo, ento a chave manter-se- desligada. Matematicamente, a k-sima entrada de S(t) pode ser precisamente escrita como:
S(k) (t) = 1{E(k) (t)=min } ,
(4.14)
onde dim(S(t)) = 1 K. Especicamente, S(k) (t) = 1 se E(k) (t) = min e 0, caso contrrio. Como h um limite superior para a varivel aleatria E(k) (t), claro que se a partcula k frequentemente visitar vrtices que estejam dominados por partculas rivais, a sua energia decrescer de tal forma que poder atingir min e, logo, se tornar exausta. O limite superior, max , foi estabelecido para prevenir que as partculas na rede aumentem sua energia para um valor muito alto (por meio da constante visita a vrtices dominados por essa partcula), e, uma vez esta energia esteja grande o bastante, a partcula poderia navegar para territrios muito longnquos, visitando, assim, um nmero substancial de vrtices pertencentes a outras partculas at que sua energia que completamente esgotada. Desta forma, a taxa de classicao do sistema dinmico seria consideravelmente reduzida. No prximo exemplo, sero resumidos os principais conceitos introduzidos at o momento. Exemplo 2. Considere a rede de 20 vrtices retratada na Figura 4.2. Suponha que existam 2 partculas, a vermelha e azul, localizadas nos vrtices v17 e v1 , respectivamente. Como ambas as partculas esto visitando vrtices cujas proprietrias so partculas rivais, a energia daquelas partculas ser reduzida. Considere, tambm, que as partculas vermelha e azul tenham atingido o patamar mnimo de energia, i.e., min , no tempo t. Portanto, de acordo com a Equao (4.14),
59
Figura 4.2: Ilustrao do procedimento de reanimao. H duas partculas, a vermelha e azul, localizadas nos vrtices v17 e v1 no instante t, respectivamente, as quais se tornaram exaustas. A rede engloba 20 vrtices. A cor do vrtice representa qual partcula est impondo o maior nvel de dominao no tempo t.
essas partculas se tornaro exaustas. Consequentemente, S(vermelha) (t) = 1 e S(azul) (t) = 1, e a matriz de transio associada a cada partcula somente possuir o segundo termo no nulo da combinao convexa indicada na Equao (4.1). Em consonncia s regras do sistema dinmico, estas partculas sero transportadas de volta ao seu territrio. Esse transporte acontecer segundo a Equao (4.12). Em vista desse cenrio, a matriz de transio para a partcula vermelha, no instante t, ser:
1 (i, j, t) = , i V , j {v1 , v2 , . . . , v9 }, 9 (vermelha) Ptrans (i, j, t) = 0, i V , j V \ {v1 , v2 , . . . , v9 }, Ptrans

(vermelha)
(4.15) (4.16)
e a matriz de transio associada a partcula azul, no mesmo instante de tempo, ser:
1 (azul) Ptrans (i, j, t) = , i V , j {v13 , v14 , . . . , v20 }, 8 (azul) Ptrans (i, j, t) = 0, i V , j V \ {v13 , v14 , . . . , v20 }.
(4.17) (4.18)
Pode-se vericar que, dado que a partcula esteja exausta, no importa o lugar onde a partcula se encontre, ela ser transportada de volta para seu territrio (conjunto de vrtices cuja proprietria essa partcula). A determinao de qual dos vrtices desse subconjunto que ser visitado segue uma distribuio uniforme, i.e., cada vrtice j dominado possui chances iguais de ser visitado pela partcula ora exausta. Uma vez denida cada matriz associada a cada partcula no modelo, neste momento, agrupam-se todas essas matrizes em uma matriz de transio representativa que engloba todas as partculas, intitulada aqui Ptrans (t), usando o seguinte fato:
60
quando uma partcula est ativa, sua movimentao independente de todas as partculas rivais, dado que se tenha conhecimento do estado presente. Em virtude disso, a localizao das outras partculas no inuencia na ao de escolher o prximo vrtice a ser visitado pela partcula em apreo, j que todo o estado presente sabido e a matriz de transio unicamente depende dele. A mesma ideia pode ser aplicada quando a partcula est exausta. Em funo dessa propriedade, a matriz global de transio que indica a transio do vetor estocstico p(t) para p(t + 1) pode ser descrita:
Ptrans (t) = Ptrans (t) . . . Ptrans (t),
(1)
(K )
(4.19)
onde denota o operador produto tensor de Kronecker. Assim, a Equao (4.19) completamente especica a matriz de transio de todas as partculas na rede. Essencialmente, p(t + 1) visto como um processo estocstico discreto, cuja distribuio de probabilidade dada pela linha indicada pela forma escalar de p(t) (a ser denida) da matriz Ptrans (t). Com o intuito de tornar este processo vivel, enumeramse os estados do vetor que guarda a localizao das partculas p(t), de tal forma a ser possvel a sua utilizao com a matriz de transio global. Isto decorre do fato que, para K 2, p(t) ser um vetor e no seria possvel convencionalmente denir a linha p(t) da matriz Ptrans (t). Esta enumerao do vetor p(t) para sua forma escalar feita respeitando ordem natural das tuplas, i.e., p(t) = [1, 1, . . . , 1, 1] (todas as partculas no vrtice 1) denota o primeiro estado; p(t) = [1, 1, . . . , 1, 2] (todas as partculas no vrtice 1, exceto a ltima partcula, a qual localiza-se no vrtice 2) o segundo estado; e assim sucessivamente, at o estado escalar V K .
Observao 1. A matriz Ptrans (t) na Equao (4.19) possui dimenses V K V K , as quais so indesejadamente altas. Na tentativa de economizar espao, em todas as simulaes, ser utilizada a coleo de K matrizes mostradas na Equao (4.1). A matriz global de todas as partculas ser bastante til, como ser visto, nas derivaes apresentadas na seo de anlise matemtica.
4.1.3
O Modelo de Aprendizado Competitivo Semissupervisionado
Em vista das consideraes tomadas na seo anterior, o sistema dinmico estocstico proposto para modelar este comportamento competitivo entre as partculas ser analisado aqui. Primeiramente, o estado interno do sistema dinmico dado por:
61
X (t) =
N (t) p(t) E(t) S(t)
, (4.20)
e o sistema dinmico competitivo dado por:
(k) Ni (t + 1) = Ni(k) (t) + 1{ p(k) (t+1)=i} min( , E(k) (t) + ), se proprietario(k, t) max : E ( k ) ( t + 1) = max( , E(k) (t) ), se proprietario(k, t) min (k) S ( t + 1) = 1 { E(k) (t+1)=min }
(4.21)
onde, conforme j estudado, dim( N (t)) = V K, dim( p(t)) = 1 K, dim( E(t)) = (k) 1 K e dim(S(t)) = 1 K, resultando que dim( X (t)) = (V + 3) K, com Ni (t) [1, ), (i, k) S , onde S o espao gerado por V K. Observe que o vetor estocstico p(t + 1) no possui uma frmula fechada, uma vez que qualicado como uma distribuio dependente de p(t) e N (t); logo, sua aquisio meramente por gerao de nmeros aleatrios. Sucintamente, o estado interno do sistema, como mostrado na Equao (4.20), carrega: (i) o nmero total de visitas feito por cada partcula a cada vrtice da rede, (ii) a localizao das partculas na rede, (iii) a energia das partculas e (iv) o vetor de chaves, que indica se as partculas esto ativas ou exaustas. Alm disso, verica-se que o sistema no linear, em virtude da funo indicadora. A primeira equao do sistema responsvel pela atualizao do nmero de visitas do vrtice i pela partcula k at o tempo t; a segunda equao usada para manter o nvel de energia atual de todas as partculas inseridas na rede; e a terceira equao utilizada para chavear as partculas entre ativas ou exaustas. de extrema valia salientar que, para que o estado interno do sistema X (t) seja completamente construdo, a primeira expresso do sistema deve ser usada para todo (i, j) S e a segunda e terceira expresses necessitam ser avaliadas por todo k K. Uma outra importante caracterstica do sistema , a qual ser extensivamente utilizada nas prximas sees, sua propriedade Markoviana (vericar Proposio 1). Finalmente, note que o sistema tambm pode ser escrito de forma matricial:
N ( t + 1) : E ( t + 1) S ( t + 1)
= f N ( N (t), p(t + 1)) = f E ( N (t + 1), p(t + 1)) , = f S ( E(t + 1))
(4.22)
62
onde f N (.), f E (.) e f S (.) so funes matriciais, em que cada entrada dessa matriz denida pelos termos escalares que aparecem na Equao (4.21). Esta forma alternativa matricial ser utilizada para simplicar os clculos nas sees futuras.
4.1.4
As Condies Iniciais do Sistema Competitivo
Com o objetivo de iterar o sistema , um conjunto de condies iniciais preciso. Primeiramente, a posio inicial das partculas p(0) controlvel pelo usurio. A posio inicial das partculas no afeta o processo de classicao, devido ao procedimento de reanimao. Usualmente, as partculas so colocadas nos vrtices os quais representam. Secundariamente, deve-se inicializar N (0) seguindo algumas restries. No caso semissupervisionado, fornecido um conjunto de vrtices pr-rotulados e a meta propagar tais rtulos aos vrtices ainda no rotulados. Para esses vrtices inicialmente rotulados, xa-se seu proprietrio como sendo a partcula que foi gerada para represent-lo da seguinte forma: como a propriedade de um vrtice representada pelo mximo nvel de dominao imposto quele vrtice, pode-se simplesmente forar que o nmero de visitas que essa partcula representante possua para aquele vrtice pr-rotulado seja desde o incio; logo, impossibilitando qualquer mudana de proprietrio sobre esse vrtice pr-rotulado. Normalmente, mais de uma partcula (time) gerada para representar um subconjunto de vrtices pr-rotulados, todos da mesma classe. Cada partcula tenta dominar vrtices na rede independentemente. A cooperao entre as partculas de um mesmo time ocorre no nal do processo. De forma a realizar isso, para cada vrtice, somam-se os nveis de dominao de partculas do mesmo time para obter o nvel de dominao agregado daquele time sobre aquela partcula. Com isso em mente, considere um conjunto de classes C e um conjunto de exemplos pr-rotulados VL V . Seja L o conjunto em que cada elemento armazena o par: vrtice pr-rotulado e sua classe correspondente, i.e., L = {(v1 , c1 ), . . . , (v|VL | , c|VL | )}, onde vi VL e ci C , 0 i |L| = |VL |. Ento, cada entrada de N (0) xada como: , 1 + 1
{ p(k) (0)=i } ,
Ni (0) =
(k)
se a partcula k representa o vrtice i caso contrrio
(4.23)
em que aplica-se a Equao (4.23) para todo (i, k ) S . Note que o escalar 1 introduzido na segunda expresso da Equao (4.23) com o m de vrtices no visitados e no inicialmente rotulados no tempo t tenham seu clculo bem denido, de acordo com a Equao (4.7), j que o denominador no pode resultar em 0. Em relao s condies iniciais de E(0), deseja-se uma competio justa entre as partculas, assim, seus valores de energia iniciais so xados como uma mesma constante, da seguinte forma:
63
E(k) (0) = min +
max min K
(4.24)
Finalmente, a varivel estocstica que incumbida de indicar se a partcula k est ativa ou exausta no tempo inicial t = 0, S(k) (0), k K, dada por:
S(k) (0) = 0, i.e., inicialmente, todas as partculas esto ativas no processo competitivo.
(4.25)
Figura 4.3: Diagrama de uxo que indica, em alto nvel, como o sistema dinmico evolui no tempo.
4.1.5
O Algoritmo
Com o intuito de facilitar o entendimento de como o sistema dinmico estocstico proposto evolui no tempo, a Figura 4.3 mostra um diagrama de uxo com as principais tarefas que devem ser processadas. No primeiro bloco, Congurar Condies Iniciais, inicializa-se o estado interno do sistema X (0), o qual composto por N (0), p(0), E(0) e S(0). Depois disso, o sistema comea a iterar e o comando lgico Critrio de Parada checado a cada iterao. Para uma iterao especca, cada partcula
64
precisa se locomover para um outro vrtice, segundo a matriz de transio no instante atual. Isso precisamente realizado pelo lao interno comeando da condio lgica k > K. Dentro desse lao, gera-se a matriz de transio variante no tempo associada a partcula k (bloco Calcular Matriz de Transio da Partcula k) e faz-se a transio da partcula para um prximo vrtice em consonncia com essa matriz (bloco Partcula k Visita Outro Vrtice). Quando todas as partculas tiverem, apropriadamente, realizado suas movimentaes, o lao interno cessa e atualizam-se as variveis internas remanescentes do sistema, i.e., N (t), E(t) e S(t), para um t 1 arbitrrio (bloco Atualiza Variveis Restantes do Sistema). Logo aps calcular estas variveis restantes, o sistema pode evoluir no tempo mais uma iterao ou, ao invs disso, caso a condio de parada seja satisfeita, retornar N (t) ao usurio (bloco Retornar Matriz de Dominao). Neste caso, cada vrtice no rotulado tem sua classe denida pelo time de partculas que impor o maior nvel de dominao sobre aquele vrtice. O Algoritmo 1 sumariza todos os passos, de forma detalhada, para iterar o sistema . Essencialmente, o algoritmo aceita o conjunto de dados (dados) e um conjunto de dados pr-rotulados (L), bem como trs parmetros denidos pelo usurio: a frao de energia ganha/perdida pelas partculas no modelo (), a frao desejada de movimentao preferencial () e um fator de parada ( ). Usualmente, bons resultados podem ser obtidos por intermdio da seleo de um valor arbitrrio entre 0.05 e 0.4 para , e 0.5 at 0.8 para (veja a Subseo 4.3.1). pode ser xado como um valor arbitrariamente pequeno. K o nmero de dados rotulados e tambm o nmero de partculas inseridas no modelo. Observe que o critrio de parada tambm pode ser denido como um certo nmero de iteraes.
4.1.6
Anlise de Complexidade Algortmica
Na lista a seguir, ser discutida sobre a anlise de complexidade de todos os comandos relevantes apresentados no Algoritmo 1. Passo 2: A cardinalidade do conjunto pode ser avaliada por uma nica passagem pelo conjunto. Assim, a complexidade temporal O(K ); Passo 3: Construo da rede a partir do conjunto de dados de entrada. Este processo possui complexidade temporal de O(V 2 ), uma vez que a matriz de distncia deve ser calculada; Passo 4: Gerao das K partculas na rede. Esse passo tem complexidade temporal de O(K ); Passo 5: Neste passo, deve-se visitar todas as arestas da rede. Logo, esta operao tem complexidade temporal de O( L), onde L denota o nmero de arestas na rede;
65
Algoritmo 1: Algoritmo de competio de partculas semissupervisionado.

Entrada: dados - conjunto de dados de entrada. L - conjunto de dados pr-rotulados. - frao de energia ganha/perdida de qualquer partcula. - frao de movimentao preferencial. - critrio de parada. incio K | L |; A construirRede(dados); p(0) gerarParticulas( A, L); Paleat calcularMatrizAleatoria( A): Usar (4.2); N (0) calcularNInicial( p(0), L): Usar (4.23); N (0) calcularNBarra( N (0)): Usar (4.7); E(0) calcularEInicial(K): Usar (4.24); S(0) calcularSInicial(): Usar (4.25); t 0; repita para todo k K faa (k) Ppref (t) calcularMatrizPreferencial( N (t), p(t)): Usar (4.8); Prean (t) calcularMatrizReanimacao( N (t), p(t)): Usar (4.12); Ptrans (t) calcularMatrizTransicao(, Paleat ,Ppref (t),Prean (t)): Usar (4.1); p(k) (t + 1) escolherProximoVertice( Ptrans (t),p(k) (t)); m para todo N (t + 1) atualizarN( N (t), p(t + 1)): Usar primeira eq. em (4.21); N (t + 1) calcularNBarra( N (t + 1)): Usar (4.7); E(t + 1) atualizarE(E(t), N (t + 1), p(t + 1)): Usar segunda eq. em (4.21); S(t + 1) atualizarS(E(t + 1)): Usar terceira eq. em (4.21); t t+1 at N (t) N (t 1) < ; retorna N (t) m
(k) (k) (k) (k) (k)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Passos 6 e 7: Uma simples operao deve ser feita para cada uma das K V entradas das matrizes N (0) e N (0), respectivamente. Portanto, estes passos caracterizam-se como tendo complexidade temporal de O(KV ); Passos 8 e 9: Outra simples operao realizada para cada uma das K entradas de E(0) e S(0). Desta forma, a complexidade temporal O(K ); Passo 13: Suponha que k seja o grau mdio da rede. Ento, segue que este passo pode ser completado em O( k ); Passo 14: Mantm-se uma hashtable para armazenar os vrtices que esto sendo dominados por cada partcula. Assim, consegue-se encontrar um vrtice dominado por uma partcula exausta em tempo constante, i.e., O(1); Passo 15: Multiplicao de escalares pelo nmero de vizinhos do vrtice que a partcula k est visitando. Isto concludo em O( k ); Passo 16: A partcula k escolhe o prximo vrtice a visitar. Utiliza-se uma funo de probabilidade cumulativa seguindo a distribuio de probabilidade calculada no Passo 15 e, a partir da gerao de um nmero aleatrio, realiza-se a transio da partcula a um outro vrtice adjacente. Logo, tendo em vista que a matriz de tran-
66
sio possui distribuio de probabilidade arbitrria, este passo tem complexidade temporal O( k ); Passos 18 e 19: Atualizao das matrizes N (t) e N (t). Considerando que, no mximo, K vrtices distintos sero visitados em qualquer iterao, garantido, portanto, que, no mximo, K linhas das matrizes N and N mudaro. Por conseguinte, essa atualizao pode ser realizada em O(K2 ), em virtude de cada uma das K linhas possuir K entradas; Passos 20 e 21: Completados em O(K ). Tendo em vista que os Passos 13 a 16 repetem K vezes, segue que este bloco possui complexidade temporal O(K k ). A complexidade temporal do prximo bloco, denido pelos Passos 18 a 22, determinado pelos Passos 18 e 19, i.e., O(K2 ). Diante desses fatos, o algoritmo de classicao semissupervisionada, sem considerar o lao repita, possui complexidade temporal O(K k + K2 ). A seguir, ser estimado o nmero de iteraes do lao repita (Passos 11 a 23). Considere uma rede com classes completamente separadas, e suponha que cada classe tenha uma nica partcula. Neste cenrio, cada vrtice pode ser dominado por apenas uma visita da partcula; logo, o nmero de iteraes do lao principal certamente O(V ) = c1 V, onde c1 uma constante positiva proporcional frao de movimentao aleatria realizada pelas partculas. Agora, caso as classes estejam conectadas de uma maneira bem denida (i.e., poucas conexes interclasses), cada vrtice pode ter sua propriedade denida a partir de um pequeno nmero de visitas. Ento, com o objetivo de ter todos os V vrtices dominados pelas partculas, o nmero de iteraes novamente O(V ) = c2 V, onde c2 uma constante positiva satisfazendo c2 > c1 . Seguindo o mesmo raciocnio, pode-se inferir que o nmero de iteraes requeridas para que todos os vrtices sejam completamente dominados pelas partculas O(V ) = cV, onde c uma constante cuja magnitude aumenta com o aumento da poro de arestas interclasses. Portanto, a partir dessa anlise, estima-se que o lao principal repita por cV vezes. Em suma, o algoritmo de classicao semissupervisionada baseado em competio de partculas possui complexidade temporal O(V 2 + K k V + K2 V ). Alguns casos particulares podem ser discutidos: Se a rede esparsa, i.e., k V, o algoritmo de classicao reduz-se para uma complexidade temporal O(V 2 ). Note que o algoritmo, sem a fase de construo de rede, rodaria em O(V ); Se o grau mdio da rede k for proporcional a V (uma rede altamente interconnectada), ento o algoritmo de classicao semissupervisionada tem complexidade computacional O(KV 2 );
67
Uma vez que a quantidade de partculas inseridas na rede usualmente baixa e o grau mdio da rede pode ser controlado pelo usurio de forma a ser um valor pequeno, i.e., K Ve k V, razovel assumir que o algoritmo de classicao semissupervisionada tem complexidade temporal O(V 2 ) na maioria dos casos, em virtude da construo da rede. Nesse caso, o algoritmo rodaria em complexidade O(V ) se no fosse considerada a fase de construo de rede. A seguir, a complexidade temporal do modelo proposto ser observada empiricamente. Nestas simulaes, o Passo 3 no realizado, ou seja, a rede j dada. Sem considerar tal passo, utiliza-se k = 16 V, em que espera-se que o algoritmo rode em tempo linear (O(V )). Para a construo das redes, sero utilizadas as redes aleatrias clusterizadas, cujo mtodo de construo foi apresentado no Captulo 2 (Subseo 2.2.4). Tais redes sero geradas com tamanhos cada vez maiores, seguindo o padro V = {1000, 2000, . . . , 10000}. Cada rede sempre possuir 4 clusters com tamanhos iguais. Os clusters gerados nestas redes sero considerados as classes do problema. Para todas as simulaes, rotulam-se 2 vrtices de cada classe. Quanto congurao do algoritmo proposto, utilizam-se K = 8 partculas, = 0.6, = 0.07, min = 0 e max = 1. Todas as partculas so inicialmente colocadas nos vrtices que representam. O algoritmo proposto executado nesta redes e o tempo necessrio para atingir um estado N (t), tal que suas entradas passem a ser insignicantes, inspecionado. O tempo quanticado em um processador Intel Core 2 CPU 6700 com 4GB of RAM. Os resultados so mostrados na Figura 4.4. Uma anlise de tal gura revela que o tempo cresce linearmente com o aumento do tamanho das redes geradas, conrmando a anlise terica realizada anteriormente.
4.2
Anlise Matemtica do Modelo Competitivo
Nesta seo, sero fornecidos: (i) uma anlise matemtica detalhada do modelo proposto, (ii) um exemplo numrico mostrando o uso prtico dessa anlise, e (iii) uma validao dos resultados tericos obtidos. Para todos os efeitos, considera-se a anlise de grafos no direcionados.
4.2.1
Resultados Tericos
Primeiramente, de extrema valia determinar a funo probabilstica de transio do sistema , i.e., P( X (t + 1) | X (t)), antes que qualquer anlise rigorosa seja conduzida. Por questes de clareza, ser simplicada a notao do estado interno sistema, observando que P( X (t)) = P( N (t), p(t), E(t), S(t)). De fato, a derivao algbrica detalhada da probabilidade de transio P( X (t + 1) | X (t)) dada a seguir:
68
250
Tempo de Processamento [s]
225 200 175 150 125 200 150 100 50 0 2000 4000 6000 8000 10000
Tamanho da Rede [V]
Figura 4.4: Tempo consumido para que N (t) se estabilize. Cada ponto na curva uma mdia de 10 realizaes independentes. As barras verticais de erro representam o maior e menor tempos de processamento.
P( X (t + 1) | X (t)) = P( N (t + 1), p(t + 1), E(t + 1), S(t + 1) | N (t), p(t), E(t), S(t))
= P(S(t + 1) | N (t + 1), p(t + 1), E(t + 1), N (t), p(t), E(t), S(t)) P( N (t + 1), p(t + 1), E(t + 1) | N (t), p(t), E(t), S(t)) = PS(t+1) P( E(t + 1) | N (t + 1), p(t + 1), N (t), p(t), E(t), S(t)) P( N (t + 1), p(t + 1) | N (t), p(t), E(t), S(t)) = PS(t+1) PE(t+1) P( N (t + 1) | p(t + 1), N (t), p(t), E(t), S(t)) P( p(t + 1) | N (t), p(t), E(t), S(t)) = PS(t+1) PE(t+1) PN (t+1) Pp(t+1) ,
(4.26)
onde PS(t+1) = P(S(t + 1) | N (t + 1), p(t + 1), E(t + 1), X (t)), PE(t+1) = P( E(t + 1) | N (t + 1), p(t + 1), X (t)), PN (t+1) = P( N (t + 1) | p(t + 1), X (t)) e Pp(t+1) = P( p(t + 1) | X (t)). Agora, vital proceder para a determinao dos quatro termos que aparecem ao m da Equao (4.26). Como primeiro termo a analisar, toma-se Pp(t+1) . Notando que, para ganhar conhecimento sobre p(t + 1), apenas necessrio o conhecimento de p(t) e N (t), e estas duas ltimas quantidades fazem parte de X (t) que, por hiptese, dado, vlido concluir que a funo de transio do conjunto de partculas para um estado futuro da rede, denotado, por Pp(t+1) , de fato a matriz de transio indicada na Equao (4.1). Matematicamente, a seguinte equivalncia vale:
4.2 - Anlise Matemtica do Modelo Competitivo
69
Pp(t+1) = P( p(t + 1) | X (t)) = Ptrans ( N (t), p(t)).
(4.27)
Neste momento, foi utilizada a notao Ptrans ( N (t), p(t)) para enfatizar a dependncia que a matriz de transio tem, no ato de sua construo, de N (t) e, no ato de sua manipulao, de p(t) na sua forma escalar. Procede-se, agora, para a avaliao de PN (t+1) . Neste caso, tem-se uma informao adicional em relao ao caso anterior, a qual , alm do estado anterior do sistema X (t), o conhecimento sobre p(t + 1). Uma rpida anlise da regra de atualizao de N (t), que revelada pela primeira expresso do sistema , mostra que possvel completamente determinar N (t + 1), uma vez que p(t + 1) e N (t) so conhecidos por hiptese. Em funo disso, a seguinte equao vale:
PN (t+1) = P( N (t + 1) | p(t + 1), X (t))
= 1{ N (t+1)= N (t)+Q N ( p(t+1))} ,
(4.28)
onde Q N ( p(t + 1)) uma matriz com dim( Q N ) = V K e com dependncia em p(t + 1), cuja expresso dada por:
{ p (t+1)=1} 1 (1) { p (t+1)=2} Q N ( p(t + 1)) = . . .
(1)
1{ p(K) (t+1)=1}
. (4.29)
1{ p(1) (t+1)=V }
1{ p(K) (t+1)=2} . .. . . . 1{ p(K) (t+1)=V }
O argumento na funo indicadora mostrado na Equao (4.28) , essencialmente, a primeira expresso do sistema , mas em uma notao matricial. Em termos sucintos, a Equao (4.28) resultar em 1 se o cmputo de N (t + 1) estiver correto, dados p(t + 1) e N (t), i.e., a matriz N (t + 1) resultante est em consonncia com as regras do sistema dinmico; e 0, caso contrrio. Para o terceiro termo, PE(t+1) , tem-se conhecimento sobre o estado anterior do sistema, X (t), bem como de p(t + 1) e N (t + 1). Por intermdio da Equao (4.7), verica se que N (t + 1) pode ser diretamente calculado de N (t + 1), i.e., tendo conhecimento de N (t + 1) permite a obteno de N (t + 1) de forma determinstica. Em termos pro babilsticos, portanto, a matriz N (t + 1) considerada como informao dada. luz disso, e analisando a Equao (4.13), averigua-se que E(t + 1) pode ser calculado se existir informao sobre E(t), p(t + 1) e N (t + 1), quantidades as quais so, de fato, conhecidas. Em razo disso, PE(t+1) pode ser completamente determinado e, analoga-
70
mente ao clculo de PN (t+1) , dado por:
PE(t+1) = P( E(t + 1) | N (t + 1), p(t + 1), X (t))
= 1{E(t+1)=E(t)+QE ( p(t+1),N (t+1))} ,
(4.30)
onde Q E ( p(t + 1), N (t + 1)) uma matriz com dim( Q E ) = 1 K e com dependncia em N (t + 1) e p(t + 1). A k-sima entrada, k K, de tal matriz expressa por:
Q E ( p(t + 1), N (t + 1)) = 1{proprietario(k,t+1)} 1{

(k)
proprietario(k,t+1)} .
(4.31)
Observe que o argumento na funo indicadora na Equao (4.31) , essencialmente, a Equao (4.13) em uma forma compacta matricial. Foram utilizadas funes indicadoras para descrever os dois comportamentos que essa varivel aleatria pode mostrar: incremento ou decremento, de acordo com o proprietrio do vrtice que uma partcula especca est visitando. Supondo que a partcula k K esteja visitando um vrtice cuja proprietria a mesma partcula, ento apenas a primeira funo indica(k) dora da Equao (4.31) ativada, produzindo Q E ( p(t + 1), N (t + 1)) = 1. Similarmente, se a partcula k est visitando um vrtice de propriedade de partcula adversa, (k) ento a segunda funo indicadora ser ativada, resultando Q E ( p(t + 1), N (t + 1)) = 1. Esse comportamento, em conjunto com a Equao (4.30), exatamente a expresso dada pela Equao (4.13), porm em forma matricial. Em derradeiro, para o quarto e ltimo termo, PS(t+1) , existem mais informaes dadas em relao aos trs termos anteriores. Especicamente, neste caso, E(t + 1), N (t + 1), p(t + 1), e o estado anterior do sistema, X (t), so dados. Avaliando a Equao (4.14), verica-se que o clculo da k-sima entrada de S(t + 1) completamente caracterizado uma vez que seja conhecido o vetor estocstico E(t + 1). Logo, pode-se completamente determinar PS(t+1) , similarmente aos dois casos anteriores. Matematicamente, tem-se que:
PS(t+1) = P(S(t + 1) | E(t + 1), N (t + 1), p(t + 1), X (t))
= 1{S(t+1)=QS (E(t+1))} ,
(4.32)
onde QS ( E(t + 1)) uma matriz com dim( QS ) = 1 K e com dependncia em E(t + 1). A k-sima entrada, k K, de tal matriz calculada a partir da seguinte equao:
QS ( E(t + 1)) = 1{E(k) (t+1)=min } .

(k)
(4.33)
71
Substituindo as Equaes (4.27), (4.28), (4.30) e (4.32) na Equao (4.26), encontra-se a funo probabilstica de transio do sistema dinmico competitivo adaptado para o aprendizado semissupervisionado dada por:
P( X (t + 1) | X (t)) = 1{ N (t+1)= N (t)+Q N ( p(t+1))} 1{S(t+1)=QS (E(t+1))}
1{E(t+1)=E(t)+QE ( p(t+1),N (t+1))} Ptrans ( N (t), p(t)) = 1{Conformidade(t)} Ptrans ( N (t), p(t)),
onde Conformidade(t) uma expresso lgica dada por:
(4.34)
Conformidade(t) = [ N (t + 1) = N (t) + Q N ( p(t + 1))]
[S(t + 1) = QS ( E(t + 1))] [ E(t + 1) =

E(t) + Q E ( p(t + 1), N (t + 1))] ,
(4.35)
i.e., Conformidade(t) engloba todas as regras que devem ser satisfeitas para que cada uma das funes indicadores na Equao (4.34) sejam ativadas, i.e., resultem em 1. Se todos os valores fornecidos Equao (4.34) estiverem em conformidade com a dinmica do sistema, ento Conformidade(t) = verdadeiro; caso contrrio, se houver pelo menos uma medida que no segue as regras do sistema, ento, a partir da Equao (4.35), a cadeia de E lgicos produzir falso, logo, Conformidade(t) = falso e a funo indicadora 1{Conformidade(t)} na Equao (4.34) fornecer 0, resultando em uma probabilidade de transio nula. Com o intuito de obter N (t) quando t , o clculo da distribuio conjunta de todos os estados do sistema, X (0), . . . , X (t) ser til. Essa distribuio conjunta dada por:
P( X (0), . . . , X (t)) = P( X (t) | X (0), . . . , X (t 1)) P( X (0), . . . , X (t 1)),
(4.36)
Aplicando o teorema de Bayes sucessivas vezes, como mostrado apenas uma vez na Equao (4.36), chega-se a:
P( X (0), . . . , X (t)) = P( X (t) | X (0), . . . , X (t 1))
P( X (t 1) | X (0), . . . , X (t 2)) . . . P( X (1) | X (0)) P( X (0)),
(4.37)
A seguir, mostrada uma prova que o sistema Markoviano. Esta prova ser
72
utilizada para simplicar a Equao (4.37). Proposio 1. { X (t) : t 0} um processo Markoviano. Demonstrao. Nesta prova, procura-se concluir que o sistema completamente caracterizado por apenas o conhecimento do estado presente do sistema dinmico, i.e., tal sistema independe de todos os estados passados (inlar, 1975). Com isto em mente, a expresso probabilstica para realizar uma transio a um evento especco Xt+1 (um conjunto possvel de vrtices a ser visitado na prxima iterao) no tempo t + 1, dada toda a histria da trajetria do sistema, satisfaz:
P p t +1
P ( X (t + 1) Xt+1 | X (t), . . . , X (0)) = f N ( N ( t ), p t +1 ) : f E ( N ( t + 1 ), p t +1 ) X t +1 | X ( t ), . . . , X (0 ) . f S ( E(t + 1))
(4.38)
Uma vez estabelecido o valor de pt+1 , o qual deve respeitar a distribuio probabilstica dada pela linha correspondente a forma escalar de p(t) da matriz que comporta todas as partculas, Ptrans ( N (t)), possvel determinar N (t + 1), o qual, por sua vez, permite calcular E(t + 1). Essa informao, por ltimo, suciente para calcular S(t + 1). Logo, note que o clculo do estado presente no pode ser obtido de forma concorrente. Desta forma, este clculo deve ser realizado de forma ordenada at a obteno do estado interno inteiro, X (t). Mais ainda, como j foi estudado anteriormente, pt+1 independente do passado, em virtude de apenas necessitar de N (t) e p(t) para, de forma probabilstica, determinar a distribuio para o estado subsequente imediato. Usando esse fato, tem-se que:
P p t +1
f N ( N ( t ), p t +1 ) : f E ( N ( t + 1 ), p t +1 ) X t +1 f S ( E(t + 1)) f N ( N ( t ), p t +1 ) P p t +1 : f E ( N ( t + 1 ), p t +1 ) f S ( E(t + 1))
| X ( t ), . . . , X (0) =
X t +1 | X ( t ) = (4.39)
P ( X (t + 1) Xt+1 | X (t)) .
Finalmente, em vista da Equao (4.39), { X (t) : t 0} um processo Markoviano, uma vez que apenas depende do estado presente para completamente especicar o prximo estado.
73
Aplicando o fato provado na Proposio 1 Equao (4.37), tem-se:
P( X (0), . . . , X (t)) = P( X (t) | X (t 1)) P( X (t 1) | X (t 2))
. . . P( X (1) | X (0)) P( X (0)).
(4.40)
Utilizando a funo probabilstica de transio que rege o sistema , tal como indicada na Equao (4.34), a cada termo deslocado na Equao (4.40), obtm-se:
P( X (0), . . . , X (t)) = P( X (0)) 1{Conformidade(u)} Ptrans ( N (u), p(u)) ,

u =1
t 1
(4.41)
onde P( X (0)) = P( N (0), p(0), E(0), S(0)). Porm, o principal interesse dessa anlise de obter a distribuio marginal N (t) quando t . Tal quantidade pode ser recuperada a partir da distribuio conjunta calculada na Equao (4.41), fazendo a soma de todas as variveis aleatrias sem relevncia em todo o seu domnio, i.e., N (t 1), . . . , N (0), p(t), . . . , p(0), E(t), . . . , E(0), S(t), . . . , S(0). Seguindo essa estratgia para obter N (t), essencial estudar os limites inferior e superior de N (t) para um t arbitrrio, uma vez que o domnio de cada entrada da matriz N (t) [1, ). Com esse estudo, espera-se encontrar limites superiores atingveis para um determinado tempo t. Desta forma, valores que excedam esses limites so garantidos de ocorrerem com probabilidade nula; logo, tal anlise ser responsvel por podar uma grande quantidade de valores impraticveis. Mais importante, a somatria sobre todos os valores indesejados N (0), . . . , N (t 1) ser matematicamente assegurada de sempre existir, tendo em vista que existiro um nmero nito de termos na somatria, todos os quais limitados por um majorante nito, como ser visto. Esse majorante denido pelo Lema 1, portanto, a convergncia garantida. Tal Lema provado a seguir. Lema 1. O maior valor que uma entrada arbitrria de N (t) pode tomar, diga-se Ni (t), dado que i representa um vrtice no rotulado, expresso por:
(k)
(k) Nimax (t)
t +1 2
+ 1, se t > 0 e aii = 0
se t > 0 e aii > 0
t + 2,
(4.42)
Demonstrao. necessrio descrever a trajetria da partcula k que oferece o maior (k) aumento de Ni (t). Ora, para tanto, supe-se que a partcula k prontamente gerada no vrtice i, caso contrrio, o valor mximo terico no seria atingido. Por questes de clareza, considere dois casos especcos: (i) redes sem autolaos (self-loops) e (ii) redes
74
Figura 4.5: Uma rede construda para ilustrar a trajetria que uma partcula deve percorrer para aumentar uma entrada arbitrria de N (t) o mais rpido possvel. (a) Rede sem autolaos; (b) rede com autolaos.
com autolaos. Para o primeiro caso, tem-se que i V : aii = 0. Por hiptese, a partcula k comea no vrtice i no tempo 0 (como ilustrao, considere o vrtice 1 na Figura 4.5a). A forma (k) mais rpida de aumentar Ni (t) ocorre quando a partcula k visita um vizinho do vrtice i, e.g., vrtices 2 ou 3 na Figura 4.5a, e imediatamente retorna para o vrtice i (vrtice 1 na Figura 4.5a). Repetindo-se esta trajetria at o instante t, espera-se que (k) o maior valor de Ni (t) seja exatamente o exposto na primeira expresso da Equao (4.42). Para o segundo caso, i V : aii > 0. Considere que a partcula k comece exata(k) mente nesse vrtice i com autolao. Fica claro que a forma de aumentar Ni (t) mais rapidamente sempre revisitar i pela aresta de autolao (veja a Figura 4.5b). Em vista (k) disso, o maior valor que Ni (t), para um t arbitrrio, pode tomar exatamente aquele mostrado na segunda expresso da Equao (4.42). O fator +2 ocorre em razo da partcula inicialmente ser gerada no vrtice i, de acordo com a segunda expresso na Equao (4.23).
O Lema 1 no fornece informao sobre o limite mximo no caso de o vrtice ser pr-rotulado. No entanto, esta informao pode ser trivialmente obtida pelas condies iniciais do sistema. Considere que i seja um vrtice pr-rotulado e k seja a sua partcula representante, ento, com o auxlio da primeira expresso na Equao (4.23), (k) verica-se que Ni (t) = , t 0. Por conseguinte, esse valor permanece xo durante toda a evoluo do sistema dinmico. Assim, tais vrtices simplesmente so xados para um valor , ou seja, so considerados constantes j que este valor sempre ocorre com probabilidade 1 no ato do cmputo da distribuio marginal N (t). Em relao ao limite superior de uma entrada arbitrria de E(t), por exemplo, E(k) (t), sabe-se que existe um limite superior nito, no caso, E(k) (t)max = max . Logo, desde que max < , o limite superior da entrada E(k) (t) sempre bem denido. Entretanto, esta entrada no aceita apenas valores inteiros entre o intervalo [min , max ].
75
Portanto, tal anlise matemtica sobre essa varivel deve ser feita com cuidado. O Lema 2 fornece um resultado para auxiliar na resoluo deste detalhe. Lema 2. O domnio atingvel por uma entrada arbitrria de E(t), diga-se E(k) (t), t N, denotado aqui por D E , dado por: max min + n, n = { ni , . . . , nm } K max min min + n, n = 1, 2, . . . , max min , max n, n = 1, 2, . . . , min +
DE
(4.43)
onde ni =
max min K
0 e nm =
max min
1 K
0.
Demonstrao. Esta prova dividida em trs partes, as quais so denidas pelos trs conjuntos que aparecem na expresso do caput desse Lema. O primeiro conjunto responsvel por fornecer os valores que so mltiplos de tendo como offset a condio inicial de E(k) (0), i.e., E(k) (0) = min + max min , K tal como a Equao (4.24) revela. O mnimo valor atingvel de E(k) (0) dado quando n = ni , o qual calculado por:
max min K
ni =
min +
min
max min , K
(4.44)
enquanto que o maior valor atingvel ocorre quando n = nm satisfeito, i.e.:

max min K
max min + nm =
max min
1 K
(4.45)
Depois de transcorrido um tempo, a partcula k poder atingir um dos dois possveis extremos de energia permitidos: min or max . Em razo do operador max(.) na Equao (4.13), necessrio listar tambm todos os nmeros mltiplos de partindose desses dois offsets: min or max . O segundo conjunto no caput desse lema precisamente fornece estes mltiplos quando o offset tomado a partir de min e o terceiro conjunto, quando tomado max . Uma vez atingido um desses dois ltimos conjuntos, a partcula no mais sai deles, i.e., o primeiro conjunto ca inatingvel. Portanto, todos os valores de E(k) (t) foram apropriadamente mapeados. Por ltimo, o limite superior de uma entrada arbitrria S(t) 1, j que os valores que esta varivel pode tomar so {0, 1}. luz das anlises realizadas at ento, a
76
distribuio marginal de P( N (t)) dada por:
P( N (t)) =
p(1) (0)=1 p(2) (0)=1 g(0,1)
...
p(K ) (0)=1 g(0,V )
...
p(K ) (t)=1 g(t1,V )
(1) N1 (0)=1
g(0,1)
(2) N1 (0)=1
... ...
E
(K ) NV (0)=1
... ...
E
(K ) NV (t1)=1
i(1) (0)D
i(2) (0)D
i(K ) (0)D
i(K ) (t)DE
S(1) (0)=0 S(2) (0)=0 t 1
...
S(K ) (0)=0
...
E(K ) (t)=0
P( X (0)) 1{Conformidade(u)} Ptrans ( N (u), p(u))

u =1
(4.46)
onde g(t, i ) uma funo por partes que indica o valor mximo de N (t) no instante t para um vrtice i qualquer. Sua denio diretamente feita por intermdio do Lema 1:
g(t, i ) =
t +1 2
+ 1,
se aii = 0 se aii > 0
t + 2,
(4.47)
Os somatrios na primeira linha da Equao (4.46) so responsveis por passar por todos os valores possveis dos vetores estocsticos p(0), . . . , p(t). Os somatrios da segunda linha, por sua vez, passam por todos os valores atingveis de N (0), . . . , N (t 1). Cumpre relembrar que os ndices das partculas representativas aos seus respectivos vrtices que representam devem ser xados em , i.e., so tratados como constantes e, portanto, no aparecem no somatrio. A terceira linha fornece os somatrios que passam por todos os valores possveis de E(0), . . . , E(t), vetores estocsticos os quais constituem um caso especial em relao aos demais, uma vez que os valores tomados por estes podem ser no inteiros. Com o propsito de corretamente quanticar essas variveis, utiliza-se o conjunto DE denido no caput do Lema 2. Por ltimo, a quarta linha indica os somatrios responsveis por varrer todos os valores possveis de S(0), . . . , S(t). Observe que a expresso lgica Conformidade(u) e a matriz de transio dentro do produtrio so construdas a partir de todos esses ndices anteriores. Adicionalmente, sabe-se que P( X (0)) = P( N (0), p(0), E(0), S(0)), de tal forma que a condio inicial do sistema poderia ser uma distribuio tambm, i.e., o modelo matemtico apresentado tambm suporta incerteza sobre a distribuio inicial das partculas.
77
Uma anlise rpida e imprecisa poderia indevidamente levar a concluso que o clculo de P( N (t)) direto, uma vez que todos os P( N (t)) sejam calculados a partir da Equao (4.46), i.e., poderia-se aplicar a Equao (4.5) diretamente para resolver o mapeamento N (t) N (t). Esta hiptese est incorreta pela simples razo que, geralmente, h mais de 1 distinta matriz N (t) que pode levar ao mesmo valor da ma triz N (t). Por exemplo, considere hipoteticamente um problema com 3 partculas e 2 vrtices. Suponha que, no instante t, existam duas conguraes, geradas por dois processos distintos, para a matriz N (t), a seguir:
N (t) = N (t) =
1 1 1 1 2 3 2 2 2 2 4 6
, (4.48) .
Ento, as conguraes mostradas na Equao (4.48), em conjunto com a Equao (4.7), levariam concluso que as duas matrizes produzem o mesmo N (t) dado por:
N (t) =
1/3 1/6
1/3 1/3
1/3 1/2
(4.49)
Em vista disso, o mapeamento N (t) N (t) no injetivo e, portanto, no inversvel. O resultado derivado do cenrio anterior sugere que mltiplos inteiros positivos de N (t) compem o mesmo N (t). De fato, exatamente isto que ocorre. Antes de con tinuar a deduo do clculo de P( N (t)) a partir P( N (t)), o Lema a seguir apresenta alguns resultados importantes. Lema 3. Dado qualquer vrtice i no rotulado, as seguintes asseres valem para o tempo t: (k) (a) O mnimo valor que uma entrada arbitrria de N (t) pode atingir, diga-se Ni (t), satisfaz: (k) Nimin (t) = 1 1 + uK \ {k} g(t, u)
(k)
(4.50)
(b) O maior valor que uma entrada arbitrria de N (t) pode atingir, diga-se Ni (t), satisfaz: (k) Nimax (t) = g(t, i ) g(t, i ) + (K 1) (4.51)
Demonstrao. (a) Por hiptese, o vrtice i no rotulado. O menor valor, segundo a Equao (4.7), ocorre quando trs condies so satisfeitas: (i) a partcula k no inicialmente gerada no vrtice i; (ii) a partcula k nunca visita o vrtice i; e (iii) todas as
78
outras K 1 partculas u K \ {k} visitam o vrtice i da maneira mais rpida possvel, i.e., seguindo o Lema 1. Assim, tal vrtice ser visitado uK \ {k} g(t, u) vezes pelas outras partculas. Porm, tendo em vista a inicializao de N (0) mostrada na segunda expresso da Equao (4.23), deve-se adicionar 1 ao total de visitas, em funo da existncia da partcula k. Em virtude disso, esperado que o total de visitas seja 1 + uK \ {k} g(t, u). Como a partcula k s visitou uma vez o vrtice i, em consonncia Equao (4.7), chega-se Equao (4.50). (b) Por hiptese, o vrtice i no rotulado. O maior valor ocorre quando as seguintes condies so satisfeitas: (i) a partcula k gerada no vrtice i; (ii) a partcula k visita i do jeito mais rpido possvel, i.e., seguindo a expresso no Lema 1; e (iii) as outras partculas u K \ {k } nunca visitam o vrtice i. Desta forma, espera-se que g(t, i ) + (K 1) visitas sejam feitas ao vrtice i, sendo que o segundo termo devido inicializao de N (0) conforme a segunda expresso indicada na Equao (4.23) para as K 1 partculas restantes. Esta informao, em conjunto com a Equao (4.7), implica a Equao (4.51).
Observao 2. Se o grafo no contiver autolaos, a Equao (4.50) reduz-se a:
(k) Ni (t) =
min
1 . 1 + (K 1) g(t, i )
(4.52)
O Lema seguinte fornece subsdios para determinar todos os elementos que inte gram as entradas da matriz N (t), entre os limites assegurados pelo Lema 3. Lema 4. Considere as fraes irredutveis denotadas da seguinte forma num/den. O domnio (k) atingvel de qualquer entrada de N (t), diga-se Ni (t), denotado por I . Tal conjunto contm todos os valores que so satisfeitos pelas seguintes condies: (i) Em relao aos vrtices no rotulados: (a) A menor frao irredutvel dada pela expresso na Equao (4.50). (b) A maior frao irredutvel dada pela expresso na Equao (4.51). (c) As fraes irredutveis no intervalo satisfazendo aos itens (a) e (b) no caput desse Lema tm a forma: I. num, den N . II. num g(t, i ) III. den uK g(t, u) (ii) Em relao aos vrtices pr-rotulados:
79
(a) Sempre ser 0, caso a partcula k no represente o vrtice i. (b) Sempre ser 1, caso a partcula k represente o vrtice i. Demonstrao. A primeira parte dessa prova relativa ao item (i) do caput. (a) e (b) Diretos a partir do Lema 3. (k) (c) Para o inciso I, lembrando que a entrada Ni (t) admite apenas valores inteiros (k) e, tendo em vista que Ni (t) calculado a partir da Equao (4.7), i.e., uma razo de nmeros inteiros, segue que o numerador e denominador das fraes irredutveis sempre sero inteiros, logo o inciso I est demonstrado. Para o inciso I I, vale lembrar que o maior nmero de visitas que um vrtice pode receber dado de acordo com o Lema 1. Com isso em mente e vendo que o numerador da frao irredutvel, conforme indicado na Equao (4.7), s contabiliza o nmero de visitas feita por uma partcula a um vrtice, segue que o majorante do numerador dado por g(t, i ) e o inciso I I est provado. Para o inciso I I I, aplica-se a mesma ideia que a anterior, porm deve ser levado em considerao que no denominador aparece a soma de visitas feitas por todas as partculas ao vrtice i no instante t, conforme a Equao (4.7) mostra. Assim, o majorante do denominador est demonstrado. A segunda parte relativa ao item (ii) do caput. (a) Por hiptese, a partcula k no representante do vrtice i. Como o vrtice i (u) rotulado, u K : Ni (t) = . Em vista das Equaes (4.7) e (4.23), obtm-se (k) Ni (t) = 0. (b) Por hiptese, a partcula k representante do vrtice i. Ora, pelas Equaes (4.7) (k) e (4.23), obtm-se Ni (t) = 1. Uma outra caracterstica interessante do conjunto I dada no Lema a seguir. Lema 5. Dado um instante t , o conjunto I indicado no Lema 4 sempre nito. Demonstrao. Para mostrar esse lema, basta vericar que cada item apresentado no caput do Lema 4 nito. Quanto ao item (i): (a) e (b) so escalares, logo, trata-se de conjuntos de um elemento, que, por denio, so sempre nitos. (c) O inciso I indica um nmo tanto para o numerador quanto para o denominador. Os incisos I I e I I I revelam um majorante para o numerador e denominador, respectivamente. Tambm pelo inciso I, verica-se que o intervalo entre o nmo e majorante discreto. Segue, portanto, que, com certeza, o nmero de fraes irredutveis construdas a partir desses valores tambm ser discreto. Quanto ao item (ii): (a) e (b) so escalares, logo constituem um conjunto nito. Como todos os itens acima analisados tm um nmero nito elementos, e tendo em vista que I a unio de todos estes conjuntos, segue que o mesmo nito.
80
O Lema 4 fornece o domnio atingvel de I para um entrada especca de N (t), (k) diga-se Ni (t). A seguir, essa ideia simplesmente estendida para o espao gerado pelas matrizes N (t), i.e., restringe-se cada entrada da matriz em apreo a pertencer a I . Matematicamente, o conjunto de valores gerados nesse espao ser denominado M, i.e.:
(k) { N : Ni I , (i, k) S}.
(4.53)
Em funo das consideraes anteriores, a distribuio N (t) para um t arbitrrio dada por:
P N (t) = U : U M =
u =1
L = uN (t) : L = U ,
(4.54)
onde o limite superior do somatrio mostrado na Equao (4.54) tomado usando uma abordagem conservativa. De fato, a probabilidade que eventos, tais como qualquer entrada N (t) superar g(t, i ), ocorram nula. Em virtude disso, plausvel parar o somatrio to logo que qualquer entrada da matriz uN (t) exceda esse mximo atingvel, para um u > 0. Esta observao foi omitida da Equao (4.54) por questes de clareza. Conforme t , esperado que a Equao (4.54) revele as classes de cada vrtice, a partir do nvel de dominao aplicado pelas partculas de uma maneira fuzzy. Tal classicao feita vericando o rtulo da partcula que impe o maior nvel de dominao a cada um dos vrtices no rotulados.
4.2.2
Um Exemplo Numrico
Para ns de clareza, nesta seo, ser aplicado os resultados tericos derivados na seo anterior a uma rede simples. Com propsito ilustrativo, apenas uma iterao do sistema ser analisada, especicamente, a transio de t = 0 para t = 1. Considere o simples exemplo composto por uma rede regular de 3 vrtices, idntica quela mostrada na Figura 4.5a. Nesta rede, considere que o vrtice v1 seja pr-rotulado como sendo pertencente classe 1 e o vrtice v2 , classe 2, i.e., V = {v1 , v2 , v3 }, VL = {v1 , v2 } e C = {1, 2}. Claramente, o vrtice v3 possui caractersticas de sobreposio entre as classes 1 e 2. Agora, ser teoricamente mostrado este comportamento nesta seo. Suponha a seguinte congurao arbitrria: K = 2 partculas so inseridas na rede, i.e., K = {1, 2}, em que a partcula 1 representa o vrtice v1 (i.e., ela propagar o rtulo do vrtice v1 ) e a partcula 2, o vrtice v2 , i.e., L = {(v1 , 1), (v2 , 2)}. Considere tambm que exista certeza sobre a localizao das partculas no instante t = 0, cuja distribuio
81
satisfaz expresso:
1 P N (0) = 1 , p(0) = [v1 v2 ] , E(0), S(0) = 1, 1 1
(4.55)
i.e., existe 100% de certeza que as partculas 1 e 2 sero geradas nos vrtices v1 e v2 , respectivamente, no tempo t = 0. Observe que N (0), E(0) e S(0) foram escolhidos com o m de satisfazer s Equaes (4.23), (4.24) e (4.25), respectivamente; caso contrrio, a probabilidade valeria 0, em vista da Equao (4.34). A partir da Figura 4.5a, fcil deduzir a matriz de adjacncia A do grafo e, portanto, determinar a matriz associada movimentao aleatria para uma partcula (lembrando que essa matriz idntica a todas as partculas). Ento, aplicando a Equao (4.2) matriz de adjacncia A, resulta em:
Paleat
0 0.50 0.50 = 0.50 0 0.50 . 0.50 0.50 0
(4.56)
Dado N (0), pode-se prontamente estabelecer o valor da matriz N (0) por intermdio da Equao (4.7):
1 0 N (0) = 0 1 . 0.50 0.50
(4.57)
Usando a Equao (4.8), pode-se calcular as matrizes associadas movimentao preferencial das partculas a seguir:
0 0 1 (1) Ppref (0) = 0.67 0 0.33 1 0 0 0 0.67 0.33 (2) Ppref (0) = 0 0 1 0 1 0
, . (4.59) (4.58)
Com o propsito de simplicar os clculos, seja = 1, de tal forma que a Equao (1) (2) (4.1) reduz-se a Ptrans (0) = Ppref (0) Ppref (0), pois as partculas esto ativas. Tal ma-
82
triz possui dimenses 9 9. Ao invs de construir esta matriz, utiliza-se a Observao 1 para montar p(1) com uma coleo de 2 matrizes 3 3, tais como mostradas nas Equaes (4.58) e (4.59). Observe que, no caso especial em que = 1, a matriz de transio das partculas simplica-se para somente a matriz de movimentao preferencial de cada partcula, dado que as partculas estejam ativas. Para a primeira partcula, verica-se com o auxlio da Equao (4.58) que, comeando do vrtice v1 (linha 1), somente existe um vrtice possvel para a partcula visitar, no caso, o vrtice v3 . Para a segunda partcula, o mesmo raciocnio pode ser utilizado para chegar concluso que o vrtice v3 tambm o nico possvel de ser visitado. Com isto em mente,
1 P N (1) = 1 , p(1) = [v3 v3 ] , E(1), S(1) | X (0) = 1, 2 2
(4.60)
onde X (0) dado pela Equao (4.55). Alm disso, como foi xado = 1, esperado que a transio das partculas seja altamente dependente em relao aos nveis de dominao impostos sobre os vrtices da rede. Logo, dado que os vrtices pr-rotulados constituem foras extremamente repulsivas que agem contra partculas rivais, o comportamento preferencial dessas partculas no ir se aventurar sobre estes tipos de vrtices. Isto serve como uma explicao natural de o estado p(1) = [v3 v3 ] ser o nico estado atingvel na prxima iterao do sistema competitivo. Antes de realizar o cmputo da distribuio marginal P( N (1)), necessrio xar um limite superior para um entrada arbitrria de um vrtice no rotulado da matriz N (1). Tal quantidade pode ser prontamente avaliada a partir da Equao (4.42). Apli(k) cando a referida equao, obtm-se g(1, i ) = Nimax (1) = 2, i V , implicando que s necessrio tomar as combinaes numricas da matriz N (1) tal que cada entrada da mesma deve gurar entre os valores {1, 2}, uma vez que, segundo o Lema 1, valores maiores ocorrem com probabilidade nula. Adicionalmente, deve-se iterar o sistema sobre os valores atingveis de E(0) e E(1). Para tanto, xa-se, para efeitos didticos, = 0.25, min = 0 e max = 1. Com isso, possvel utilizar o Lema 2, produzindo E(t) {0, 0.25, 0.5, 0.75, 1}. Os limites das variveis do sistema remanescentes, i.e., S(0) e S(1), so triviais. Nas condies presentes, e tendo em vista os clculos anteriores, tem-se informao suciente para calcular a distribuio marginal P( N (1)), em consonncia com a Equao (4.46):
1 P N (1) = 1 = 1 1 = 1. 2 2
(4.61)
83
Como ltimo objetivo, a tarefa determinar a distribuio P( N (1)). Segundo os passos especicados na seo anterior, preciso encontrar todos os elementos ating veis para um entrada arbitrria de N (1). Tais elementos comporo o conjunto I . Isto signica que apenas necessrio considerar entradas da matriz N (t) que contenham elementos do conjunto I ; os valores remanescentes de N (t) so inatingveis e, portanto, ocorrem com probabilidade nula. Em vista das restries anteriormente listadas, para calcular I , utilizam-se o Lema 3 e a Observao 2:
1 1 1 = = , 1 + (K 1) g(t, i ) 1 + (2 1)2 3 2 2 g(t, i ) (k) Nimax (t) = = = . g(t, i ) + (K 1) 2 + (2 1) 3 (k) Nimin (t) =
(4.62) (4.63)
Assim, pelo Lema 4, tem-se I = {0, 1/3, 1/2, 2/3, 1}. de extrema valia notar que os nicos valores que os vrtices 1 e 2 (pr-rotulados) podem tomar so {0, 1} I , como foi visto anteriormente. Observando que h conhecimento sobre a distribuio completa de N (1), ento aplica-se a Equao (4.54) para encontrar P( N (1)) a seguir:
1 0 P N (1) = 0 1 = 1. 0.5 0.5
(4.64)
Perceba que o mapeamento entre as distribuies N (t) e N (t) no bijetivo. Neste exemplo especial elaborado para estudo, no houve N (t) distintos que gerassem o mesmo N (t). Mas, conforme t progride no tempo, isto comea a ocorrer com mais frequncia. Este processo mostrado nesta seo repetido at um t sucientemente grande. Uma anlise detalhada do comportamento do sistema que foi derivado sugere que a Equao (4.64) vale para todo t 1 e as partculas 1 e 2 visitaro o vrtice v3 com perodo 2. Logo, isto prova que o vrtice v3 pode pertencer a mais de uma classe (sobreposio).
4.2.3
Validao dos Resultados Tericos
Nessa seo, ser demonstrado que os resultados tericos apresentados na seo anterior aproximam o comportamento emprico do modelo competitivo estocstico, quando executa-se o algoritmo um grande nmero de vezes independentemente. Baseado nisso, ser utilizada a rede mostrada na Figura 4.2, i.e., V = {v1 , . . . , v20 }. Arbitrariamente, rotulam-se dois vrtices, no caso, v6 com um rtulo vermelho e v18 com um rtulo azul. Colocam-se duas partculas K = {1, 2} na rede, onde a partcula 1
84
inicialmente xada no vrtice v6 e ser responsvel por propagar o rtulo vermelho, e a partcula 2 posta no vrtice v18 , sendo incumbida de propagar o rtulo azul. Para ambas comparaes terica e emprica, convencionam-se = 0.6, = 0.07, min = 0 e max = 1. Para a avaliao emprica, uma vez que o modelo competitivo estocstico, existe a necessidade de estimar o nvel de dominao emprico, traduzido pela matriz N (t). Para tanto, o algoritmo ser executado 10000 vezes independentemente. Para cada execuo, o sistema dinmico iterado at t = 1000 e a matriz de nvel de dominao armazenada, i.e., N (1000). Agora, uma vez calculadas as 10000 matrizes de nvel de dominao, so construdos V K histogramas, com cada histograma representando uma entrada da matriz N (1000), a qual possui V K entradas. Cada histograma (k) populado segundo o valor Ni (1000),(i, k) S atingido em cada execuo do algoritmo. Por exemplo, colocam-se todos os nveis de dominao impostos pela partcula (vermelha) (1000), em um nico histograma para todas as vermelha no vrtice v1 , i.e., N1 10000 execues do algoritmo. Uma vez que o nvel de dominao contnuo no intervalo [0 1], tal intervalo discretizado usando cestas com largura de 0.01, i.e., 100 cestas. No m, para obteno de uma distribuio probabilstica estimada, cada histograma normalizado. Em relao ao clculo terico do nvel de dominao para a rede na Figura 4.2, utiliza-se diretamente a Equao (4.54) para calcular N (1000). Uma vez que no possvel plotar a distribuio probabilstica dessa matriz, j que ela est no espao V K + 1, tal distribuio marginalizada em trs vrtices especcos, de tal forma que seja possvel gracamente demonstrar a distribuio resultante. Este processo realizado nos vrtices v4 (membro da classe vermelha), v11 (vrtice na borda das duas classes) e v16 (membro da classe azul). A Figura 4.6 mostra a distribuio de probabi lidade estimada empiricamente (curva azul) da matriz de dominao N (1000) nestes trs vrtices vrtices, bem como a mesma informao para a distribuio terica obtida (curva vermelha). O grco emprico foi interpolado para uma curva contnua para efeitos ilustrativos. Como pode ser visto a partir da Figura 4.6a, o vrtice v4 quase integralmente dominado pela partcula vermelha, uma vez que o nvel de dominao imposto por esta partcula aproxima de 1 (e, consequentemente, o nvel de dominao imposto pela partcula neste mesmo vrtice decai para 0). A Figura 4.6b conrma a natureza de sobreposio entre duas classes para o vrtice v11 , j que os nveis de dominao das duas partculas so quase os mesmos. A Figura 4.6c indica que a partcula vermelha tem pouca dominao sobre o vrtice v16 . Estas curvas devem ser interpretadas da seguinte maneira: toma-se a Figura 4.6a por exemplo. Existe 34% de chance que o nvel de dominao que a partcula vermelha impor ao vrtice v4 esteja nas redondezas do valor 0.88 (a redondeza denida pelo tamanho da cesta que, no caso, vale 0.01) se o sistema competitivo foi iniciado em t = 0 e parado em t = 1000. Outros valo-
85
res so possveis, mas ocorrem mais raramente. Como pode-se visualmente vericar, os resultados tericos modelam, mesmo que de forma aproximada, o comportamento emprico das simulaes, conrmando, desta forma, a anlise terica conduzida na seo anterior.
0.4
0.5
0.4
Distribuio Terica Distribuio Emprica

0.32
0.4
0.32
Probabilidade
Probabilidade
0.24
0.3
Probabilidade
0.2 0.4 0.6 0.8 1
0.24
0.16
0.2
0.16
0.08
0.1
0.08
0 0
0.2
0.4
0.6
0.8
0 0
(vermelha) (1000) N4
0 0
0.2
0.4
0.6
0.8
(a)
(b)
(c)
Figura 4.6: Comparao entre as distribuies terica e emprica para trs vrtices distintos: v4 , v11 e v16 em relao ao nvel de dominao imposto pela partcula vermelha. Pode-se vericar que o nvel de dominao mais provvel que a partcula vermelha impor ao vrtice v4 ser aproximadamente de 0.88 com 34% de chance, ao vrtice v11 ser 0.53 com 47% de chance, e ao vrtice v16 ser 0.14 com 33% chance.
4.3
Simulaes Computacionais
Nesta seo, resultados experimentais sero conduzidos com o intuito de avaliar a eccia e qualidade do modelo competitivo proposto. Especicamente, na Subseo 4.3.1, ser estudada a sensibilidade dos parmetros do modelo; na Subseo 4.3.2, ser examinado o comportamento do sistema dinmico por meio de uma simples rede articial; e na Subseo 4.3.3, resultados em bases de dados reais so mostrados. No caso, utiliza-se o benchmark de Chapelle et al. (2006) e vrias tcnicas representativas semissupervisionadas para efeitos de comparao.
4.3.1
Anlise Emprica da Sensibilidade dos Parmetros do Modelo
Primeiramente, ser estudado o comportamento do modelo frente a variaes do parmetro , o qual responsvel por contrabalancear a proporo de caminhadas aleatria e preferencial realizadas por todas as partculas no modelo. Para tanto, sero utilizadas redes clusterizadas aleatrias, cujo mtodo de construo j foi explicado anteriormente. A Figura 4.7 mostra como a acurcia de classicao do modelo se comporta como uma funo de de 0 (caminhadas puramente aleatrias) at 1 (caminhadas puramente preferenciais). Como pode ser observado pela gura, este parmetro sensvel ao resultado nal do modelo. Usualmente, a acurcia tima atingida pelo
86
modelo ocorre quando uma mistura de caminhadas aleatria e preferencial escolhida. Especicamente, para 0.5 0.8, o modelo gera bons resultados preditivos.
0.8
0.7
Acurcia
0.6
0.5
0.4
0.3
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Figura 4.7: Acurcia de classicao vs. . Nestas simulaes, N = 1000, h 4 comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.07. Cada ponto na curva a mdia de 100 realizaes. As barras verticais indicam o desvio padro.
Outro parmetro importante que precisa ser estudado , o qual entra em cena no ato de atualizao da energia das partculas. Novamente, redes aleatrias clusterizadas sero empregadas para anlisar o comportamento desse parmetro. A Figura 4.8 retrata a acurcia de classicao atingida pelo algoritmo em funo de . Pode-se vericar que, para valores intermedirios de , no caso, 0.05 < < 0.4, o modelo no muito sensvel a este parmetro. Entretanto, conforme ca maior, o desempenho do algoritmo comea a ser prejudicado. Isto ocorre porque, para um max , ca extremamente difcil de uma partcula mudar o proprietrio de um vrtice anteriormente dominado por outra partcula rival. A razo decorrente disso que, to logo uma partcula visite um vrtice no dominado por ela, sua energia atingir o patamar mnimo instantaneamente, fazendo com que ela se torna exausta e volte ao seu territrio de origem. Pode-se entender esse processo com um hard labeling articial. Por outro lado, para um min , as partculas estaro livres para viajar na rede sem quaisquer penalidades sobre suas correspondentes energias. Assim, elas raramente se tornaro exaustas. Em vista disso, todos os vrtices da rede estaro em constante competio e as bordas das classes no sero estabelecidas. Cumpre ressaltar que min e max no precisam ser analisados, j que apenas denem um intervalo. A anlise de j incorpora, de forma indireta, a anlise desses dois parmetros. Por exemplo, suponha que = 0.25, min = 0 e max = 1. Caso fosse desejado que a partcula se tornasse exausta duas vezes mais rapidamente, apenas dobraria-se para 0.5, ao invs de diminuir pela metade max . Em suma, diante
4.3 - Simulaes Computacionais
87
da anlise realizada, pode-se concluir que no um parmetro muito sensvel, uma vez que o intervalo que apresenta bons resultados bem amplo. Tendo em vista essas anlises, em todas simulaes seguintes, os seguintes parmetros sero utilizados: = 0.07, min = 0 e max = 1.
0.76 0.74 0.72
Acurcia
0.7 0.68 0.66 0.64 0.62 0.6 0
0.2
0.4
0.6
0.8
Figura 4.8: Acurcia de classicao vs. . Nestas simulaes, N = 1000, h 4 comunidades de mesmo tamanho, k = 16, zout/ k = 0.4 e = 0.6. Cada ponto na curva a mdia de 100 realizaes. As barras verticais indicam o desvio padro.
4.3.2
Simulaes com Bases de Dados Articiais
Com a inteno de facilitar o entendimento de como a tcnica aqui estudada funciona, sero projetadas bases de dados articiais com apenas duas classes, cada qual com 50 vrtices. K = 2 partculas so inseridas na rede, cada qual representando uma classe. Com essa base de dados articial, ser observado o comportamento evolucional das partculas proprietrias de cada vrtice. A Figura 4.9a indica a congurao inicial da rede, onde os crculos coloridos simbolizam vrtices rotulados. Os dados escuros denotam dados ainda no dominados por nenhuma partcula. A propriedade de cada vrtice dada pela partcula que impe o maior nvel de dominao sobre o mesmo e ser didaticamente indicada pelas cores dos vrtices (azul ou vermelho). Para esta simulao, ser utilizado = 0.6. De acordo com a Equao (4.23), os vrtices pr-rotulados tm sua propriedade xada como sendo a partcula a qual o representa. Conforme o sistema dinmico evolui, as partculas visitam os vrtices da rede em consonncia com a funo probabilstica de transio dada na matriz Ptrans (t). A Figura 4.9b mostra como os vrtices esto dominados para t = 100, a Figura 4.9c, para t = 200, e a Figura 4.9d revela as partculas proprietrias dos vrtices no estado em que j no h mais mudana de dominao entre os vrtices, o qual atingido quando
88
t = 300. Ainda para a mesma rede, ser vericado como o nvel de dominao mdio dos vrtices de uma classe se comporta para as duas partculas no modelo. A Figura 4.10a indica o nvel de dominao mdio imposto pela partcula representando o vrtice pr-rotulado azul nos vrtices v1 ao v50 (classe azul) e v51 ao v100 (classe vermelha), enquanto que a Figura 4.10b exibe a mesma informao para a partcula representando o vrtice pr-rotulado vermelho. Claramente, conforme o tempo progride, pode-se vericar que as duas classes so, de maneira inequvoca, separadas pelo sistema competitivo.
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
0.5
0.75
(a)
(b)
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
0.5
0.75
(c)
(d)
Figura 4.9: Ilustrao de um processo de classicao semissupervisionada via competio de partculas. As redes possuem 100 vrtices. Vrtices escuros ainda no foram dominados por nenhuma partcula. As cores nos vrtices representam a partcula que o est dominando. Retrato da rede quando: (a) t = 0; (b) t = 100; (c) t = 200; e (d) t = 300.
Seguindo com os exemplos articiais, agora, a tcnica de competio de partcula ser aplicada em classes de dados com distribuies arbitrrias. Para tanto, ser utili-
89
1 0.9 0.8 0.7
1 0.9
Vertices 1 ao 50 Vertices 51 ao 100
0.8 0.7
Vertices 1 ao 50 Vertices 51 ao 100
N.(1)(t)
0.6 0.5 0.4 0.3 0.2 0.1 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
N.(2)(t)
tempo
0.6 0.5 0.4 0.3 0.2 0.1 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
tempo
(a)
(b)
Figura 4.10: Comportamento evolucional do nvel de dominao mdio imposto pelas partculas no modelo. (a) Nvel mdio de dominao imposto pela partcula 1; e (b) Mesma informao para a partcula 2.
zado o pacote PRTools (Duin, 2000) que automaticamente gera distribuies no triviais e bem conhecidas na literatura para problemas de classicao. Para todas as simulaes realizadas com estes tipos de classe, h a necessidade de construo da rede a partir do conjunto de dados de entrada. Neste caso, cada item de dado representado por um vrtice. Arbitrariamente, ser escolhida a tcnica k-vizinhos mais prximos com k = 5, i.e., cada vrtice conectado com os seus 5 vizinhos mais prximos segundo uma medida de similaridade, a qual aqui tomada como sendo a Euclidiana. Para cada 50 vrtices gerados, escolhe-se aleatoriamente um entre eles e o pr-rotula. Para cada vrtice rotulado, uma partcula representante gerada. Note que, neste caso, haver cooperao entre partculas oriundas do mesmo time. Conforme j visto, para obter o nvel de dominao agregado de um time de partculas sobre um vrtice, apenas somam-se os nveis de dominao de cada partcula constituinte do time sobre o mesmo vrtice. O primeiro conjunto de dados, como mostrado na Figura 4.11a, consiste em 600 exemplos igualmente divididos em duas classes com formatos de banana. O resultado exibido na Figura 4.11b. A segunda base de dados, a qual pode ser vista na Figura 4.11c, composta de 600 exemplos igualmente divididos em duas classes Highleyman. O resultado correspondente fornecido na Figura 4.11d. A terceira base de dados, como retratada na Figura 4.11e, engloba 550 exemplos divididos em duas classes Lithuanian. O resultado dado na Figura 4.11f. A quarta base de dados, como pode ser visualizada na Figura 4.11g, construda a partir de 800 exemplos igualmente dividos em quatro classes seguindo distribuies Gaussianas. O resultado indicado na Figura 4.11h. Enm, segundo os dados de entrada, todos os resultados obtidos so visualmente satisfatrios, reforando o argumento de robustez da tcnica frente a
90
dados de distribuies arbitrrias.
4.3.3
Simulaes em Bases de Dados Reais
Nesta seo, o desempenho do modelo proposto ser avaliado a partir de bases de dados reais. Para tanto, os experimentos sero conduzidos em 7 conjuntos de dados semissupervisionados que compem o benchmark de Chapelle et al. (2006). Um breve descrio dos metadados de tais bases de dados fornecida na Tabela 4.2. Cada base de dado neste benchmark, especialmente as construdas articialmente (primeiras 3 bases da tabela), foi projetada no propsito de criar situaes que correspondem a hipteses que a maioria dos algoritmos semissupervisionados se baseiam, quais sejam: suavidade, cluster e manifold. As outras 4 bases de dados so construdas a partir de dados de aplicaes reais.
Tabela 4.2: Metadados do benchmark de Chapelle et al. (2006)
Base de Dados g241c g241d Digit1 USPS COIL BCI Text
Classes 2 2 2 2 6 2 2
Dimenso 241 241 241 241 241 117 11960
Nmero de Exemplos 1500 1500 1500 1500 1500 400 1500
Tipo articial articial articial no balanceada dados esparsos
O benchmark de Chapelle et al. (2006) utilizado da seguinte forma: para cada base de dados citada na Tabela 4.2, dois tipos de experimentos sero realizados: 10 e 100 vrtices inicialmente pr-rotulados. A escolha dos vrtices pr-rotulados realizada de tal forma a assegurar que exista pelo menos 1 vrtice pr-rotulado de cada classe para cada congurao. Assim, para cada base de dados e congurao inicial de vrtices pr-rotulados (10 ou 100), o benchmark fornece 12 conjuntos diferentes de vrtices prrotulados. Para cada um desses conjuntos, o modelo competitivo rodado 100 vezes independentemente. Finalmente, o erro do conjunto de teste para cada base de dados calculado tomando-se a mdia dessas 12 100 = 1200 execues do algoritmo. Para ns de comparao, so tambm conduzidos experimentos com tcnicas representativas de classicao semissupervisionada. Os resultados obtidos para essas tcnicas foram extrados de Chapelle et al. (2006), exceto para as tcnicas LGC, LP, and LNP. Por questes de clareza, uma breve descrio de cada uma dessas tcnicas dada na Tabela 4.3. A congurao paramtrica dos algoritmos pode ser consultada diretamente na descrio minuciosa em (Chapelle et al., 2006) e nas referncias mostradas na tabela em comento. Em relao s tcnicas LGC, LP, and LNP, os seguintes parmetros
91
1 0.75
1 0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
0.5
0.75
(a)
1 1
(b)
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
0.5
0.75
(c)
1 1
(d)
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
0.5
0.75
(e)
1 1
(f)
0.75
0.75
0.5
0.5
0.25
0.25
0.25
0.5
0.75
0.25
0.5
0.75
(g)
(h)
Figura 4.11: Classicao de dados semissupervisionada. A cor do vrtice indica a partcula que o est dominando. Os pontos escuros so vrtices ainda no dominados. (a) e (b) Duas classes com formatos de banana; (c) e (d) Duas classes, cada qual seguindo uma distribuio Highleyman; (e) e (f) Duas classes, cada qual seguindo uma distribuio Lithuanian; (g) e (h) Quatro classes, cada qual seguindo uma distribuio Gaussiana.
92
foram utilizados: (i) LGC: como sugerido pelos autores em (Zhou et al., 2004), = 0.99 e escolhido como o valor que resulta na melhor acurcia de classicao no intervalo discretizado {0, 1, . . . , 100}; (ii) LP: o timo determinado da mesma forma que na tcnica anterior no intervalo discretizado {0, 1, . . . , 100}; (iii) como sugerido pelos autores em (Wang e Zhang, 2008), = 0.99 e k escolhido da mesma forma no intervalo discretizado k {1, 2, . . . , 100}. Quanto ao algoritmo competitivo, uma vez que ele baseado em redes, necessitase de uma tcnica de formao de redes. No caso, foi escolhida a tcnica k-vizinhos mais prximos e o valor de k otimizado no intervalo discretizado k {1, 2, . . . , 10}. Quanto aos parmetros internos do sistema dinmico, otimizado no intervalo discretizado {0.5, 0.51, . . . , 0.8}. O nmero de partculas inserido na rede igual ao nmero de dados rotulados. A posio inicial das partculas xada como o vrtice o qual a mesma representante. Os valores obtidos pelo modelo so extrados da mdia atingida pelo algoritmo em 100 realizaes em cada uma das 12 conguraes acima explicadas. Os resultados obtidos para essas tcnicas, para o caso de apenas 10 vrtices pr-rotulados, so reportados na Tabela 4.4, enquanto que os resultados atingidos pelos mesmos algoritmos em apreo, no caso de 100 vrtices pr-rotulados, so fornecidos na Tabela 4.5. Em ambas as tabelas, tambm indicada a posio mdia de cada algoritmo, medida a qual calculada da seguinte forma: (i) para cada base de dados, os algoritmos so ordenados segundo seu desempenho em relao ao erro cometido no conjunto de testes, i.e., o melhor algoritmo ordenado em primeiro lugar, o segundo melhor, em segundo lugar, e assim sucessivamente; e (ii) para cada algoritmo, a posio mdia dada pela mdia das posies atingidas em cada base de dados. Uma anlise atenta das Tabelas 4.4 e 4.5 revela que a tcnica baseada em competio de partculas obteve resultados satisfatrios em relao aos outros mtodos. Especicamente, para o caso de poucos vrtices pr-rotulados (10 vrtices), a tcnica em apreo atingiu melhores resultados em relao ao seu desempenho com 100 vrtices inicialmente pr-rotulados. Isto uma caracterstica interessante, uma vez que a tarefa de rotulao de vrtices geralmente onerosa e propensa a erros, j que envolve a participao de especialistas humanos. De forma a analisar os resultados obtidos nas Tabelas 4.4 e 4.5 e vericar se o algoritmo proposto realmente apresenta relevncia estatstica, ser aplicado uma mtodo estatstico conforme proposto em Demar (2006) e Chateld (2009). A tcnica descrita nos artigos ora citados utiliza a informao da posio (rank) atingida por cada algoritmo para cada base de dados, i.e., a posio mdia, j apresentada anteriormente. Essas posies mdias de cada algoritmo so avaliadas segundo o Teste de SkillingsMack (reduz-se ao Teste de Friedman quando no existem valores ausentes na tabela). Tal teste estatstico indicado para vericar se as posies mdias dos algoritmos diferem da esperana da posio. A hiptese nula que todos os algoritmos so idnticos,
93
logo, suas posies mdias so iguais. Doravante, para todos os testes futuros, xado um nvel de signicncia de 10%. Para os experimentos nas Tabelas 4.4 e 4.5, segundo Demar (2006) e Chateld (2009), tem-se que N = 7 e k = 17, resultando em um valor crtico igual a F (16, 96) 1, 55, onde os dois argumentos da funo F derivam dos graus de liberdade denidos como k 1 e ( N 1)(k 1), respectivamente. Em relao Tabela 4.4, obtm-se o valor FF 1.58 que superior que o valor crtico. Portanto, a hiptese nula rejeitada com um nvel de signicncia de 10%. Por outro lado, com respeito Tabela 4.5, obtm-se o valor FF 0.17, que inferior ao valor crtico. Logo, no h possibilidade de rejeitar a hiptese nula para o nvel de signicncia xado. Como a hiptese nula foi rejeitada para os dados presentes na Tabela 4.4 (apenas 10 exemplos rotulados), possvel prosseguir para testes estatsticos post-hoc, os quais objetivam vericar o desempenho de um algoritmo especco frente aos demais. Para esta tarefa, opta-se por usar o Teste de Bonferroni-Dunn com o algoritmo-controle (referncia) xado como a tcnica de competio de partculas aqui estudada. De acordo com Demar (2006), no factvel realizar comparaes entre pares de algoritmos distintos, quando a principal meta apenas vericar se um algoritmo melhor que os demais. Basicamente, o Teste de Bonferroni-Dunn quantica se o desempenho de um algoritmo arbitrrio e a referncia signicantemente diferente. Isto feito averiguando se as posies mdias desses dois algoritmos diferem, pelo menos, de um valor crtico, aqui denominado diferena crtica (DC). Se os algoritmos diferem mais do que DC, ento dito que o algoritmo com melhor posio mdia entre os dois estatisticamente superior ao com a pior posio mdia. Caso no apresentem diferena de tamanha magnitude, tais algoritmos no apresentam diferena signicativa. Logo, calculandose o valor de DC para a Tabela 4.4, obtm-se DC = 4, 86. A posio mdia do algoritmo referncia (tcnica de competio de partculas) 5, 29. Em virtude disso, se alguma posio mdia de outro algoritmo pertencer ao intervalo 5.29 4.86, a referncia e este algoritmo so estatisticamente iguais para o conjunto de dados em anlise. De fato, pode-se concluir que o algoritmo de competio de partcula superior s tcnicas SVM, Regularizador Discreto, TSVM e Cluster-Kernel para o benchmark de Chapelle et al. (2006). Entretanto, a comparao com as posies mdias dos outros algoritmos no ultrapassa tal intervalo, levando a concluso que so estatisticamente equivalentes para o benchmark de Chapelle et al. (2006). De qualquer forma, a tcnica de competio de partculas apresentou o melhor desempenho (melhor posio mdia) em relao aos outros algoritmos para o caso de apenas 10 vrtices pr-rotulados.
94
Tabela 4.3: Tcnicas selecionadas para comparao no benchmark de Chapelle et al. (2006).
Abreviao
MVU + 1-NN LEM + 1-NN QC + CMR Discrete Reg. TSVM SGT Cluster-Kernel Data-Dep. Reg. LDS Laplacian RLS CHM (normed) LGC LP LNP
Tcnicas
Maximum Variance Unfolding Laplacian Eigenmaps
Ref(s).
(Sun et al., 2006; Weinberger e Saul, 2006) (Belkin e Niyogi, 2003)
Quadratic Criterion and Class Mass Regularization (Belkin et al., 2004; Delalleau et al., 2005) Discrete Regularization Transductive Support Vector Machines Spectral Graph Transducer Cluster Kernels Data-Dependent Regularization Low-Density Separation Laplacian Regularized Least Squares Conditional Harmonic Mixing Local and Global Consistency Label Propagation Linear Neighborhood Propagation (Zhou e Schlkopf, 2006) (Chapelle e Zien, 2005; Joachims, 2003) (Joachims, 2003) (Chapelle et al., 2003) (Corduneanu e Jaakkola, 2006) (Chapelle e Zien, 2005) (Sindhwani et al., 2005) (Burges e Platt, 2006) (Zhou et al., 2004) (Zhu e Ghahramani, 2002) (Wang e Zhang, 2008)
Tabela 4.4: Erros preditivos no conjunto de teste (%) com 10 vrtices rotulados no conjunto de treinamento.
g241c g241d Digit1 USPS COIL 1-NN SVM MVU + 1-NN LEM + 1-NN QC + CMR Discrete Reg. TSVM SGT Cluster-Kernel Data-Dep. Reg. LDS Laplacian RLS CHM (normed) LGC LP LNP Mtodo Proposto 47,88 47,32 47,15 44,05 39,96 49,59 24,71 22,76 48,28 41,25 28,85 43,95 39,03 45,82 42,61 47,82 43,89 46,72 46,66 45,56 43,22 46,55 49,05 50,08 18,64 42,05 45,89 50,63 45,68 43,01 44,09 41,93 46,24 46,47 13,65 30,60 14,42 23,47 9,80 12,64 17,77 8,92 18,73 12,49 15,63 5,44 14,86 9,89 11,31 8,58 8,10 16,66 20,03 23,34 19,82 13,61 16,07 25,20 25,36 19,41 17,96 17,57 18,99 20,53 9,03 14,83 17,87 15,69 63,36 68,36 62,62 65,91 59,63 63,38 67,50 67,32 63,65 61,90 54,54 63,45 55,82 55,50 54,18
BCI 49,00 49,85 47,95 48,74 50,36 49,51 49,15 49,59 48,31 50,21 49,27 48,97 46,90 47,09 46,37 47,65 48,00
Text 38,12 45,37 45,32 39,44 40,79 40,37 31,21 29,02 42,72 27,15 33,68 45,50 49,53 41,06 34,84
Pos. Mdia 9,86 14,14 9,86 10,00 7,86 10,86 10,86 6,50 10,86 9,83 8,43 6,14 7,20 7,29 5,57 7,43 5,29
95
Tabela 4.5: Erros preditivos no conjunto de teste (%) com 100 vrtices rotulados no conjunto de treinamento.
g241c g241d Digit1 USPS COIL 1-NN SVM MVU + 1-NN LEM + 1-NN QC + CMR Discrete Reg. TSVM SGT Cluster-Kernel Data-Dep. Reg. LDS Laplacian RLS CHM (normed) LGC LP LNP Mtodo Proposto 43,93 23,11 43,01 40,28 22,05 43,65 18,46 17,41 13,49 20,31 18,04 24,36 24,82 41,64 30,39 44,13 24,92 42,45 24,64 38,20 37,49 28,20 41,65 22,42 9,11 4,95 32,82 23,74 26,46 25,67 40,08 29,22 38,30 29,11 3,89 5,53 2,83 6,12 3,15 2,77 6,15 2,61 3,79 2,44 3,46 2,92 3,79 2,72 3,05 3,27 3,11 5,81 9,75 6,50 7,64 6,36 4,68 9,77 6,80 9,68 5,10 4,96 4,68 7,65 3,68 6,98 17,22 4,82 17,35 22,93 28,71 23,27 10,03 9,61 25,80 21,99 11,46 13,72 11,92 45,55 11,14 11,01 10,94
BCI 48,67 34,31 47,89 44,83 46,22 47,67 33,25 45,03 35,17 47,47 43,97 31,36 36,03 43,50 42,69 46,22 41,57
Text 30,11 26,45 32,83 30,77 25,71 24,00 24,52 23,09 24,38 23,15 23,57 46,83 40,79 38,48 27,92
Pos. Mdia 9,00 9,14 11,86 12,14 7,50 8,21 8,71 4,67 6,79 7,17 6,00 4,93 9,10 10,00 9,29 12,50 7,00
Como ltimo experimento, ser utilizada uma base de dados de larga escala, no caso, a base de dados Letter Recognition disponvel no repositrio UCI. Esse conjunto de dados compreende 20.000 exemplos de 26 letras maisculas do alfabeto, com cada exemplo apresentando fonte diferentes e distores aleatrias. Na sua congurao original, as imagens dos exemplos so convertidas em 16 descritores escalares. Sero aplicadas duas tcnicas representativas baseadas em redes (LP e LNP), bem como a tcnica de competio de partculas. Todas as tcnicas seguem as mesmas conguraes paramtricas discutidas em oportunidade anterior. Cada algoritmo executado utilizando 3 subconjuntos de dados pr-rotulados escolhidos aleatoriamente, cada qual com tamanho 1%, 5%, and 10% do conjunto de dados. Cada algoritmo executado 10 vezes na base de dados em apreo e a mdia dessas 10 execues disponibilizada. A Tabela 4.6 reporta os erros de predio no conjunto de teste para essas trs tcnicas. Novamente, verica-se que o mtodo de competio obteve bons resultados.
Tabela 4.6: Erros preditivos no conjunto de teste (%) obtidos para o conjunto de dados Letter Recognition.
10% Rotulados LP LNP Mtodo Proposto 10,94 24,22 12,09
5% Rotulados 18,99 34,08 15,51
1% Rotulado 46,94 54,61 38,24
96
4.3.4
Consideraes Finais
Neste trabalho, foi proposto um novo modelo matemtico para competio de partculas em redes complexas, biologicamente inspirado pelo processo competitivo que ocorre em muitos sistemas naturais e sociais. Neste modelo, vrias partculas, cada uma representando uma classe, navegam na rede para explorar novos territrios e, ao mesmo tempo, tentam defender seus vrtices j dominados contra partculas rivais. Se vrias partculas propagam o mesmo rtulo, ento um time formado, e um processo cooperativo entre partculas do mesmo time vericado. Um mecanismo de connamento foi proposto com o intuito de prevenir partculas de navegarem na rede sem quaisquer penalidades, possivelmente prejudicando a acurcia do algoritmo. Consequentemente, o algoritmo de competio propaga os rtulos de uma maneira local, ao invs do que ocorre em diversas tcnicas tradicionais semissupervisionadas de classicao, em que os rtulos so propagados de forma global. O modelo proposto no linear e estocstico. Em virtude disso, uma anlise matemtica alternativa foi elaborada para descrever e predizer o comportamento do modelo conforme o tempo progride. Expresses fechadas para descrever a distribuio probabilstica da matriz de nvel de dominao foram apresentadas. Com esta ferramenta, possvel vericar como ser o comportamento do modelo frente a uma rede qualquer. Para ns de clareza, um exemplo numrico foi introduzido. Ainda, uma validao dos resultados tericos foi demonstrada, conrmando as predies estudadas na seo de anlise matemtica. Simulaes computacionais foram realizadas com o propsito de quanticar a robustez do mtodo proposto em conjuntos de dados reais e articiais. Uma anlise detalhada do comportamento evolucional da matriz de dominao revela que o modelo funciona bem em ambas situaes. Mais importante, este trabalho uma tentativa de fornecer uma forma alternativa para o estudo de aprendizado competitivo. Como trabalhos futuros, sero investigadas e propostas novas medidas para quanticar a natureza de sobreposio de vrtices ou sub-grafos na rede. Outro tpico de suma importncia que ser estudado a propagao de rtulos errados. Neste cenrio, ser utilizado o prprio processo competitivo para prevenir que esses rtulos errados se propaguem pela rede. Com isso, espera-se aumentar a conabilidade do resultado nal produzido pelo modelo. Tendo em vista que a tarefa de rotulao usualmente envolve esforos humanos, os quais, por sua vez, so suscetveis a introduo de erros, este um tpico importante para ser futuramennte estudado pelo modelo proposto.
C APTULO
5
Proposta de Pesquisa
Neste captulo, sero delineadas as atividades que sero desenvolvidas no transcorrer do projeto. Especicamente, na Seo 5.1, apresentado como cada objetivo do projeto ser analisado e cumprido; na Seo 5.2, o cronograma de atividades fornecido; na Seo 5.3, indicado os recursos infra-estruturais disponveis e a metodologia de pesquisa utilizada; e, nalmente, na Seo 5.4, a forma de anlise dos resultados explicitada.
5.1
Estratgia de Desenvolvimento
Nesta seo, o contedo tcnico que o plano de pesquisa abrange ser detalhado. Especicamente, na Subseo 5.1.1, discorrido sobre a modelagem do sistema competitivo semissupervisionado; na Subseo 5.1.2, a modelagem matemtica do sistema desenvolvido na etapa anterior discutida; na Subseo 5.1.3, dada uma ideia inicial sobre a extenso do modelo competitivo semissupervisionado para o campo no supervisionado, bem como uma estratgia para estimar o nmero de clusters e comunidades em uma base de dados; na Subseo 5.1.4, fornecido, em carter inicial, um mtodo para detectar vrtices e comunidades sobrepostos; e, nalmente, na Subseo 5.1.5, apresentado o assunto de conabilidade dos dados, crucial para alguns sistemas de dados, tpico o qual possui razes ligadas aos processos inerentes de propagao de erros em razo de rotulaes erradas. 97
98
Captulo 5 - Proposta de Pesquisa
5.1.1
Modelagem da Tcnica de Competio de Partculas para Aprendizado Semissupervisionado
Esta etapa de pesquisa j foi desenvolvida, conforme foi visto no captulo de Resultados Obtidos (Seo 4.1). Vale destacar alguns pontos importantes que foram realizados, a partir desta modelagem: Foi desenvolvida uma descrio rigorosa do modelo competitivo por meio da utilizao de um sistema dinmico estocstico no linear. Tal caracterstica indita, dado que, no trabalho original proposto por Quiles et al. (2008), apenas um procedimento, sem qualquer rigor matemtico, introduzido. Generalizao da teoria de caminhada aleatria simples para um modelo de mltiplas caminhadas aleatrias com interao por meio de competio. A generalizao ocorre a partir da escolha do parmetro do modelo, o qual responsvel por contrabalancear a proporo de caminhadas aleatrias e preferenciais. Quando = 0, o modelo reduz-se a mltiplas caminhadas aleatrias sem interao. No entanto, quando > 0, o modelo descreve mltiplas caminhadas aleatrias com interao, via competio de partculas. Ao contrrio do modelo procedimental proposto em Quiles et al. (2008), em que partcula somente permitido ora fazer uma movimentao aleatria, ora preferencial; no modelo proposto, uma combinao estocstica entre as duas movimentaes implementada, conforme a Equao (4.1) revela. Simulaes realizadas, conforme informadas na Seo 4.3, exibem a robustez e eccia do modelo.
5.1.2
Anlise Matemtica do Modelo de Competio Semissupervisionado
Esta etapa tambm j foi completada e foi discutida no captulo de Resultados Obtidos (Seo 4.2). A lista abaixo discorre, resumidamente, sobre os pontos importantes dessa anlise: Expresses probabilsticas foram deduzidas a partir do sistema dinmico estocstico. Isto permite prever o comportamento do sistema competitivo para um tempo arbitrariamente alto. Uma validao das equaes tericas obtidas, contra o resultado emprico do modelo, foi conduzida. Resultados mostram que, de forma aproximada, a predio terica aproxima o comportamento emprico do modelo. O modelo competitivo, bem como a anlise matemtica, aqui descritos baseiamse no artigo Silva e Zhao (2011b), o qual est em processo de reviso.
5.1 - Estratgia de Desenvolvimento
99
5.1.3
Extenso do Modelo Competitivo ao Aprendizado No Supervisionado
O modelo competitivo desenvolvido para aprendizado semissupervisionado por intermdio de um sistema dinmico estocstico ser estendido para o campo no supervisionado. A ideia inicial modicar as condies iniciais do sistema dinmico. No modelo semissupervisionado, as entradas da matriz N (t), a qual responsvel por armazenar o nmero de visitas feito por cada partcula a cada vrtice na rede, que indicam vrtices pr-rotulados so xadas no valor . Desta maneira, no possvel que outra partcula venha a domin-la, seno a partcula representante daquele vrtice pr-rotulado. No modelo no supervisionado, sugere-se utilizar a seguinte condio inicial para esta matriz:
Ni (0) =
(k)
2, 1,
se a partcula k gerada no vrtice i caso contrrio
(5.1)
Outro ponto importante que ser analisado, ainda no campo no supervisionado, a estimao do nmero de clusters ou comunidades em uma base de dados. Tal determinao um importante tpico em agrupamento de dados (Sugar e James, 2003; Wang et al., 2009). A ideia inicial para realizar tal estimao utilizar um avaliador externo, o qual monitora a informao gerada pelo prprio processo competitivo. A medida de rede que ser monitorada, aqui, denominada de mdia do mximo nvel de dominao, R(t) [0, 1], calculada utilizando a seguinte expresso:
R(t) =
1 V
u =1
max mK
(m) Nu (t) ,
(5.2)
(m) onde Nu (t) indica o nvel de dominao que a partcula m est impondo no vrtice (m) u no instante t e max Nu (t) resulta no nvel de dominao mximo imposto no
mK
vrtice u no instante t. Para uma rede que apresenta algumas comunidades, diga-se K comunidades, por exemplo, se forem inseridas K partculas, espera-se que cada uma domine uma comunidade distinta. Logo, uma partcula no interferir na regio de atuao das outras partculas. Consequentemente, R(t) ser alto. No caso extremo, cada vrtice completamente dominado por apenas uma partcula, da R(t) atinge 1. Entretanto, se forem colocadas mais de K partculas, inevitavelmente, ocorrer que mais de uma partcula compartilhar a mesma comunidade. Neste caso, elas disputaro o mesmo grupo de vrtices. Em virtude disso, uma partcula ir diminuir o nvel de dominao das outras partculas, e vice-versa. Como resultado, R(t) ser baixo.
100
A contrario sensus, se for introduzida na rede uma quantidade de partculas inferior ao nmero de comunidades (K), uma competio acirrada tambm ir ocorrer entre as partculas. Neste caso, elas tentaro dominar mais de uma comunidade ao mesmo tempo. Novamente, R(t) ser baixo. Logo, esses cenrios sugerem que o nmero correto de clusters ou comunidades pode ser determinado checando o maior valor R(t) atingido. Se, por hiptese, for aplicado este avaliador externo para determinar o nmero de comunidades ou clusters que um conjunto de dados possui, necessrio rodar o sistema dinmico estocstico vrias vezes. Em termos prticos, o nmero de partculas deve variar de 2 at K , onde K um valor um pouco maior que K, aqui denotando o nmero real de comunidades ou clusters no conjunto de dados. Tendo em vista que o nmero de clusters pequeno, i.e., bem menor que o nmero de dados (K V), este processo de estimao pode no alterar a ordem de complexidade do modelo. Agora, ser informada a forma de validao do mtodo de competio de partculas no supervisionado e do procedimento de estimao de comunidades ou clusters. Especicamente, para o caso de deteco de comunidades, sero utilizados benchmarks amplamente aceitos na rea (Danon et al., 2005; Fortunato, 2010), bem como redes articiais e reais. J para o caso de agrupamento de dados, sero utilizadas bases de dados disponveis no repositrio UCI (Frank e Asuncion, 2010) e tambm a base de dados MNIST de dgitos manuscritos (LeCun et al., 1998).
5.1.4
Deteco de Vrtices e Comunidades Sobrepostos
O modelo competitivo analisado neste projeto carrega uma gama rica de informao, informao esta gerada pelo prprio processo competitivo. Por intermdio dela, ser derivada uma medida para detectar comunidades ou vrtices sobrepostos em uma rede. Para tanto, cumpre notar que a matriz de nvel de dominao N (t) pode ser utilizada para indicar quais vrtices so membros de uma ou vrias comunidades, da seguinte forma: se o nvel de dominao mximo imposto por uma partcula arbitrria k em um vrtice i muito maior que o segundo maior nvel de dominao imposto ao mesmo vrtice, ento pode-se concluir que este vrtice est sendo fortemente dominado pela partcula k. Por outro lado, quando estas duas quantidades so similares, pode-se deduzir que o vrtice i apresenta caractersticas que o qualicam como membro de mais de uma comunidade. luz dessas consideraes, pode-se matematicamente modelar este comportamento a seguir: seja Mi ( x, t) o x-simo maior nvel de dominao imposto ao vrtice i no instante t. Desta forma, o ndice de sobreposio para o vrtice i, Oi (t) [0, 1], dado por:
5.1 - Estratgia de Desenvolvimento
101
Oi (t) = 1 ( Mi (1, t) Mi (2, t)) ,
(5.3)
i.e., o ndice de sobreposio Oi (t) mensura o intervalo entre os dois maiores nveis de dominao impostos por quaisquer pares de partculas ao vrtice i. Sucintamente, quando este intervalo grande, uma forte dominao est ocorrendo sobre o vrtice i; logo, Oi (t) produz um valor pequeno. Por outro lado, quando uma competio est ocorrendo de forma intensa entre duas ou mais partculas em relao ao vrtice i, alguns desses nveis de dominao so esperados de serem semelhantes, em termos de magnitude. Consequentemente, o intervalo entre os dois maiores nveis de dominao provavelmente ser pequeno, produzindo, assim, um valor alto para o ndice de sobreposio Oi (t). Para validar a medida proposta, simulaes em bases de dados conhecidas na literatura sero conduzidas, tais como rede de karat de Zachary (Zacharys karate club network) (Zachary, 1977), rede social de golnhos (dolphin social network) (Lusseau, 2003), rede da novela Les Misrables (Les Misrables network) (Knuth, 1993), rede representando uma liga de futebol americano (American college football network) (Girvan e Newman, 2002) e rede de colaborao cientca (scientic collaboration network) (Newman, 2006).
5.1.5
Tratamento da Conabilidade dos Dados no Processo de Aprendizado Semissupervisionado
Na prxima fase, ser tratado do assunto de conabilidade dos dados no aprendizado semissupervisionado. Especicamente, a tcnica a ser desenvolvida gozar das seguintes caractersticas: I. Gerao de Nvel de Pertinncia para Cada Vrtice: A tcnica a ser desenvolvida ser capaz de oferecer nvel de pertinncia de cada item de dado a cada classe (soft-label), ao invs de s oferecer rtulo de classe (hard-label). II. Deteco de Outliers: A tcnica a ser desenvolvida ser capaz de detectar outliers e consequentemente tentar impedir sua propagao. Outliers referem-se a itens de dados de uma determinada classe localizados em regies de outras classes. No modelo de cooperao/competio de partculas, uma partcula, cujo vrtice representado um outlier, tem diculdade de defender seus vizinhos, pois ela est longe de suas colegas do time e consequentemente recebe menos ajuda do time. Desta forma, uma partcula, cujo vrtice de casa um outlier, pode eventualmente abandonar sua casa e migrar para uma vizinhana de partculas do
102
mesmo time. Portanto, neste modelo, um outlier pode ser identicado via medida de distncia mdia de uma partcula ao seu vrtice representado ao longo do tempo. Alm disso, sero conduzidos estudos e anlises de propagao de erros (dados erroneamente rotulados) junto propagao de rtulos em redes. Ou seja, certa percentagem de erros introduzida antes do processo de propagao de rtulos. Pretende-se identicar, com isso, o ponto crtico de percentagem de erros introduzidos, o que leva a uma preciso de classicao drasticamente decada. Esse tipo de estudo muito importante no s para obter uma classicao segura, mas tambm para um entendimento melhor de conjunto de dados em processamento.
5.2
Atividades e Cronograma
A seguir esto descritas as atividades programadas para o perodo de realizao do curso de doutorado. A Tabela 5.1 mostra o cronograma em sequncia temporal. I. Assistncia a Disciplinas: completar os 84 crditos necessrios em disciplinas do Programa de Doutorado do ICMC-USP, dos quais 36 crditos devem ser integralizados a partir de disciplinas do ncleo bsico. II. Pesquisa Bibliogrca: buscar e estudar bibliograa sobre aprendizado de mquinas, classicao de dados, tcnicas de deteco de comunidades, redes complexas, sistemas dinmicos e aplicaes. III. Exame de Qualicao: elaborar o documento escrito e realizar a prova de exame de qualicao atendendo exigncia do Programa de Doutorado do ICMC-USP. IV. Desenvolvimento Terico: modelagem do sistema dinmico competitivo no campo de aprendizado semissupervisionado, anlise matemtica do modelo semissupervisionado, extenso do modelo competitivo ao campo no supervisionado, criao de medidas para deteco de vrtices sobrepostos e estudo de conabilidade de dados. V. Testes e Simulaes: implementar modelos existentes e os modelos a serem desenvolvidos e realizar comparaes a partir de testes com simulaes em dados articiais e dados reais. VI. Aplicaes: aplicar os modelos desenvolvidos em bases de dados do repositrio UCI e MNIST. VII. Gerao de Artigos: preparar e submeter artigos com os desenvolvimentos realizados para revistas cientcas e para congressos.
103
VIII. Elaborao de relatrios: elaborar e submeter relatrios de acompanhamento para a FAPESP. IX. Defesa de Tese: elaborar e defender a tese de concluso.
Tabela 5.1: Cronograma das atividades.
``` ``` Atividade ``` ``` Semestre `` `
II
III
IV
VI
VII
VIII
IX
1S/2010 2S/2010 1S/2011 2S/2011 1S/2012 2S/2012 1S/2013 2S/2013
5.3
Materiais e Recursos Disponveis
Este projeto envolve o estudo terico como a reviso de artigos e a elaborao de modelos matemticos e algoritmos, bem como a realizao de simulaes computacionais. Para tanto, sero utilizados os recursos disponveis para a comunidade da Universidade de So Paulo como consultas a bases internacionais de publicaes, teses e livros a partir das bibliotecas da universidade. As simulaes computacionais, quando for necessria a utilizao de maiores recursos, sero realizadas no Laboratrio de Computao Bioinspirada (BioCom) ICMC-USP, em So Carlos, o qual dispe de um cluster de processamento.
5.4
Forma de Anlise dos Resultados
Os resultados das investigaes sero analisados a partir de comparaes da preciso, complexidade e ecincia da aplicao dos algoritmos e tcnicas desenvolvidas com outros semelhantes. Os modelos matemticos sero avaliados quanto preciso na previso dos processos descritos. Alm disso, mtodos estatsticos devem ser envolvidos para medir e validar o desempenho das tcnicas a serem desenvolvidas.
104
Albert et al.(1999) Reka Albert, Hawoong Jeong, e Albert-Laszlo Barabasi. The diameter of the world wide web. Nature, 401:130131. Citado na pg. 3, 13 Albert et al.(2004) Rka Albert, Istvn Albert, e Gary L. Nakarado. Structural vulnerability of the north american power grid. Physical Review E, 69(2):025103. Citado na pg. 3, 12, 13 Alpaydin(2004) Ethem Alpaydin. Introduction to Machine Learning (Adaptive Computation and Machine Learning). The MIT Press. Citado na pg. 33, 36 Amorim et al.(2007) D. G. Amorim, M. F. Delgado, e S. B. Ameneiro. Polytope ARTMAP: Pattern classication without vigilance based on general geometry categories. IEEE Trans. Neural Networks, 18(5):13061325. Citado na pg. 2 Arenas et al.(2006) Alex Arenas, Albert D. Guilera, e Conrad J. Prez Vicente. Synchronization reveals topological scales in complex networks. Physical Review Letters, 96 (11):114102. Citado na pg. 20 Athinarayanan et al.(2002) R. Athinarayanan, M. R. Sayeh, e D. A. Wood. Adaptive competitive self-organizing associative memory. IEEE Trans. Systems, Man and Cybernetics , Part A, 32(4):461471. Citado na pg. 2 Bacciu e Starita(2008) D. Bacciu e A. Starita. Competitive repetition suppression (core) clustering: A biologically inspired learning model with application to robust clustering. IEEE Trans. Neural Networks, 19(11):19221940. Citado na pg. 2 Barabasi e Albert(1999) Albert-Laszlo Barabasi e Reka Albert. Emergence of scaling in random networks. Science - New York, 286(5439):509512. Citado na pg. xi, 3, 12, 17, 18 Belkin et al.(2005) M. Belkin, Niyogi P., e V. Sindhwani. On manifold regularization. Em Proceedings of the Tenth International Workshop on Articial Intelligence and Statistics (AISTAT 2005), pginas 1724, New Jersey. Society for Articial Intelligence and Statistics. Citado na pg. 29 Belkin e Niyogi(2003) Mikhail Belkin e Partha Niyogi. Laplacian eigenmaps for dimensionality reduction and data representation. Neural Comp., 15(6):13731396. Citado na pg. 8, 94 105
106
Belkin et al.(2004) Mikhail Belkin, Irina Matveeva, e Partha Niyogi. Regularization and semi-supervised learning on large graphs. Em In COLT, pginas 624638. Springer. Citado na pg. 8, 29, 94 Belkin et al.(2006) Mikhail Belkin, Partha Niyogi, e Vikas Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. Journal of Machine Learning Research, 7:23992434. Citado na pg. 29, 39, 40 Bishop(2007) Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer, segunda edio. Citado na pg. 1 Blum e Mitchell(1998) Avrim Blum e Tom Mitchell. Combining labeled and unlabeled data with co-training. Em Proceedings of the 11th Annual Conference on Computational Learning Theory, pginas 92100. Citado na pg. 32 Boccaletti et al.(2007) Stefano Boccaletti, Mikhail V. Ivanchenko, Vito Latora, Alessandro. Pluchino, e Andrea Rapisarda. Detecting complex network modularity by dynamical clustering. Physical Review E, 75(4):045102. Citado na pg. 4, 7 Bornholdt e Schuster(2003) Stefan Bornholdt e Heinz G. Schuster. Handbook of Graphs and Networks: From the Genome to the Internet. Wiley-VCH. Citado na pg. 3, 12 Breve et al.(2010) Fabrcio Breve, Liang Zhao, Marcos G. Quiles, Witold Pedrycz, e Jiming Liu. Particle competition and cooperation in networks for semi-supervised learning. IEEE Transaction on Data and Knowledge Engineering. Citado na pg. 29 Burges e Platt(2006) C. J. C. Burges e J. C. Platt. Semi-supervised Learning. ch. SemiSupervised Learning with Conditional Harmonic Mixing, pginas 251273. Adaptive computation and machine learning. MIT Press, Cambridge, MA, USA. Citado na pg. 94 Callut et al.(2008) Jrme Callut, Kevin Franoise, Marco Saerens, e Pierre Duppont. Semi-supervised classication from discriminative random walks. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, LNAI 5211:162177. Citado na pg. 29, 43, 45 Carpenter e Grossberg(1987) G. A. Carpenter e S. Grossberg. Self-organization of stable category recognition codes for analog input patterns. Applied Optics, 26(23):4919 4930. Citado na pg. 2 Chapelle e Zien(2005) O. Chapelle e A. Zien. Random-walk based approach to detect clone attacks in wireless sensor networks. Tenth International Workshop on Articial Intelligence and Statistics, pginas 5764. Citado na pg. 94 Chapelle et al.(2003) O. Chapelle, J. Weston, e B. Schlkopf. Cluster kernels for semisupervised learning. Em NIPS 2002, volume 15, pginas 585592, Cambridge, MA, USA. MIT Press. Citado na pg. 94 Chapelle et al.(2006) Olivier Chapelle, Bernhard Schlkopf, e Alexander Zien. SemiSupervised Learning. The MIT Press. Citado na pg. 2, 25, 26, 28, 29, 30, 31, 32, 33, 34, 36, 46, 85, 90, 93, 94 Chateld(2009) M. Chateld. The skillings-mack test (friedman test when there are missing data). Stata Journal, 9(2):299305(7). Citado na pg. 92, 93
107
Chen et al.(2005) M. Chen, A. A. Ghorbani, e V. C. Bhavsar. Incremental communication for adaptive resonance theory networks. IEEE Trans. Neural Networks, 16(1):132144. Citado na pg. 2 Chung(1997) Fan R. K. Chung. Spectral Graph Theory (CBMS Regional Conference Series in Mathematics, No. 92). American Mathematical Society. Citado na pg. 39 inlar(1975) E. inlar. Introduction to Stochastic Processes. Prentice-Hall, Englewood Cliffs, N. J. Citado na pg. 44, 46, 53, 56, 72 Clauset et al.(2004) A. Clauset, M. E. J. Newman, e C. Moore. Finding community structure in very large networks. Physical Review E, pginas 16. doi: 10.1103/PhysRevE. 70.066111. Citado na pg. 41 Clauset(2005) Aaron Clauset. Finding local community structure in networks. Physical Review E, 72(2):026132. Citado na pg. 4, 40, 41 Cook e Holder(2000) Diane J. Cook e Lawrence B. Holder. Graph-based data mining. IEEE Intelligent Systems, 15:3241. Citado na pg. 4 Corduneanu e Jaakkola(2006) A. Corduneanu e T. Jaakkola. Semi-supervised Learning. ch. Data-Dependent Regularization, pginas 163190. Adaptive computation and machine learning. MIT Press, Cambridge, MA, USA. Citado na pg. 94 Cortes e Vapnik(1995) Corinna Cortes e Vladimir Vapnik. Support-vector networks. Machine Learning, pginas 273297. Citado na pg. 31, 33 Costa et al.(2007) Luciano da F. Costa, Francisco A. Rodrigues, Gonzalo Travieso, e Paulino R. Villas Boas. Characterization of complex networks: A survey of measurements. Advances in Physics, 56(1):167242. Citado na pg. xi, 13, 14, 15, 16 Danon et al.(2005) Leon Danon, Albert Daz-Guilera, Jordi Duch, e Alex Arenas. Comparing community structure identication. Journal of Statistical Mechanics: Theory and Experiment, 2005(09):P09008. Citado na pg. 6, 8, 19, 20, 100 Danon et al.(2007) Leon Danon, Jordi Duch, Alex Arenas, e Daz-Guilera. Community structure identication in large scale structure and dynamics of complex networks: From information technology to nance and natural science. World Scientic Publishing Co., pginas 93113. Citado na pg. 4, 7 De Bie e Cristianini(2004) Tijl De Bie e Nello Cristianini. Convex methods for transduction. Em Sebastian Thrun, Lawrence Saul, e Bernhard Schlkopf, editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA. Citado na pg. 33 Deboeck e Kohonen(2010) G. Deboeck e T. Kohonen. Visual Explorations in Finance: with Self-Organizing Maps. Springer. Citado na pg. 2 Delalleau et al.(2005) Olivier Delalleau, Yoshua Bengio, e Nicolas Le Roux. Efcient Non-Parametric Function Induction in Semi-Supervised Learning, pginas 96103. Society for Articial Intelligence and Statistics. Citado na pg. 94
108
Dempster et al.(1977) Arthur P. Dempster, Nan M. Laird, e Donald B. Rubin. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39(1):138. Citado na pg. 29 Demar(2006) Janez Demar. Statistical comparisons of classiers over multiple data sets. Journal of Machine Learning Research, 7:130. Citado na pg. 92, 93 do Rgo et al.(2010) R. L. M. Ernesto do Rgo, A. F. R. Arajo, e F. B. de Lima Neto. Growing self-reconstruction maps. IEEE Trans. Neural Networks, 21(2):211223. Citado na pg. 2 Dorogovtsev e Mendes(2003) Sergey N. Dorogovtsev e Jos F. F. Mendes. Evolution of Networks: From Biological Nets to the Internet and WWW (Physics). Oxford University Press, USA. Citado na pg. 13 Duda et al.(2000) Richard O. Duda, Peter E. Hart, e David G. Stork. Pattern Classication. Wiley-Interscience, segunda edio. Citado na pg. 1, 5, 35 Duin(2000) R. P. W. Duin. PRTools - version 3.0 - a matlab toolbox for pattern recognition. Proc. of SPIE, pgina 1331. Citado na pg. 89 Erds e Rnyi(1959) Paul Erds e Alfrd Rnyi. On random graphs I. Publicationes Mathematicae (Debrecen), 6:290297. Citado na pg. 3, 12, 13 Evans e Lambiotte(2009) T. S. Evans e R. Lambiotte. Line graphs, link partitions, and overlapping communities. Phys. Rev. E, 80(1):016105. Citado na pg. 20, 21 Faloutsos et al.(1999) Michalis Faloutsos, Petros Faloutsos, e Christos Faloutsos. On power-law relationships of the internet topology. Em SIGCOMM 99: Proceedings of the conference on Applications, technologies, architectures, and protocols for computer communication, volume 29, pginas 251262, New York, NY, USA. ACM. Citado na pg. 3, 13 Fortunato(2010) S. Fortunato. Community detection in graphs. Physics Reports, 486: 75174. Citado na pg. 6, 8, 20, 100 Fortunato et al.(2004) S. Fortunato, V. Latora, e M. Marchiori. Method to nd community structures based on information centrality. Phys. Rev. E, 70(5):056104. Citado na pg. 20 Frank e Asuncion(2010) A. Frank e A. Asuncion. UCI machine learning repository. Citado na pg. 6, 100 Grtner(2008) Thomas Grtner. Kernels for Structured Data, volume 72. World Scientic Publishing Co., primeira edio. Citado na pg. 33 Girvan e Newman(2002) Michelle Girvan e Mark E. J. Newman. Community structure in social and biological networks. Proceedings of the National Academy of Sciences of the United States of America, 99(12):78217826. Citado na pg. xi, 4, 6, 18, 25, 101 Goldman e Zhou(2000) Sally Goldman e Yan Zhou. Enhancing supervised learning with unlabeled data. Em Proc. 17th International Conf. on Machine Learning, pginas 327334. Morgan Kaufmann, San Francisco, CA. Citado na pg. 32
109
Gori et al.(2005) M. Gori, M. Maggini, e L. Sarti. Exact and approximate graph matching using random walks. IEEE Trans. Pattern Analysis and Machine Intelligence, 27 (7):167256. Citado na pg. 2 Grady(2006) L. Grady. Random walks for image segmentation. IEEE Trans. Pattern Analysis and Machine Intelligence, 28(11):17681783. Citado na pg. 2 Grossberg(1987) S. Grossberg. Competitive learning: From interactive activation to adaptive resonance. Cognitive Science, 11:2363. Citado na pg. 2 Jain et al.(1999) Anil K. Jain, M. Narasimha Murty, e Patrick J. Flynn. Data clustering: A review. ACM Computing Survey, 31(3):264323. Citado na pg. 5 Jain et al.(2010) L. C. Jain, B. Lazzerini, e U. Halici. Innovations in ART Neural Networks (Studies in Fuzziness and Soft Computing). Physica-Verlag, Heidelberg. Citado na pg. 2 Jeong et al.(2000) H. Jeong, B. Tombor, R. Albert, Z. N. Oltvai, e A. L. Barabsi. The large-scale organization of metabolic networks. Nature, 407(6804):651654. Citado na pg. 3, 13 Jiang e Wang(2000) D. Jiang e J. Wang. On-line learning of dynamical systems in the presence of model mismatch and disturbances. IEEE Trans. Neural Networks, 11(6): 12721283. Citado na pg. 2 Joachims(2003) Thorsten Joachims. Transductive learning via spectral graph partitioning. Em Proceedings of International Conference on Machine Learning, pginas 290297. AAAI Press. Citado na pg. 94 Karypis et al.(1999) G. Karypis, Eui-Hong Han, e V. Kumar. Chameleon: hierarchical clustering using dynamic modeling. Computer, 32(8):6875. Citado na pg. 4, 25, 34 Kaylani et al.(2010) A. Kaylani, M. Georgiopoulos, M. Mollaghasemi, G. C. Anagnostopoulos, C. Sentelle, e M. Zhong. An adaptive multiobjective approach to evolving ART architectures. IEEE Trans. Neural Networks, 21(4):529550. Citado na pg. 2 Kiss et al.(1973) G. R. Kiss, C. Armstrong, R. Milroy, e J. Piper. An associative thesaurus of English and its computer analysis. Em The computer and literary studies. University Press. Citado na pg. 8, 20 Knuth(1993) Donald E. Knuth. The Stanford GraphBase: a platform for combinatorial computing. ACM, New York, NY, USA. Citado na pg. 6, 101 Kohonen(1990) T. Kohonen. The self-organizing map. Proceedings of the IEEE, 78(9): 14641480. Citado na pg. 2 Kosko(1991) B. Kosko. Stochastic competitive learning. IEEE Trans. Neural Networks, 2 (5):522529. Citado na pg. 2 Lancichinetti et al.(2009) Andrea Lancichinetti, Santo Fortunato, e Jnos Kertsz. Detecting the overlapping and hierarchical community structure in complex networks. New Journal of Physics, 11(3):033015. Citado na pg. 20, 21
110
LeCun et al.(1998) Y. LeCun, L. Bottou, Y. Bengio, e P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):22782324. Citado na pg. 6, 100 Liang et al.(2009) J. Liang, Z. Wang, e X. Liu. State estimation for coupled uncertain stochastic networks with missing measurements and time-varying delays: The discretetime case. IEEE Trans. Neural Networks, 20(5):781793. Citado na pg. 2 Lim e Park(2009) Gaksoo Lim e Cheong Hee Park. Semi-supervised dimension reduction using graph-based discriminant analysis. Em CIT 1, pginas 913. IEEE Computer Society. Citado na pg. 25, 26 Liu et al.(2008) D. Liu, Z. Pang, e S. R. Lloyd. A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG. IEEE Trans. Neural Networks, 19(2):308318. Citado na pg. 2 Liu et al.(2004) H. Liu, S. Shah, e W. Jiang. On-line outlier detection and data cleaning. 28th Computers and Chemical Engineering, pginas 16351647. Citado na pg. 25, 26 Lpez-Rubio et al.(2009) E. Lpez-Rubio, J. M. Ortiz de Lazcano-Lobato, e D. LpezRodrguez. Probabilistic PCA self-organizing maps. IEEE Trans. Neural Networks, 20 (9):14741489. Citado na pg. 2 Lu et al.(2003) Chang-Tien Lu, Dechang Chen, e Yufeng Kou. Algorithms for spatial outlier detection. Em Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM 2003). IEEE Computer Society. Citado na pg. 25 Lu e Ip(2009) Z. Lu e H. H. S. Ip. Generalized competitive learning of gaussian mixture models. IEEE Trans. Systems, Man and Cybernetics , Part B, 39(4):901909. Citado na pg. 2 Lusseau(2003) D. Lusseau. The emergent properties of a dolphin social network. Proc Biol Sci, 270 Suppl 2:S186S188. Citado na pg. 6, 101 Macskassy e Provost(2005) Sofus A. Macskassy e Foster Provost. Netkit-srl: A toolkit for network learning and inference and its use for classication of networked data. Em Proc. Ann. Conf. North. American Assoc. Computational Social and Organizational Science. Citado na pg. 45 Meyer-Bse e Thmmler(2008) A. Meyer-Bse e V. Thmmler. Local and global stability analysis of an unsupervised competitive neural network. IEEE Trans. Neural Networks, 19(2):346351. Citado na pg. 2 Meyn e Tweedie(2009) S. Meyn e R. Tweedie. Markov Chains and Stochastic Stability. Cambridge University Press, segunda edio. Citado na pg. 15, 43 Milgram(1967) Stanley Milgram. The small world problem. Psychology Today, 2:6067. Citado na pg. 12 Mitchell(1997) Tom M. Mitchell. Machine Learning. ence/Engineering/Math, primeira edio. Citado na pg. 1, 25 McGraw-Hill Sci-
Mizruchi(1982) M.S. Mizruchi. The american corporate network. Sage, 2:19041974. Citado na pg. 3, 13
111
Montoya e Sol(2002) J. M. Montoya e R. V. Sol. Small world patterns in food webs. Journal of Theoretical Biololgy, 214:405412. Citado na pg. 3, 13 N. Allinson e Slack(2001) L. Allinson N. Allinson, H. Yin e J. Slack. Advances in Self Organising Maps. Springer. Citado na pg. 2 Newman(2003) M. E. J. Newman. The Structure and Function of Complex Networks. SIAM Review, 45(2):167256. Citado na pg. 3, 11, 13, 15 Newman(2006) M. E. J. Newman. Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 103(23):85778582. Citado na pg. 6, 20, 25, 40, 41, 101 Newman e Girvan(2004) M. E. J. Newman e M. Girvan. Finding and evaluating community structure in networks. Physical Review Letters, (69):026113. Citado na pg. 4, 7 Newman(2004a) M.E.J. Newman. Finding and evaluating community structure in networks. Phys. Rev. E, 69(2):026113. Citado na pg. 20 Newman(2004b) M.E.J. Newman. Fast algorithm for detecting community structure in networks. Phys. Rev. E, 69(6):066133. Citado na pg. 20 Nicosia et al.(2009) V. Nicosia, G. Mangioni, V. Carchiolo, e M. Malgeri. Extending the denition of modularity to directed graphs with overlapping communities. Journal of Statistical Mechanics: Theory and Experiment, 2009(03):03024. Citado na pg. 21 Nigam et al.(2000) Kamal Nigam, Andrew K. McCallum, Sebastian Thrun, e Tom Mitchell. Text classication from labeled and unlabeled documents using EM. Machine Learning, 39(2-3):103134. Citado na pg. 31 Noh e Rieger(2004) J. D. Noh e H. Rieger. Random walks on complex networks. Phys. Rev. Letts., 92:118701. Citado na pg. 2 Palla et al.(2005) Gergely Palla, Imre Derenyi, Illes Farkas, e Tamas Vicsek. Uncovering the overlapping community structure of complex networks in nature and society. Nature, 435(7043):814818. Citado na pg. 8, 20, 21 Papadopoulos et al.(2009) Symeon Papadopoulos, Andre Skusa, Athena Vakali, Yiannis Kompatsiaris, e Nadine Wagner. Bridge bounding: A local approach for efcient community discovery in complex networks. Relatrio tcnico. Citado na pg. xi, 19 Piatetsky-Shapiro(1991) G. Piatetsky-Shapiro. Discovery, Analysis, and Presentation of Strong Rules. AAAI/MIT Press, Cambridge, MA. Citado na pg. 25, 26 Principe e Miikkulainen(2009) J. C. Principe e Risto Miikkulainen. Advances in SelfOrganizing Maps - 7th International Workshop, WSOM 2009, Lecture Notes in Computer Science, Vol. 5629. Springer. Citado na pg. 2 Quiles et al.(2008) M. G. Quiles, L. Zhao, R. L. Alonso, e R. A. F. Romero. Particle competition for complex network community detection. Chaos, 18(3):033107. Citado na pg. 4, 7, 20, 21, 23, 98
112
Ratsaby e Venkatesht(1995) Joel Ratsaby e Santosh S. Venkatesht. Learning from a mixture of labeled and unlabeled examples. Em Proc. 33rd Allerton Conference on Communication Control and Computing, pginas 412417. ACM Press. Citado na pg. 32 Reichardt e Bornholdt(2004) Jrg Reichardt e Stefan Bornholdt. Detecting fuzzy community structures in complex networks with a potts model. Physical Review Letters, 93(21):218701(14). Citado na pg. 4, 7, 20 Schaeffer(2007) S. Schaeffer. Graph clustering. Computer Science Review, 1(1):2764. Citado na pg. 4 Scott(2000) John P. Scott. Social Network Analysis: A Handbook. SAGE Publications. Citado na pg. 3, 13 Shahshahani e Landgrebe(1994) B. Shahshahani e D. Landgrebe. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon. IEEE Transactions on Geoscience and Remote Sensing, 32(5):10871095. Citado na pg. 32 Shen et al.(2009) Huawei Shen, Xueqi Cheng, Kai Cai, e Mao-Bin Hu. Detect overlapping and hierarchical community structure in networks. Physica A: Statistical Mechanics and its Applications, 388(8):1706 1712. Citado na pg. 21 Silva e Zhao(2011a) Thiago Christiano Silva e Liang Zhao. Semi-supervised learning guided by the modularity measure in complex networks. Neurocomputing, aceito. Citado na pg. 40, 42, 43 Silva e Zhao(2011b) Thiago Christiano Silva e Liang Zhao. Network-based stochastic semi-supervised learning. IEEE Transactions on Neural Networks, em reviso. Citado na pg. 49, 98 Sindhwani et al.(2005) Vikas Sindhwani, Partha Niyogi, e Mikhail Belkin. Beyond the point cloud: from transductive to semi-supervised learning. Em ICML 05: Proceedings of the 22nd international conference on Machine learning, pginas 824831, New York, NY, USA. ACM Press. Citado na pg. 94 Singh et al.(2008) Aarti Singh, Robert D. Nowak, e Xiaojin Zhu. Unlabeled data: Now it helps, now it doesnt. Em NIPS, pginas 15131520. Citado na pg. 29 Smola e Kondor(2003) Alexander J. Smola e Risi Kondor. Kernels and regularization on graphs. Learning Theory and Kernel Machines. Citado na pg. 38, 39 Sporns(2002) Olaf Sporns. Networks analysis, complexity, and brain function. Complexity, 8(1):5660. Citado na pg. 3, 13 Strogatz(2001) S. H. Strogatz. Exploring complex networks. Nature, 410(6825):268276. Citado na pg. 3, 13 Sugar e James(2003) C. A. Sugar e G. M. James. Finding the number of clusters in a data set: An information theoretic approach. Journal of the American Statistical Association, 98:750763. Citado na pg. 99
113
Sun et al.(2006) Jun Sun, Stephen Boyd, Lin Xiao, e Persi Diaconis. The fastest mixing markov process on a graph and a connection to a maximum variance unfolding problem. SIAM Rev., 48:681699. ISSN 0036-1445. Citado na pg. 94 Sun et al.(2011) Peng Gang Sun, Lin Gao, e Shan Shan Han. Identication of overlapping and non-overlapping community structure by fuzzy clustering in complex networks. Inf. Sci., 181:10601071. Citado na pg. 21 Szummer e Jaakkola(2001) Martin Szummer e Tommi Jaakkola. Partially labeled classication with markov random walks. Em Advances in Neural Information Processing Systems, volume 14. Citado na pg. 43, 46, 47 Tan et al.(2008) A.-H. Tan, N. Lu, e D. Xiao. Integrating temporal difference methods and self-organizing neural networks for reinforcement learning with delayed evaluative feedback. IEEE Trans. Neural Networks, 19(2):230244. Citado na pg. 2 Vapnik(1999) Vladimir Vapnik. The Nature of Statistical Learning Theory (Information Science and Statistics). Springer-Verlag, segunda edio. Citado na pg. 31 Vapnik(1998) Vladimir N. Vapnik. Statistical Learning Theory. Wiley-Interscience. Citado na pg. 28, 31, 33 Wagsta et al.(2001) Kiri Wagsta, Claire Cardie, Seth Rogers, e Stefan Schroedl. Constrained k-means clustering with background knowledge. Em Proceedings of 18th International Conference on Machine Learning (ICML-01), pginas 577584. Citado na pg. 31 Wang et al.(2009) C.-H. Wang, C.-N. Lee, e C.-H. Hsieh. Variants of Self-Organizing Maps: Applications in Image Quantization and Compression. Lambert Academic Publishing. Citado na pg. 2, 99 Wang e Zhang(2008) Fei Wang e Changshui Zhang. Label propagation through linear neighborhoods. IEEE Transactions on Knowledge and Data Engineering, 20(1):5567. ISSN 1041-4347. doi: 10.1109/TKDE.2007.190672. Citado na pg. 92, 94 Watts(2003) Duncan J. Watts. Small Worlds: The Dynamics of Networks between Order and Randomness (Princeton Studies in Complexity). Princeton University Press, primeira edio. Citado na pg. 15, 16 Watts e Strogatz(1998) Duncan J. Watts e Steven H. Strogatz. Collective dynamics of small-world networks. Nature, 393(6684):440442. Citado na pg. xi, 3, 12, 15, 16 Weinberger e Saul(2006) Kilian Q. Weinberger e Lawrence K. Saul. Unsupervised learning of image manifolds by semidenite programming. Int. J. Comput. Vision, 70: 7790. ISSN 0920-5691. Citado na pg. 39, 94 West et al.(1999) G. B. West, J. H. Brown, e B. J. Enquist. A general model for the structure, and algometry of plant vascular systems. Nature, 400:122126. Citado na pg. 3, 13 Xu e II(2005) R. Xu e D. Wunsch II. Survey of clustering algorithms. IEEE Trans. Neural Networks, 16(3):645678. Citado na pg. 2
114
Yarowsky(1995) David Yarowsky. Unsupervised word sense disambiguation rivaling supervised methods. Em Meeting of the Association for Computational Linguistics, pginas 189196. Citado na pg. 28, 29 Zachary(1977) W. W. Zachary. An information ow model for conict and ssion in small groups. Journal of Anthropological Research, 33:452473. Citado na pg. 6, 101 Zeng et al.(2010) Y. Zeng, J. Cao, S. Zhang, S. Guo, e L. Xie. Random-walk based approach to detect clone attacks in wireless sensor networks. IEEE Journal on Selected Areas in Communications, 28(5):677691. Citado na pg. 3 Zhai(2006) Mingyue Zhai. On power lines communications channels characteristics of markov. Parallel and Distributed Computing Applications and Technologies, International Conference on, 0:3337. Citado na pg. 45 Zhang et al.(2007) S. Zhang, R. Wang, e X. Zhang. Identication of overlapping community structure in complex networks using fuzzy cc-means clustering. Physica A: Statistical Mechanics and its Applications, 374(1):483490. Citado na pg. 21 Zhao et al.(2004) L. Zhao, K. Park, e Y.-C. Lai. Attack vulnerability of scale-free networks due to cascading breakdown. Physical Review E, 70:035101(14). Citado na pg. 3, 13 Zhao et al.(2005) L. Zhao, K. Park, e Y.-C. Lai. Tolerance of scale-free networks against attack-induced cascades. Physical Review E (Rapid Communication), 72(2):025104(R)1 4. Citado na pg. 3, 13 Zhao et al.(2007) L. Zhao, T. H. Cupertino, K. Park, Y.-C. Lai, e X. Jin. Optimal structure of complex networks for minimizing trafc congestion. Chaos (Woodbury), 17(4): 043103(15). Citado na pg. 3, 13 Zhong et al.(2008) M. Zhong, K. Shen, e J. Seiferas. The convergence-guaranteed random walk and its applications in peer-to-peer networks. IEEE Trans. Computers, 57 (5):619633. Citado na pg. 3 Zhou e Schlkopf(2006) D. Zhou e B. Schlkopf. Semi-supervised Learning. ch: Discrete Regularization, pginas 237250. Adaptive computation and machine learning. MIT Press, Cambridge, MA, USA. Citado na pg. 94 Zhou e Schlkopf(2004) Dengyong Zhou e Bernhard Schlkopf. Learning from labeled and unlabeled data using random walks. Em Pattern Recognition, Proceedings of the 26th DAGM Symposium, volume 3175, pginas 237244. Springer, Heidelberg. Citado na pg. 35, 45 Zhou et al.(2003) Dengyong Zhou, Olivier Bousquet, Thomas N. Lal, Jason Weston, Bernhard Schlkopf, e Bernhard S. Olkopf. Learning with local and global consistency. Em Advances in Neural Information Processing Systems 16, volume 16, pginas 321328. Citado na pg. xi, 8, 34, 37, 38, 39 Zhou et al.(2004) Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, e Bernhard Schlkopf. Learning with local and global consistency. Em Advances in Neural Information Processing Systems, volume 16, pginas 321328. MIT Press. Citado na pg. 92, 94
115
Zhou(2003a) H. Zhou. Distance, dissimilarity index, and network community structure. Phys. Rev. E, 67(6):061901. Citado na pg. 2, 20 Zhou(2003b) Haijun Zhou. Network landscape from a brownian particles perspective. Physical Review E, 67(4):041908. Citado na pg. 4, 7 Zhu(2005a) X. Zhu. Semi-supervised learning with graphs. Tese de Doutorado - Carnegie Mellon University. CMU-LTI-05-192. Citado na pg. 31, 32, 36 Zhu e Ghahramani(2002) X. Zhu e Z. Ghahramani. Learning from labeled and unlabeled data with label propagation. Relatrio Tcnico CMU-CALD-02-107, Carnegie Mellon University, Pittsburgh. Citado na pg. 94 Zhu e Goldberg(2009) X. Zhu e A. B. Goldberg. Introduction to Semi-Supervised Learning. Morgan and Claypool Publishers, Synthesis Lectures on Articial Intelligence and Machine Learning. Citado na pg. 32, 33 Zhu(2005b) Xiaojin Zhu. Semi-supervised learning literature survey. Relatrio Tcnico 1530, Computer Sciences, University of Wisconsin-Madison. Citado na pg. 31, 34 Zhu et al.(2003) Xiaojin Zhu, Zoubin Ghahramani, e John Lafferty. Semi-supervised learning using gaussian elds and harmonic functions. Em In ICML, pginas 912 919. Citado na pg. 45
116

Aprendizado Semissupervisionado Via Competição de Partículas em Redes Complexas: Modelagem, Análise e Aplicações

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Aprendizado Semissupervisionado Via Competição de Partículas em Redes Complexas: Modelagem, Análise e Aplicações

Transféré par

Droits d'auteur :

Formats disponibles

Aprendizado semissupervisionado via competio de partculas em redes complexas: modelagem, anlise e aplicaes

Thiago Christiano Silva

Thiago Christiano Silva

Orientador: Prof. Dr. Zhao Liang

USP - So Carlos Setembro de 2011

49 49 49 52 60 62 63 64 67 67 80 83 85 85 87 90 96 97 97 98 98 99 100 101 102 103 103 105

1.1 - Objetivos e Motivaes

1.2 - Organizao do Documento

Captulo 2 - Redes Complexas

2.1 - Evoluo Histrica

Modelos de Formao de Rede

Captulo 2 - Redes Complexas

Dado que N e p sejam suciente pequenos, possvel mostrar que uma

2.2 - Modelos de Formao de Rede

Redes de Pequeno Mundo

Captulo 2 - Redes Complexas

2.2 - Modelos de Formao de Rede

Redes Livre de Escala

Captulo 2 - Redes Complexas

Redes Aleatrias Clusterizadas

2.2 - Modelos de Formao de Rede

Captulo 2 - Redes Complexas

2.3 - Deteco de Comunidades

Competio de Partculas para Deteco de Comunidades

Captulo 2 - Redes Complexas

(t) j j ( t + 1) = (t) + (max (t)) j j (t) ( (t) )

se vi (t) = 0 se vi (t) = 1 e vi (t) = min se vi (t) = 0 se vi (t) = 1 e vi (t) = j se vi (t) = 1 e vi (t) = j

2.3 - Deteco de Comunidades

Captulo 2 - Redes Complexas

Captulo 3 - Aprendizado Semissupervisionado

3.1 - Aprendizado de Mquina

Captulo 3 - Aprendizado Semissupervisionado

Aprendizado Semissupervisionado: Denies, Motivaes e Modelos

Uma Breve Evoluo Histrica

3.2 - Aprendizado Semissupervisionado: Denies, Motivaes e Modelos

Motivaes para o Aprendizado Semissupervisionado

Captulo 3 - Aprendizado Semissupervisionado

3.2 - Aprendizado Semissupervisionado: Denies, Motivaes e Modelos

Captulo 3 - Aprendizado Semissupervisionado

Abordagens de Aprendizado Semissupervisionado

3.3 - Abordagens de Aprendizado Semissupervisionado

Mtodos de Separao por Regies de Baixa Densidade

Mtodos Baseados em Grafos

Captulo 3 - Aprendizado Semissupervisionado

3.3 - Abordagens de Aprendizado Semissupervisionado

Captulo 3 - Aprendizado Semissupervisionado

3.3 - Abordagens de Aprendizado Semissupervisionado

Classicador de Regularizao Local e Global

Captulo 3 - Aprendizado Semissupervisionado

3.3 - Abordagens de Aprendizado Semissupervisionado

bem similares, deve ser nulicado ou minimizado por uma norma

Captulo 3 - Aprendizado Semissupervisionado

Classicador Semissupervisionado Guiado pela Medida de Modularidade

3.3 - Abordagens de Aprendizado Semissupervisionado

se i e j estiverem conectadas caso contrrio

Captulo 3 - Aprendizado Semissupervisionado

3.3 - Abordagens de Aprendizado Semissupervisionado

Captulo 3 - Aprendizado Semissupervisionado

3.3 - Abordagens de Aprendizado Semissupervisionado

yq = arg max P [q|y] P[y].

Captulo 3 - Aprendizado Semissupervisionado

Caminhadas Aleatrias Markovianas sem Restrio

ai,j , V u=0 ai,u