Académique Documents
Professionnel Documents
Culture Documents
So Carlos
2007
ii
Epgrafe
Romanos 11, 36
iv
Dedicatria
Deus, meus pais, a minha namorada Michelle, meu av Silvio e meus outros avs:
Ana Maria, Maria e Francisco (in memria ).
vi
Agradecimentos
Gostaria de agradecer a Deus por sempre me presentear com uma famlia maravilhosa
e com pessoas amigas ao meu rendor, as quais contribuiram e muito para a elaborao
deste trabalho. Procurarei agradec-las com singelas palavras.
Michelle, uma mulher encantadora onde posso armar, sem sombra de dvida, que
sou uma pessoa felizarda em poder estar compartilhando minha vida com ela. Obrigado
por tudo, meu amor.
Ao prof. Dr. Alexandre Cludio Botazzo Delbem, pelos ricos ensinamentos em al-
goritmos evolutivos e protenas. No podendo deixar de agradec-lo, em especial, pela
oportunidade em me permitir trabalhar em parceiria com seu laboratrio na investigao
do problema de estrutura terciria de protenas.
MSc. Telma Woerle de Lima, pela pacincia nos ensinamentos, pelo companheirismo
nas pesquisas e, acima de tudo, por sua amizade.
Todos meus amigos do ICMC, onde pude compartilhar minhas pesquisas, alm de ter
amigos pra diversas outras ocasies. Em especial, quero agradecer toda a ajuda do MSc.
Bruno Feres na elaborao deste trabalho, principalmente nos ensinamentos no Latex.
grande amigo Marcelo Suetake, o qual ajudou no s na reviso deste trabalho, nas
imagens do mesmo, mas tambm em valiosos ensinamentos e, em hiptese nenhuma posso
deixar no evidenciar o seu companheirismo.
Ao meu grande amigo Evandro Alves da Silva onde tenho o prazer de poder contar
com seu companheirismo em todas as horas, alm da sua pacincia em poder dividir o
apartamento.
Agradeo a todos meus professores da graduao, os quais pude encontrar uma re-
ferncia para alavancar conhecimentos em computao, alm de ajuda para poder estar
cursando o mestrado. Dentre eles, tenho que destacar a contribuio de dois: MSc. Mau-
rcio Escarpinati e o MSc. Paulo Eduardo Ambrsio. Alm de se tornarem meus amigos,
eles merecem um especial agradecimento por tudo que zeram, fazem e que faro, com
certeza, no intuito de colaborar com a minha vida pessoal e prossional.
Tenho tambm que agradecer a empresa Destinform, a qual trabalhei durante todo
o perodo da minha graduao e no incio da ps-graduao. Agradecer pelos incentivos
em meus estudos e por conar em meu trabalho. No posso deixar de citar meus sinceros
votos de agradecimentos a todos que trabalharam comigo, dentre eles: Fabrcio, Mrcio,
derson, Daniel, Glauce, Andra e Antonio Postigo. Em especial, ao Gustavo Postigo,
onde pude encontrar alm de um chefe, uma pessoa mpar.
No posso deixar passar, tambm, meus agradecimentos a empresa 3WT, a qual pude
encontrar pessoas que compartilham conhecimentos e amizades.
Enm, agradeo todos que contriburam na elaborao deste trabalho, mas por um
esquecimento no constam seus nomes. Mas mesmo assim, sua contribuio foi de igual
signicncia, sendo assim, alm dos meus agradecimentos, ca registrado minhas sinceras
desculpas.
ix
Resumo
Assim sendo, neste trabalho se buscou eliminar as fronteiras de Pareto e para isso
utilizou a lgica Fuzzy, mantendo-se assim o emprego dos algoritmos evolutivos. O pro-
blema escolhido para investigar essa substituio foi o problema de predio de estrutura
terciria de protenas, pois alm de se encontrar em aberto de suma relevncia para a
rea de bioinformtica.
Abstract
Thus being, this work investigated to remove the Pareto front and for this utilized
the Fuzzy logic, remaining itself thus the employ of evolutionary algorithms. The choice
problem to investigate this remove was the protein tertiary structure prediction, because
it is a open problem and extremely relevance to bioinformatic area.
Lista de Figuras
2.5 ngulos e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.1 Representao dos quatro conjuntos Fuzzy proposto ajustado pelo ANFIS. 72
5.2 Superfcie entre os tness F1 obj3 e F3 obj3 para o caso com trs objetivos. . 74
5.3 Superfcie entre os tness F2 obj3 e F3 obj3 para o caso com trs objetivos. . 74
5.4 Superfcie entre os tness F1 obj4 e F2 obj4 para o caso com quatro objetivos. 75
5.5 Superfcie entre os tness F2 obj4 e F3 obj4 para o caso com quatro objetivos. 75
5.6 Superfcie entre os tness F3 obj4 e F4 obj4 para o caso com quatro objetivos. 76
A.1 Esquema dos componentes constituntes do Toolbox Fuzzy Logic do Matlab. 100
A.4 Editor de regras ilustrando regras do sistema proposto com quatro entradas.103
A.5 Visualizao das regras do sistema proposto com quatro entradas. . . . . . 104
Lista de Tabelas
Lista de Quadros
AE Algoritmo Evolutivo
AG Algoritmo Gentico
CE Computao Evolutiva
Sumrio
Epgrafe iii
Dedicatria v
Agradecimentos vii
Resumo ix
Abstract xi
Lista de Tabelas xv
1 Introduo 1
1.1 Motivao e Relevncia do Trabalho . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos e Contribuies da Pesquisa . . . . . . . . . . . . . . . . . . . . 6
1.3 Organizao da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 Metodologia Proposta 59
4.1 Sistema Fuzzy Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Consideraes Parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Referncias Bibliogrcas 89
Captulo 1
Introduo
A era ps-genmica tem sido caracterizada por dois cenrios principais. Primeiro,
disponibilizao de uma grande quantidade de informaes biolgicas que necessitam de
ferramentas e mtodos ecientes para modelar os processos visando posteriormente a
anlise de seus comportamentos. Segundo, novos modelos e paradigmas computacionais
tm sido desenvolvidos muitos deles baseados em sistemas bioinspirados, esto tambm
disponveis para serem aplicados em problemas complexos e de difcil modelagem perante
o contexto da computao. Como exemplo desta complexidade, informaes sobre dados
biolgicos variam de strings simples representados por grcos em 1D (seqncia de dados)
a grcos 3D, que modelam a estrutura terciria de protenas (Ezziane, 2006).
brutos em dados teis, que comearam com o sequenciamento de DNA e que atualmente
aplicado em diversas outras reas, tais como Predio de Estruturas Terciria de Protenas
(Ezziane, 2006).
Muitos dos desaos da bioinformtica podem ser formulados como problemas de otimi-
zao, os quais vm sendo tratados como um problema de otimizao mono-objetivo apre-
sentando j resultados satisfatrios. Contudo, para alguns deles no possvel investig-
los usando tratamento por otimizao mono-objetivo. Sendo assim, os mesmos devem ser
mapeados como problemas de otimizao multi-objetivos no qual se enquadra o problema
de Predio de Estruturas Terciria de Protenas (Handl et al., 2006).
Bajic et al. (2003) descreveu as vantagens na integrao dos dados e nas tecnologias de
data mining que so relevantes para a biologia molecular e cincias biomdicas. Portais
Web, como Entez e ExPASy, representam o primeiro nvel de integrao de dados de
bioinformtica, metodologias e ferramentas (Bergeron, 2003).
Tan e Gilbert (2003) prepararam uma comparao emprica de vrios mtodos (SVM,
Redes Neurais Articiais, rvores de Deciso, entre outros), armando que quando tra-
balhando com combinao de mtodos, os resultados obtidos so melhores que aqueles
obtidos com a aplicao de somente um mtodo.
De fato, o campo de biologia molecular feito sob medida para os mtodos baseados em
sistemas inteligentes, visto que tais mtodos tm uma tima performance onde h muitos
dados quantitativos, mas pouca informao qualitativa disponvel (Ezziane, 2006). Desde
a introduo de tcnicas de sistemas inteligentes nesta rea, muitos algoritmos tm sido
propostos e aplicados para o estudo de diferentes grupos de dados.
Dentro desse contexto, uma das tnicas principais das pesquisas da rea consiste em
investigar a aplicao de diversas abordagens, advindas da rea de sistemas inteligentes,
nos processos envolvidos com a determinao da estruturas de protenas.
1 um modelo estatstico onde o sistema inicialmente modelado assumido ser um processo de Markov
6
Por sua vez, os Algoritmos Evolutivos (AEs) tm j sido tambm utilizados de forma
extensiva como uma ferramenta de otimizao na soluo de diversos problemas envol-
vendo determinao de estruturas de protenas. Mais especicamente, os algoritmos evo-
lutivos so mtodos de otimizao adaptativos que utilizam operadores, os quais so
inspirados em mtodos seletivos naturais, que so especialistas na procura de solues
timas. Prova-se que os mtodos baseados nos algoritmos evolutivos so teoricamente
e empiricamente robustos em espaos complexos. Assim, os algoritmos evolutivos (na
prtica) podem ser denidos como um mtodo de busca de uma soluo tima a partir
de uma populao de solues candidatas. Conseqentemente, as abordagens inspiradas
nos algoritmos evolutivos podem ser aplicadas em diversos problemas envolvidos com a
determinao de estruturas de protenas, nas quais requerem a procura de uma soluo
levando-se em considerao os critrios timos associados com os potenciais de energia.
sem se conhecer os parmetros, sendo que o desao determinar os parmetros desconhecidos baseando-se
nos dados observados.
7
2. O grupo de soluo classicada como Pareto timo pode ser uma parte pequena do
espao de busca como um todo. Consequentemente, tem-se pouca contribuo no
esforo para encontrar a melhor soluo.
Sendo assim, este trabalho de mestrado tem como objetivo propor um algoritmo ba-
seado na Lgica Fuzzy como alternativa fronteira de Pareto, evitando para tanto que
modicaes signicativas sejam realizadas nos AEs que utilizam a tal fronteira. Como
resultado, disponibiliza-se- um algoritmo hbrido multi-objetivo para aplicar neste pro-
blema complexo de otimizao, que intitulado na literatura como predio de estruturas
tercirias de protenas.
Captulo 2
Uma das relevncias em investigar as protenas devida exercerem diversas funes bi-
oqumicas, sendo as principais atuaes: ligao, catlise e atuao como chave molecular
e servindo como componente estrutural de clulas e organismos. Protenas podem ligar-se
a outras macromolculas, tais como DNA ou outras protenas. Esta funo explica a ha-
bilidade das protenas em apresentar superfcies estruturalmente e quimicamente diversas
que podem interagir com outras molculas com alta especicidade (Petsko e Ringe, 2004).
Neste captulo, a Seo 2.1 tratar sobre os amincidos e propriedades das ligaes
peptdicas. A hierarquia das protenas ser discutida nas Sees 2.3, 2.4 e 2.5. A Seo 2.6
abordar sobre a determinao da estrutura terciria de protenas. A Seo 2.7 descrever
10
2.1 Aminocidos
Aminocidos so compostos orgnicos que possuem uma estrutura bsica comum que
consiste de um carbono central denominado carbono , o qual possui quatro ligantes
diferentes, um hidrognio (H), um grupo carboxila (COOH), um grupo amina (NH2 ) e
um radical R tambm chamado cadeia lateral do aminocido (que pode consistir de um
nico tomo de hidrognio at complexos anis aromticos) (Copeland, 1993). A Figura
2.1 representa a estrutura bsica de um aminocido.
Grupo
Carboxila
Grupo COOH
Amino
H2 N C H
Carbono
R
Cadeia
Lateral
1 1. Que se refere memria. 2. Que ajuda a memria. 3. Que facilmente se grava na memria.
11
dos em trs diferentes classes. A primeira classe compreende os aminocidos com cadeia
lateral estritamente hidrofbica, isto , o composto da cadeia lateral no se dissolve em
contato com a gua (Alanina, Valina, Leucina, Isoleucina, Fenilalanina e Prolina). Ami-
nocidos que possuem cadeia lateral estritamente hidroflica, isto , o composto da cadeia
lateral se dissolve em contato com a gua, compem a segunda classe (cido Aspr-
tico, cido Glutmico, Serina, Treonina, Cistena, Asparagina, Glutamina, Histidina e
Argenina). A terceira classe composta pelos aminocidos com caractersticas polares
e apolares que dissolvem no contato com a gua, sendo os mesmos tambm chamados
anpticos (Lisina, Tirosina, Metionina, e Triptofano) (Petsko e Ringe, 2004).
12
3 Macromolculas
constitdas pela repetio de pequenas molculas idnticas ou praticamente idnticas,
os monmeros, ligadas covalentemente (Lodish et al., 2004).
13
Outra propriedade observada que, embora a rotao sobre a ligao C-N seja res-
14
H O H
R H R O
H
C C C
N N C
C C N C
C N C
H
H
R H
O O H
R
Figura 2.4: Representao dos tomos no mesmo plano (de Lima, 2006).
4 onde C no o carbono .
15
Segundo Lodish et al. (2004), muitos termos so usados para designar as cadeias for-
madas pela polimerizao dos aminocidos. Uma cadeia curta de aminocidos, unidos por
ligao peptdica em uma sequncia, chamada de peptdeo; j as cadeias mais longas
so denominadas polipeptdeos. Os peptdeos normalmente contm menos de 30 resduos
de aminocidos enquanto os polipeptdeos podem conter 4 mil resduos.
5O PDB uma das principais bases de dados de protenas com estrutura terciria determinada por
meio dos mtodos experimentais.
16
Segundo Lodish et al. (2004), pode-se denir trs tipos de elementos de estrutura
secundria:
1. Hlice ,
2. Folhas ,
3. Voltas.
A forma tridimensional assumida pela protena conhecida por dobra nativa (ou eno-
velamento nativo) e deve-se principalmente variao de fatores termodinmicos. Em
sua estrutura nativa, as protenas, esto no formato que lhes permite ter a mnima ener-
gia livre, favorvel na soluo em que se encontram. Alguns fatores termodinmicos
inuenciam o processo de dobramento das protenas, sendo um dos mais importantes a
necessidade de resguardar os aminocidos no polares do meio aquoso, o que forma o
conhecido centro hidrofbico da protena. De forma similar, o processo de dobramento
tambm procura favorecer as interaes entre os aminocidos polares e molculas do sol-
vente na superfcie hidroflica da protena. Assim, protenas em seu estado natural sempre
dobram-se espontaneamente em estruturas tridimensionais, quando em condies de so-
lues favorveis (Copeland, 1993).
A estrutura terciria das protenas com peso molecular maior que 15 mil, possui uma
unidade fundamental conhecida como Domnio. Geralmente, um domnio caracterizado
por alguma caracterstica interessante: uma abundncia incomum de um derterminado
aminocido (domnios ricos em prolina um domnio cido) (Lodish et al., 2004).
para obter um mapa de densidade de eltrons da molcula, o qual pode ser interpretado
em termos de um modelo atmico. Atuais avanos tcnicos, tais como computadores
poderosos, incluindo sistemas grcos, detectores de reas eletrnicas e muitas fontes
fortes de raios-X de radiao sncrona, tm facilitado extremamente o uso de cristalograa
de raio-X (de Lima, 2006).
rigidez da cadeia principal (cadeia que contm todos os carbonos , Seo 2.1);
restries de volume;
Por ainda no haver uma teoria que explique adequadamente o processo de dobramento
de uma protena em sua estrutura terciria, a qual necessria para a determinao da sua
funo, uma alternativa tem sido as abordagens que visam a Determinao da Estrutura
da Protena (DEP) sendo que a mesma pode ser vista como um problema de otimizao.
Vrios mtodos de otimizao tm sido investigados para esse problema, destacando-se
aqueles baseados em threading (Baxevanis e Ouellette, 2001), homologia (Doolittle, 1986;
Hilbert et al., 1993), Ab initio (Cui et al., 1998; Vullo, 2002) e semi Ab initio (Inbar et al.,
2003, 2005).
sabe-se que, e no muito incomum, encontrar duas protenas tendo baixa identidade na
seqncia com estrutura terciria, mas com funo similares entretanto.
tamanho dos elementos da estrutura secundria, s regies de loop que podem ser
xas ou variveis dentro de um intervalo, entre outras restries.
9 Refere-se relao espacial (ligadas por ligaes no-covalentes) entre duas ou mais cadeias polipep-
tdicas para compor uma protena.
26
dE 1 d2 E 2 1 d3 E
E(r) = E(r0 ) + (r r0 ) + (r r0 ) + (r r0 )3 + . . . (2.1)
dr r=r0 2 dr2 r=r0 6 dr3 r=r0
As foras entre tomos (covalentes) ligados so muito fortes em comparao com ou-
tras foras relativas s interaes entre os tomos. Esta uma justicativa para utilizar
uma aproximao harmnica. importante lembrar que esta uma aproximao para o
potencial de comprimento de ligao real e que, para grandes desvios de r0 , a aproxima-
o harmnica no reete o comportamento verdadeiro do potencial de comprimento de
28
ligao. Para situaes onde o comprimento de ligao pode desviar para longe de r0 , ou
ainda, em casos onde se deseja calcular de forma precisa, h a necessidade de se utilizar
o potencial de Morse.
Alm disso, Etors pode ser utilizada em muitas diferentes formas, dependendo dos
tomos envolvidos. Assim, a forma funcional escolhida deve ser capaz de modelar ampla-
mente diferentes potenciais.
Para as interaes de torso comum sua modelagem utilizar uma srie de Fourier,
ou seja:
X1
Etors () = Vn cos(n) (2.3)
n
2
X1
Etors () = Vn (1 + cos(n n )) (2.4)
n
2
Na Figura 2.12 podem ser vistas as trs primeiras fases da Equao (2.4). A linha
cheia apresenta o grco da Equao (2.4) para n = 1, a linha pontilhada para n = 2 e a
linha tracejada ilustra o grco da Equao (2.4) para n = 3.
1
n=1
n=2
n=3
0.5
E
0
0 90 180 270 360
phi
os tomos i e j .
Energia imprpria est associada com deformaes dos ngulos de torso imprprios.
Estes ngulos de torso referem-se a tomos com hibridizao sp2, que geram deformaes
fora do plano.
1
Eimproper () = kimproper ( 0 )2 (2.6)
2
X qi qj
Echarge = i, j (2.7)
Dri,j
Considerando que as cargas (qi e qj ) dos tomos no variam, tem-se que a energia
eletrosttica ento varia de acordo com a distncia entre os tomos. Assim, tendo-se o
produto das cargas qi e qj como positivo, e variando o tamanho da distncia entre os
tomos, obtem-se o grco apresentado na Figura 2.13. Neste grco, observa-se que
conforme a distncia entre os tomos diminui a energia tende a innito e que quando a
distncia aumenta a energia tende a zero.
Como no caso da energia de van der Waals (Seo 2.8.6), tendo tambm como obje-
31
A interao de van der Waals ocorre quando dois tomos aproximam-se muito um do
outro criando uma fora de atrao fraca e inespecca. Entende-se como uma interao
inespecca o caso em que dois tomos ligados no-covalentemente (no compartilham um
par de eltrons) estiverem suentemente prximos10 a ponto dos eltrons de um dos tomos
pertubarem os eltrons do outro, sendo que esta pertubao gera um dipolo temporrio
no segundo tomo e atrair-se-o fracamente (Lodish et al., 2004).
10 Quando muito prximos os tomos se repeliro devido as cargas negativas dos seus eltrons
(Lodish et al., 2004).
32
As interaes de van der Waals so uma das mais importantes para a estabilidade de
macromolculas biolgicas. Estas interaes so calculadas sobre pares de tomos. Em
princpio, todas as interaes de todos os pares de tomos deveriam ser avaliados, mas isto
elevaria signicativamente o custo computacional. Sendo assim, dene-se previamente a
mxima distncia que eviderenciar uma interao de van der Waals. Em de Lima (2006)
esta distncia foi de ri,j > 8. Outro valor de corte estabelecido quando a distncia
entre os tomos se torna menor que uma distncia pr-denida, conhecido como corte
de diminuio, pois neste caso Evdw , como pode ser observado na Figura 2.14 que
mostra o grco da funo de van der Waals em sua forma padro.
3
E
1
0.8 1 1.5 2
r
Neste captulo foi possvel obter informaes sobre as protinas e elucidar os desa-
os, devido sua complexidade, para o problema de predio de estruturas tercirias de
protenas in silicio. Podemos enfatizar algumas informaes sobre as protenas, ou sejam:
Foi tambm descrito as funes de energia que sero utilizadas na funo de avaliao11
do algoritmo proposto.
Captulo 3
Neste captulo, a Seo 3.1 trata da otimizao multi-objetivo no que diz respeito ao
conceito e denies. A Seo 3.2 referencia sobre a base fundamental dos algoritmos
genticos (Seo 3.3) que a teoria da evoluo. A Seo 3.4 refere-se aos algoritmos
evolutivos aplicados nos problemas de otimizao multi-objetivo. A Seo 3.5 abordar a
lgica Fuzzy e na Seo 3.6 ser apresentada a abordagem evolutiva multi-objetiva Fuzzy
que a metodologia computacional que ser investigada e aplicada.
O objetivo minimizar preo e maximizar conforto. Neste caso, tem-se cinco possveis
alternativas de compra. As solues 1 e 2, so descartadas, pois a soluo 5 fornece mais
2 Umasoluo x factvel se, e somente se, satisfazer todas as restries. Caso contrrio, a soluo
ser no factvel.
37
Uma soluo domina uma outra soluo se, e somente se, em todos seus objetivos,
possuir valores melhores. No exemplo de Ticona (2003), a soluo 5 domina a soluo 1
e no dominada por nenhuma outra. Aplica-se o mesmo, para as solues 3 e 4.
No tendo mais informaes a respeito das solues, pode-se armar que o conjunto
das solues 3, 4 e 5 so as melhores solues, o qual tambm conhecido como conjunto
no dominado. Logo, as solues 1 e 2 constituem o conjunto dominado.
A teoria da evoluo foi proposta por Charles Darwin (Darwin, 1859) na dcada de
1850 e at nos dias atuais o principal conceito unicador das diversas reas da biologia.
Tal teoria comeou a ser desenvolvida a partir das observaes de Darwin durante sua
viagem a bordo do navio Beagle. Esta teoria tem como um de seus princpios o conceito
de seleo natural, o qual arma que o meio atua sobre os indivduos selecionando os mais
adaptados ao ambiente para sobreviver, pois as populaes no podem crescer demais.
So considerados indivduos adaptados ao ambiente aqueles que conseguem sobreviver e
deixar descendentes.
4 Simuladosem computador.
5 Conjuntode indivduos representando as solues candidatas codicadas de forma similar a cromos-
somos em gentica.
40
tituem, assim, uma classe de mtodos de busca de propsito geral que apresentam um
balano considervel entre aproveitamento de melhores solues e explorao do espao
de busca.
2001). Os Hamming clis presentes na codicao binria causam o atraso para uma
busca gradual nos espaos de busca contnuos.
8A
convergncia prematura ocorre quando indivduos relativamente adaptados, contudo no timos,
rapidamente dominam a populao fazendo com que o AG convirja para um mximo ou mnimo local.
Este problema pode ocorrer devido a uma formulao inadequada do problema.
43
Operador de Crossover
Operador de Mutao
x0 = x + N (0, ),
deste passar para a prxima gerao. Sendo assim, a seleo de indivduos pela tcnica
da roleta pode fazer com que o melhor indivduo da populao seja perdido, ou seja, no
passe para a prxima gerao. Uma alternativa escolher como soluo o melhor indivduo
encontrado em todas as geraes do algoritmo. Pode-se, tambm, manter sempre o melhor
indivduo da gerao atual na gerao seguinte, estratgia essa conhecida como seleo
elitista (Fogel, 1994; Michalewicz, 1996).
aptido e assim tero maior quantidade de cpias na lista de solues. Com o objetivo
de manter a diversidade das solues, Goldberg sugeriu a utilizao de um mtodo de
compartilhamento que calcula o nicho de cada soluo dentro da fronteira que a soluo
pertence. Com base nas idias iniciais de Goldberg foram ento propostos vrios modelos
de AEMOs.
O algoritmo NSGA-II baseado em uma ordenao elitista por no-dominncia (Deb et al.,
2000). O NSGA-II, com a populao de indivduos pais P , gera a populao de indiv-
duos lhos Q como nos AEs convencionais. Na primeira iterao, gera-se uma populao
Pt , que ordenada por no-dominncia (Seo 3.1.1). Depois, aplicando os operadores
de seleo por torneio (Seo 3.3.4), cruzamento e mutao, obtm-se a populao de
indivduos lhos Qt . Tanto P como Q so de tamanho N .
Pt+1 . Considerando que apenas N solues podem ser inseridas na populao Pt+1 , N
solues de Rt so descartadas. Para preencher as Pt+1 , comea-se com as solues em F1 ;
se no forem completadas as N solues, prossegue-se com F2 e, assim por diante. Cada
conjunto Fi deve ser inserido na sua totalidade em Pt+1 , isto ocorre quando |Pt+1 | + |Fi |
N . Quando ocorre o caso de ao inserir Fj a |Fj | > N |Pt+1 |, o algoritmo NSGA-II
seleciona as solues de Fj que estejam melhor diversicadas. A Figura 3.2 ilustra uma
iterao do algoritmo NSGA-II.
ordenao distncia
por dominncia de multido
F1
Pt F2 P t+1
Qt F3
Rt rejeitadas
Im Im
maior valor para um objetivo m. fmi+1 e fmi1 so os valores dos vizinhos de i na m-sima
max
funo objetivo. Os fm min
e fm so parmetros dos limites mximo e mnimo em cada
objetivo. A Equao (3.1) garante que as solues mais afastadas tenham di maior do
que as mais prximas.
d0 =
f2
di
di+1
i-1
i
i+1 dN =
f1
Como exemplo, considera-se a Figura 3.4 que denota trs conjuntos fuzzy : F1 , F2 e
F3 . Neste exemplo, verica-se que para x = 0, as funes F1 , F2 e F3 possui graus de
pertinncia 0, 1 e 0, respectivamente.
Uma informao importante quando trabalhando com conjuntos fuzzy que mesmo
um elemento possuindo grau de pertinncia 1.0, no signica que este estar excluso dos
outros conjuntos fuzzy.
52
Admitindo-se ento N conjuntos Fuzzy dados por {A1, A2, ..., An} denidos em um
mesmo universo de discurso X, ento a funo de pertinncia B(x) representando o con-
junto fuzzy B , o qual resultante da aplicao da agregao AGGR(.) sobre os elementos
de {A1, A2, ..., An}, dada por:
As condies necessrias para que uma funo seja classicada como funo de agre-
53
gao so:
AGGR(0 , 0 , 0 , 0 , ..., 0 ) = 0
AGGR(1 , 1 , 1 , 1 , ..., 1 ) = 1
Assim, verica-se que os operadores min e max so tambm classicados como funes
de agregao.
FATO: X A'
Regra1 : Se X A1 ENTO Y B 1
Regra2 : Se X A2 ENTO Y B 2
(...)
RegraN : Se X AN ENTO Y B N
_________________________
CONSEQNCIA: Y B'
Para determinar uma regio fuzzy B ' advinda de todas as regras ativadas se deve
aplicar o operador de agregao (Seo 3.5.3) e, aps, usando um mtodo de defuzzicao,
obtem-se uma resposta no-fuzzy (crisp). Os principais mtodos de defuzzicao so os
seguintes:
55
PN
B 0 (V ) .Vk
1. Centro de rea : k=1
PN k
B 0 (V
, onde Vk a discretizao do universo de discurso.
k=1 k)
PM Vk
2. Mdia dos Mximos : k=1 M , onde M a quantidade de elementos que contm
graus de pertinncia mximos.
Desenvolvido por Takagi e Sugeno (1985), sendo que o principal diferenciador est no
fato de que a sua funo de pertinncia de sada pode ser tanto uma funo linear quanto
uma funo constante.
Uma regra tpica do sistema de inferncia de Takagi-Sugeno pode ser descrito como:
Se x A e y B ento C ax + ay + c
Bonissone et al. (2002) aplicou tcnicas evolutivas para ajustar um sistema de deciso
Fuzzy, onde o mesmo automaticamente computa o risco de uma aplicao de seguros. J
56
assunto.
Alm disso, este captulo abordou a utilizao da metologia proposta por Takagi-
Sugeno, onde se evidencia uma melhor performace do sistema quando este possui infor-
maes quantitativas, sendo esta a situao apresentada nesta dissertao.
58
59
Captulo 4
sem a necessidade de trabalhar com a fronteira de Pareto, mas tendo o espao de busca
percorrido.
Como o algoritmo proposto contribuir para a seleo dos indivduos mais adaptados
do AE, os operadores genticos dependero do AE utilizado.
Para cada indivduo ser calculado seus tness. Com estes valores, o sistema fuzzy
ser capaz de ordenar as melhores solues em ordem crescente, como ocorre no NSGA-II,
por exemplo. Mas a diferena que com a inferncia fuzzy torna-se mais fcil visualizar
quais so as melhores solues e, por intermdio de um nico parmetro (defuzzicao),
obtem-se toda a aptido do indivduo. Assim, possvel, aps a defuzzicao, trabalhar
o AE como se fosse um mono-objetivo, ou seja, a ordenao realizar-se- em relao a
um nico valor para cada indivduo da populao. Isto se torna importante, pois no
h a necessidade de dividir a populao em fronteiras e, para cada fronteira, atravs da
distncia da multido1 se obtem seus melhores indivduos, sendo esta a forma como o
NSGA-II trabalha. Tal estratgia, como j citado2 , pode se tornar inapropriada para
problemas com mais de trs objetivos.
Assim, a operao do sistema fuzzy formulado pode ser resumido em cinco passos
principais conforme explicitado a seguir:
O Passo 1 responsvel em normalizar os tness para o domnio [0, 1], tendo como
propsito converter os mesmos para uma mesma base de comparao.
A Gerao dos quatro conjuntos fuzzy (Passo 2) se refere aos procedimentos que visam
ajustar as funes de pertinncia dos mesmos.
O Passo 4 consiste de detectar quais termos das funes fuzzy foram ativados pelos
tness. O tness que possuir o grau de pertinncia diferente de zero implicar na ativao
das regras fuzzy. Tendo as funes de ativao de cada tness, verica-se ento quais das
regras Fuzzy foram ativadas.
Aps computada a regio fuzzy advinda da contribuio de cada regra ativada (Passo
5) ocorrer-se- ento a defuzzicao. Com este valor se tem a importncia de cada
indivduo perante toda a aplicao, pois, obtem-se o valor de defuzzicao em relao a
todos os objetivos do problema investigado. Tal valor ser denominado neste trabalho de
Autoridade de Aptido , tendo como propsito quanticar o nvel de dominncia de um
indivduo perante os demais.
O grco da Figura 4.1 uma representao dos quatro conjuntos fuzzy j citados.
Cada funo triangular do grco representa, respectivamente, os conjuntos fuzzy { muito
boa (1), boa (2), ruim (3), muito ruim (4)}.
para tanto o operador de implicao Mandani (Seo 3.5.4). A Figura 4.3 ilustra todo o
R1: se F1 = 3 e F2 = 1 e F3 = 3 ento R = 3
R2: se F1 = 3 e F2 = 1 e F3 = 4 ento R = 4
R3: se F1 = 2 e F2 = 1 e F3 = 3 ento R = 3
R4: se F1 = 2 e F2 = 1 e F3 = 4 ento R = 3
R5: se F1 = 1 e F2 = 1 e F3 = 1 ento R = 1
R6: se F1 = 1 e F2 = 2 e F3 = 1 ento R = 2
R7: se F1 = 2 e F2 = 3 e F3 = 4 ento R = 3
R8: se F1 = 2 e F2 = 3 e F3 = 1 ento R = 3
R9: se F1 = 4 e F2 = 4 e F3 = 1 ento R = 4
Neste captulo foi possvel descrever de forma resumida o mtodo proposto e propor-
cionar o cenrio de aplicao para este algoritmo. Deve ser ressaltado que a aplicabilidade
do algoritmo proposto no se resume apenas no problema de predio de estrutura terci-
ria. A escolha de tal problema est em virtude da grande relevncia que o mesmo assume
na literatura correlata.
Sendo o NSGA-II o AEMO mais utilizado na literatura, observa-se que o mesmo utiliza
a fronteira de Pareto, a qual pode se tornar inapropriada para problemas com mais de trs
objetivos. Neste caso, o sistema fuzzy desenvolvido pode ser uma alternativa promissora
utilizao de fronteira de Pareto, substituindo as mesmas em tais situaes.
Captulo 5
Esta abordagem torna-se relevante uma vez que nos banco de dados de protenas, tal
como o PDB, j h um nmero considervel de protenas em que pode ser homloga (si-
milar) protena que se deseja conhecer sua estrutura terciria. Em relao ao sistema
fuzzy, o ajuste dos termos das funes de pertinncia foi efetuado de forma automtica
a partir do uso da tcnica ANFIS, sendo a mesma baseada no mtodo de Takagi-Sugeno
(Seo 3.5.6). Os detalhes envolvidos com a tcnica ANFIS so destacados no Apndice
A. Torna-se importante destacar que, em virtude de ser possvel obter informaes quan-
titativas sobre o relacionamento entrada/sada do processo, o sistema fuzzy pode ento
ser sintonizado automaticamente pela aplicao da tcnica ANFIS, melhorando assim o
desempenho do mesmo.
68
A funo de avaliao consiste das funes de energia que foram discutidas na Seo
2.8.
Tabela 5.1: Funes de Energia e seu smbolo para representar na Funo de Avaliao.
Funo Energia Smbolo
Comprimento de Ligao Ebonds
ngulo de Torso Etors
Urey-Bradley Eurey
Imprpria Eimpro
Van der Waals Evdw
Eletrosttica ou de Carga Echarge
A primeira funo objetivo do AE com trs objetivos denotada por F1 obj3 , composta
somente pelo potencial de energia de Van der Waals, ou seja:
Tendo a funo de avaliao do AE com trs objetivos descrita acima, a seguir ser
apresentado os quatro tness (objetivos) utilizados no AE com quatro funes objetivos.
denotado por F1 obj4 a primeira funo objetivo do AE com quatro objetivos, sendo
a mesma composta somente pelo potencial de energia Van der Waals, ou seja:
A segunda funo objetivo do AE com quatro objetivos composta pela energia Com-
primento de Ligao e denotada por F2 obj4 , ou seja:
A quarta e ltima funo objetivo do AE com quatro objetivos composta pelo so-
matrio das energias: ngulo de Torso, Urey-Bradley e Imprpria, o qual denotado
70
A sada desejada para a tcnica ANFIS foi obtida de duas maneiras, sendo elas uma
para o caso com trs objetivos e uma outra para o caso com quatro objetivos. A seguir,
apresentada cada uma de tais sadas.
A sada desejada do ANFIS com trs objetivos denotada por Dobj3 , sendo composta
pelos tness do AE com trs funes objetivos apresentadas na Seo 5.1 e os valores
de energia (representados na Tabela 5.1) da protena determinda no PDB. Em relao
segunda funo objetivo, sendo constituda de um somatrio de energias, houve ento a
necessidade de se obter um termo onde tambm houvesse o somatrio das mesmas energias
apresentadas neste tness. Sendo assim, tal somatrio representado por Soma1D et e
constitudo pelas energias: Comprimento de Ligao, ngulo de Torso, Urey-Bradley
e Imprpria da protina determinada no PDB. A seguir, apresentada a sada desejada
para a tcnica ANFIS no caso com trs funes objetivos, ou seja:
Dobj3 = (F1 obj3 EvdwD et ) + (F2 obj3 Soma1D et) + (F3 obj3 EchargeD et ) (5.8)
nalidade de tal sada obter o quo distante est a protena que se deseja predizer
em relao protena determinada no PDB. Para um melhor entendimento, toma-se a
exemplo, o tness F3 obj3 composto somente pela energia eletrosttica. O mesmo ser
subtrado com a energia eletrosttica da protena determinada no PDB (EchargeD et ) e o
valor desta subtrao a sua contribuio para a sada desejada. O mesmo procedimento
ocorre com os outros termos desta sada.
J para a sada desejada da tcnica ANFIS com quatro objetivos, denotada por Dobj4 ,
a sua composio a mesma que a sada desejada com trs objetivos (Dobj3 ). A diferena
ento a quantidade de termos, pois uma trata com trs e a outra com quatro termos. A
sada desejada com quatro tness composta pelas funes objetivos do AE com quatro
objetivos apresentadas na Seo 5.1 e os valores de energia (representados na Tabela 5.1)
da protena determinada no PDB. Como ocorrido na sada anterior, houve a necessidade
de um termo onde representasse o somatrio das energias determinadas no PDB. Neste
caso, o somatrio denotado por Soma2D et sendo constitudo pelas energias: ngulo de
Torso, Urey-Bradley e Imprpria da protina determinada. Assim, apresentada a sada
desejada para a tcnica ANFIS para o caso com quatro funes objetivos, ou seja:
Dobj4 = (F1 obj4 EvdwD et )+(F2 obj4 EbondsD et )+(F3 obj4 EchargeD et )+(F4 obj4 Soma2D et)
(5.9)
A sada com quatro termos possui a mesma nalidade que a sada desejada com trs
objetivos conforme j foi elucidado.
Finalizada a execuo da tcnica ANFIS para os dois casos, torna-se ento possvel
vericar as informaes geradas, tais como o nmero de regras obtidas em cada um dos
conjuntos de teste, alm de ilustrar o ajuste das funes de pertinncia. O nmero de
regras de cada um dos conjuntos de teste ilustrado na Tabela 5.2. J o ajuste das
funes de pertinncia apresentado na Figura 5.1.
Figura 5.1: Representao dos quatro conjuntos Fuzzy proposto ajustado pelo ANFIS.
importante ressaltar dois aspectos vericados nas simulaes realizadas neste tra-
balho que so referentes a Figura 5.1, pois se torna importante um bom entendimento da
mesma para a compreenso desta dissertao, ou seja:
pois alm de se conseguir um bom mapeamento uma funo bem mais simples
quando comparada com uma funo Gaussiana, por exemplo.
2. Aplicao deste mesmo processo de ajuste das funes de pertinncia ocorreu nos
dois casos, ou seja, tanto com trs quanto com quatro termos. Uma justicativa
plausvel se deve ao fato da normalizao do universo de discurso conforme apresen-
tado na Seo 4.1, ressaltando ainda que a diferena entre os dois casos, em suma,
a decomposio do segundo termo da Dobj3 resultando no segundo termo da Dobj4 ,
ou seja, no apresenta uma mudana a ponto de justicar um ajuste diferente entre
os dois casos.
Por intermdio do toolbox Fuzzy do Matlab, torna-se possvel gerar um arquivo texto
contendo as entradas do sistema Fuzzy e seu valor defuzzicado. Com tal arquivo, torna-se
ento, tambm possvel, obter uma matriz que pode ser integrada diretamente ao restante
do processo.
Para o primeiro caso, ou seja, com trs funes objetivos (trs entradas) foram ana-
lisados dois relacionamentos de entrada com a sua respectiva sada (Dobj3 ), os quais so
representados, respectivamente, pelas Figuras 5.2 e 5.3, as quais sero discutidas a seguir.
A Figura 5.2 ilustra o relacionamento entre a primeira entrada (F1 obj3 ) com a segunda
entrada (F2 obj3 ) e sua respectiva sada. notvel a visualizao de uma superfcie no
linear, demonstrando ento o comportamento no-linear entre as entradas e sua respectiva
74
sada.
Figura 5.2: Superfcie entre os tness F1 obj3 e F3 obj3 para o caso com trs objetivos.
Figura 5.3: Superfcie entre os tness F2 obj3 e F3 obj3 para o caso com trs objetivos.
Para o segundo caso, ou seja, com quatro entradas, foram realizadas trs relaciona-
mentos os quais esto apresentados, respectivamente, nas Figuras 5.4, 5.5 e 5.6, e sero
detalhadas a seguir.
75
O primeiro relacionamento consiste nas entradas: primeira (F1 obj2 ) e segunda (F2 obj4 ).
A sada, neste caso, a sada desejada j apresentada para o caso contendo quatro ob-
jetivos que foi denotada por Dobj4 . Em tal relacionamento, tambm observvel uma
superfcie no linear.
Figura 5.4: Superfcie entre os tness F1 obj4 e F2 obj4 para o caso com quatro objetivos.
Figura 5.5: Superfcie entre os tness F2 obj4 e F3 obj4 para o caso com quatro objetivos.
76
Por m, o relacionamento entre as entradas do segundo caso composto por: terceira
(F3 obj4 ) e quarta (F4 obj4 ) entrada. A superfcie de sada uma superfcie no linear.
Figura 5.6: Superfcie entre os tness F3 obj4 e F4 obj4 para o caso com quatro objetivos.
5.4 Resultados
Foram executados com as protenas 1JXT e 1AB1 dois casos de testes: primeiro com
trs objetivos e um outro com quatro objetivos. Nestes dois casos, foram utilizados o
AEMO implementado em de Lima (2006)2 , sendo o mesmo referenciado a partir daqui
somente de AEMO, e o algoritmo proposto nesta dissertao.
Em cada execuo, todos realizados na mesma mquina, foram consideradas 100 gera-
es e 200 indivduos tanto para o AEMO quanto para o algoritmo proposto. Os resultados
representam os melhores indivduos de cada caso de execuo.
onde n o nmero total de tomos da estrutura. Portanto, quanto mais baixo for o valor
2 Verso em 22/01/2007.
3 DM E , do ingls Distance Matrix Error.
78
nado com as informaes da protena 1CRN e foi capaz de predizer a estrutura terciria
de duas outras protenas: a 1JXT e a 1AB1. Mesmo que as protenas sejam similares e
possuem estruturas bem parecidas, todas elas apresentam caractersticas nicas, as quais
foram possveis de se mapear.
Um aspecto importante se deve aos valores do DME das protenas 1JXT e 1AB1.
Observando as Tabelas 5.4 e 5.5, para o algoritmo proposto, evidencia a situao onde
para o caso de teste com a protena 1JXT foi apresentado um valor de DME maior
considerando trs objetivos, constratando com o seu caso de quatro objetivos. Entretanto,
para a protena 1AB1 se verica o inverso. Este fato, deve-se primeira fase do processo
de treinamento do algoritmo proposto, uma vez que esta etapa consiste da gerao de
padres de treinamento, havendo assim um melhor mapeamento de tais padres em cada
uma das protenas.
A Tabela 5.6 ilustra o custo computacional com trs objetivos do AEMO e do algoritmo
proposto.
Tabela 5.6: Custo computacional entre as protenas no teste com trs objetivos.
Algoritmo 1JXT 1AB1
AEMO 907.40 855.88
Proposto 778.69 758.24
Tabela 5.7: Custo computacional entre as protenas no teste com quatro objetivos.
Algoritmo 1JXT 1AB1
AEMO 806.32 934.20
Proposto 869.94 909.44
Observando as Tabelas 5.6 e 5.7, nota-se, mesmo com trs objetivos, o custo compu-
tacional do algoritmo proposto foi menor em todos os casos, exceto em um nico caso
contendo quatro objetivos. Uma justicativa plausvel para o bom desempenho do al-
goritmo proposto se deve ao fato da funo de pertinncia do sistema Fuzzy ser uma
funo Triangular, j que tal funo possui como caracterstica, a simplicidade de exe-
cuo quando comparada com o clculo da distncia de multido, conforme apresentada
na Seo 3.4.2, a qual empregada pelo AEMO para diversicar os indivduos da tal
fronteira. J uma razo relacionada nica exceo mostrada, pode ser atribudo ao fato
de que, neste caso, o algoritmo proposto conseguiu uma varredura mais detalhada no
espao de busca. Um fator que contribui para tal justicativa o fato de ser esse mesmo
caso onde conseguiu obter uma melhor predio, considerando somente, a situao com
quatro objetivos.
Finalmente, a seguir, torna-se possvel uma comparao visual das protenas j citadas
na sua forma nativa e predita em todos os casos de testes realizados.
A Figura 5.7 representa a estrutura predita pelo AEMO e pelo algoritmo proposto,
ambos referentes ao caso com trs objetivos da protena 1JXT, juntamente com a estrutura
terciria nativa da referida protena. possvel notar na Figura 5.7(a) uma melhor
predio da estrutura terciria quando a mesma comparada com a predio realizada
pelo algoritmo proposto (Figura 5.7(c)), resultado este j esperado conforme a Tabela
5.4, pois o AEMO apresentou um valor de DM E menor. possvel tambm observar
que ambas as estruturas preditas pelos algoritmos apresentam algumas partes similares
81
estrutura nativa da protena (Figura 5.7(b)), evidenciando assim, que ambos algoritmos
apresentaram resultados relevantes.
J a Figura 5.8 ilustra a estrutura predita pelas abordagens AEMO e pelo algoritmo
proposto para o mesmo caso de teste, ou seja, com trs objetivos. Mas, neste caso, a
estrutura referente protena 1AB1. Assim sendo, a Figura 5.8(a) representa a estrutura
terciria da protena 1AB1 predita pelo AEMO. A estrutura desta mesma protena predita
pelo algoritmo proposto ca evidenciado na Figura 5.8(c) e a sua estrutura nativa
apresentado na Figura 5.8(b). possvel observar que a melhor predio da estrutura
pertence quem obteve um valor de DM E menor e, conforme apresentado na Tabela 5.4,
o algoritmo proposto apresenta um valor de DM E menor. A mesma relevncia atribuda
ao resultado da predio da protena 1JXT se pode atribuir ao resultado da protena
1AB1, pois, tambm, se conseguiu partes similares da protena 1AB1 preditas por ambos
82
Por m, apresentada na Figura 5.10 a predio realizada pelo AEMO e pelo algoritmo
proposto no caso com quatro objetivos para a protena 1AB1. Observando a Figura
5.10(a) possvel visualizar a predio da estrutura realizada pelo AEMO. J a Figura
83
Captulo 6
Este trabalho investigou o uso da lgica Fuzzy ao invs da fronteira de Pareto nos
algoritmos evolutivos aplicados em problemas de otimizao multi-objetivo, sem que haja
mudanas signicativas na estrutura dos algoritmos evolutivos. Na literatura, h inves-
tigaes onde se evidencia a no utilizao da fronteira de Pareto para problemas acima
de trs objetivos. Muitos desses estudos no usufruem dos algoritmos evolutivos, devido
limitao da tal fronteira tomando como exemplo Farina e Amato (2003).
Por ser uma abordagem por homologia h, ento, a necessidade de obter informaes de
86
Os resultados foram satisfatrios mesmo para os problemas com trs objetivos, onde
se evidenciou um esforo computacional menor em todos os casos analisados. J com
quatro objetivos, o custo computacional do algoritmo proposto foi maior somente em um
dos testes (
= 1min), mas todas as estruturas preditas pelo mesmo apresentaram melhores
resultados.
A possibilidade de investigar as regras Fuzzy que tenha maior signicncia uma outra
possibilidade, pois assim se consegue mapear as informaes mais revelantes, como o j
citado em Alcal et al. (2006).
Uma outra investigao ser treinar o sistema Fuzzy com duas ou mais protenas
similares e, em seguida, analisar as informaes em comum. O objetivo , alm de se
encontrar padres similares entre as protenas, a tentativa de predizer a estrutura de
protenas que sejam similares quelas que participaram do processo de treinamento. Com
isso, espera-se alavancar um nmero maior de protenas para predizer (no necessitando
um alto grau de similaridade), alm da possibilidade de entender todo o processo de
enovelamento das protenas.
Referncias Bibliogrcas
Alcal, R., J. Alcal-Fdez, M. J. Gacto, e F. Herrera (2004). Ten years of genetic fuzzy
systems: current framework and new trends. In Fuzzy Sets and Systems Vol. 141, pp.
531.
Alcal, R., J. Alcal-Fdez, M. J. Gacto, e F. Herrera (2006). Rule base reduction and
genetic tuning of fuzzy systems based on the linguistic 3-tuples representation. In Soft
Computing - A Fusion of Foundations, Methodologies and Applications Vol. 11, pp.
401419.
Bajic, V. B., V. Brusic, J. Li, S. K. Ng, e L. Wong (2003). From informatics to bioinforma-
tics. In Proceedings of the rst Asia-Pacic bioinformatics conference on Bioinformatics
Vol. 19, pp. 312.
Barton, G., P. Cohen, e D. Bradford (1993). Conservation analysis and structure pre-
diction of the protein serine/threonine phosphatases. Eur. J. Biochem Vol. 220, pp.
225237.
Battistella, E. e A. Cechin (2004). The protein folding problem solved by a fuzzy inference
system extracted from an articial neural network. In Ibero-American Conference on
Articial Intelligence (IBERAMIA) Vol. 3315, pp. 474483.
Chou, S. M., T. S. Lee, Y. E. Shao, e I. F. Chen (2004). Mining the breast cancer pattern
using articial neural networks and multivariate adaptive regression splines. In Expert
Systems with Applications Vol. 27, pp. 133142.
Cohen, B., S. Presnell, e F. Cohen (1993). Origins of structural diversity within sequen-
tially identical hexapeptides. Protein Science Vol. 2, pp. 21342145.
Copeland, R. (1993). Methods for Protein Analysis - A pratical guide to laboratory pro-
tocols. M. Chapman e Hall.
91
Corne, D., J. Knowles, e M. Oates (2000). The pareto envelope-based selection algorithm
for multiobjective optimization. In K. Deb, X. Y. G. Rudolph, E. Lutton, J. J. Merelo,
e H. P. Schwefel (Eds.), Proceedings of the Parallel Problem Solving from Nature VI
Conference, pp. 839848. Springer. Lecture Notes in Computer Science No. 1917.
Cui, Y., R. Chen, e W. Wong (1998). Protein folding simulation with genetic algorithm
and supersecondary structure constraints. Proteins Vol. 31, pp. 247257.
Deb, K., S. Chaudhuri, e K. Miettien (2006). Towards estimating nadir objective vector
using evolutionary approaches. In GECCO '06: Proceedings of the 8th annual conference
on Genetic and evolutionary computation.
92
Doolittle, R. (1986). Of URFs and ORFs: A Primer on How to Analyze Derived Amino
Acid Sequences. University Science Books.
Horn, J., N. Nafpliotis, e D. Goldberg (1994). A Niched Pareto Genetic Algorithm for
Multiobjective Optimization. In Proceedings of the First IEEE Conference on Evoluti-
onary Computation, IEEE World Congress on Computational Intelligence, Volume Vol.
1, Piscataway, New Jersey, pp. 8287. IEEE Service Center.
Inbar, Y., H. Wolfson, e R. Nussinov (2005). Multiple docking for protein structure
prediction. The International Journal of Robotics Research Vol. 24 , pp. 131150.
94
Kleeman, M. e G. Lamont (2005). Solving the aircraft engine maintenance scheduling pro-
blem using a multi-objective evolutionary algorithm. In Evolutionary Multi-Criterion
Optimization Lecture Note in Computer Science Vol. 3410, pp. 782796. Springer-Verlag
Berlin, Heidelberg Platz.
Knowles, J. e D. Corne (1999). The Pareto Archived Evolution Strategy: A New Ba-
seline Algorithm for Multiobjective Optimisation. In 1999 Congress on Evolutionary
Computation, Washington, D.C., pp. 98105. IEEE Service Center.
Markowetz, F., L. Edler, e M. Vingron (2003). Support vector machines for protein fold
class prediction. In Biometrical Journal Vol. 45 no. 3, pp. 377389.
Morse, P. M. (1929). Diatomic molecules according to the wave mechanics. ii. vibrational
levels. Phys. Rev. Vol. 34 (no. 1), pp. 5764.
Peitsch, M. (2002). About the use of protein models. Bioinformatics Vol. 18, pp. 934938.
Petsko, G. e D. Ringe (2004). Proteins Structure and Function. New Science Press Ltd.
Ponder, J. (2001). Tinker software tools for molecular design. washington university, saint
louis.
Ripon, K., S. Sam, e K. Man (2007). A real-coding jumping gene genetic algorithm (rjgga)
for multiobjective optimization. In Information Sciences Vol. 177 no. 2, pp. 632654.
Sciences.
96
Rudolph, G. (2001). Evolutionary Search under Partially Ordered Fitness Sets. In Proce-
edings of the International NAISO Congress on Information Science Innovations (ISI
2001), pp. 818822. ICSC Academic Press: Millet/Sliedrecht.
Schaer, J. (1985). Multiple objective optimization with vector evaluated genetic algo-
rithms. In Genetic Algorithms and their Applications: Proceedings of the First Inter-
national Conference on Genetic Algorithms, pp. 93100. Lawrence Erlbaum.
Wangshu, Y., S. Chen, e Z. Chen (2006). Sdmoga: A new multi-objective genetic al-
gorithm based on objective space divided. In The 13th International Conference on
Neural Information Processing (ICONIP) Vol. 3, pp. 754762.
Wiebringhaus, T., C. Igel, e J. Gebert (2004). Protein fold class prediction using neural
networks with tailored early-stopping. In Proceedings of the 2004 IEEE International
Joint Conference on Neural Networks, pp. 16931697.
Wilson, I., D. Haft, E. Getzo, J. Tainer, R. Lerner, e S. Brenner (1985). Identical short
peptide sequences in unrelated proteins can have dierent conformations: A testing
ground for theories of immune recognition. Proc. Natl. Acad. Sci. Vol. 82, pp. 5255
5259.
Zadeh (1973). Outline of a new approach to the analysis of complex systems and decision
processes. In IEEE Transactions on Systems Vol. SMC-3, pp. 2844.
Zadeh (1992). Fuzzy logic, neural networks and soft computing. In Proceedings of the 2nd
International Conference on Fuzzy Logic and Neural Networks, pp. 1314.
Zitzler, E., M. Laumanns, e L. Thiele (2001). SPEA2: Improving the Strength Pareto Evo-
lutionary Algorithm. Technical Report no. 103, Computer Engineering and Networks
Laboratory (TIK), Swiss Federal Institute of Technology (ETH) Zurich, Gloriastrasse
35, CH-8092 Zurich, Switzerland.
Apndice A
Esta dissertao utilizou o toolbox Fuzzy Logic do Matlab. Tal toolbox consiste de
uma coleo de funes construdas sobre o ambiente do Matlab, permitindo assim uma
maneira fcil de criar e editar sistemas de inferncria Fuzzy dentro do framework do
Matlab, alm da possibilidade de programas escritos em linguagem C executar funes
construdas dentro do Matlab.
Figura A.1: Esquema dos componentes constituntes do Toolbox Fuzzy Logic do Matlab.
O primeiro componente a ser abordado o editor FIS. nalidade deste editor ilustrar
as informaes, de forma resumida, referente a um sitema de inferncia Fuzzy, por exem-
plo, um sistema Fuzzy construdo a partir da tcnica ANFIS. Ou seja, o ANFIS ajusta as
funes de pertinncia e, tambm, cria as regras de tal sistema e, ento, utilizando este
editor se consegue visualizar o sistema gerado a partir da tcnica ANFIS. Para se obter
a tela do editor FIS, basta digitar o comando fuzzy na janela de comando no Matlab.
Aps a execuo deste comando, torna-se possvel visualizar a ilustrao da Figura A.2,
a qual consiste na tela inicial deste editor.
J o editor de regras tem como nalidade proporcionar um fcil ambiente para tra-
balhar com as regras do sistema Fuzzy, permitindo construir, modicar, deletar e ignorar
regras. Assim sendo, a Figura A.4 ilustra a tela do editor contendo as regras do sistema
Fuzzy proposto com quatro entradas.
Por m, o toolbox Fuzzy Logic do Matlab possui o componente para visualizar as
superfcies. Este visualizador tem como objetivo criar uma curva tridimensional para
representar o mapeamento das entradas do sistema Fuzzy. Para os sistemas com mais de
trs entradas e uma sada, como apresentado nesta dissertao, por exemplo, o visualizador
consegue gerar uma superfcie de sada tridimensional, pois os monitores dos computadores
so incapazes de plotar uma superfcie com cinco dimenses. Portanto, o visualizador
103
Figura A.4: Editor de regras ilustrando regras do sistema proposto com quatro entradas.
permite que selecione duas das entradas e as demais sero consideradas como constante.
Para ilustrar a tela desse visualizador, esta ser apresentada juntamente com uma das
superfcies j demonstratada neste trabalho. Assim, a Figura A.6 evidencia o referido
visualizador.
Figura A.5: Visualizao das regras do sistema proposto com quatro entradas.
desejada, possvel obter um sistema de inferncia Fuzzy j ajustado com suas funes
de pertinncia e regras. Sendo assim, pode-se armar que as regras e as funes de
pertinncia foram geradas de forma automtica.
A seguir, ser detalhada tais possibilidades para se trabalhar com o ANFIS. A Seo
A.2.1 ilustra o editor GUI do ANFIS e, conseqentemente, a Seo A.2.2 abordar o
ANFIS por linha de comando.
Para iniciar o editor GUI do ANFIS basta digitar ansedit na janela de comandos
do Matlab. A Figura A.7 ilustra a tela inicial do referido editor.
Nota-se a partir da Figura A.7, a interatividade obtida pelo editor GUI. As etapas de
todo o processo da tcnica ANFIS esto agrupadas de maneira cronolgica de execuo.
Visualmente, nota-se uma separao decorrida de agrupamento de campos limitados entre
retngulos.
senciais para o decorrer da tcnica, sendo eles: funo de pertinncia e o tipo de sada.
Para a funo de pertinncia torna-se possvel selecionar qual funo utilizar, tendo como
algumas possibilidade escolher, por exemplo, se ser funo Triangular (trimf) ou Gaus-
siana (gaussmf). J o tipo de sada, uma vez que a tcnica ANFIS baseia na metodologia
Takagi-Sugeno, apresenta duas opes: a primeira denotada por constante (constant ) e
a segunda por linear. A Figura A.8 ilustra a tela onde se pode determinar esses dois
parmetros.
Observa-se na Figura A.9 a similaridade da estrutura do ANFIS com uma rede neural.
ilustrado nesta gura uma estrutura ANFIS contendo trs entradas e uma sada.
108
A tcnica ANFIS tendo sido j detalhada na Seo A.2.1, torna-se relevante nesta seo
apenas abordar os comandos, os quais sero ilustrados a seguir. importante ressaltar
que tais comandos abordados sero somente os comandos da tcnica ANFIS.