Algoritmo Híbrido Multi-Objetivo para Predição de Estrutura Terciária de Proteínas

Rodrigo Antonio Faccioli
Algoritmo Hbrido Multi-Objetivo Para

Predio de Estrutura Terciria de Protenas
Dissertao apresentada Escola de Engenharia de

So Carlos da Universidade de So Paulo, como parte
dos requisitos para obteno do ttulo de Mestre em
Engenharia Eltrica
rea de Concentrao: Sistemas Dinmicos

Orientador: Prof. Dr. Ivan Nunes da Silva
So Carlos
2007
ii
Epgrafe
Porque dele e por meio dele, e para ele, so todas as coisas.

Glria, pois, a ele eternamente. Amm.
Romanos 11, 36
iv
Dedicatria
Deus, meus pais, a minha namorada Michelle, meu av Silvio e meus outros avs:
Ana Maria, Maria e Francisco (in memria ).
vi
Agradecimentos
Gostaria de agradecer a Deus por sempre me presentear com uma famlia maravilhosa
e com pessoas amigas ao meu rendor, as quais contribuiram e muito para a elaborao
deste trabalho. Procurarei agradec-las com singelas palavras.
Agradeo toda minha famlia pelo companheirismo, pacincia e interesse em sa-

ber o andamento da minha pesquisa. minha irm, Renata, pela intensa ateno no
andamento dos meus estudos. Ressalto meus sinceros agradecimentos a duas pessoas ma-
ravilhosas, as quais sinto muito orgulho em poder dizer: meus pais, Cludio e Terezinha.
Tenho que agradec-los no s pelo apoio nanceiro e incentivos em meus estudos, mas
principalmente por toda dedicao e ateno que h mais de 25 anos vem apresentando
minha pessoa.
Michelle, uma mulher encantadora onde posso armar, sem sombra de dvida, que
sou uma pessoa felizarda em poder estar compartilhando minha vida com ela. Obrigado
por tudo, meu amor.
Ao meu orientador prof. Dr. Ivan Nunes da Silva pelos ensinamentos no s em

sistemas inteligentes ou mesmo na escrita deste trabalho, mas tambm, nas lies de
perseverana, amizade e disciplina.
Ao prof. Dr. Alexandre Cludio Botazzo Delbem, pelos ricos ensinamentos em al-
goritmos evolutivos e protenas. No podendo deixar de agradec-lo, em especial, pela
oportunidade em me permitir trabalhar em parceiria com seu laboratrio na investigao
do problema de estrutura terciria de protenas.
MSc. Telma Woerle de Lima, pela pacincia nos ensinamentos, pelo companheirismo
nas pesquisas e, acima de tudo, por sua amizade.
Todos meus amigos do ICMC, onde pude compartilhar minhas pesquisas, alm de ter
amigos pra diversas outras ocasies. Em especial, quero agradecer toda a ajuda do MSc.
Bruno Feres na elaborao deste trabalho, principalmente nos ensinamentos no Latex.
Aos meus amigos do Laips onde tive a oportunidade de vivenciar o signicado da

palavra equipe. Em especial, gostaria deixar registrado meus agradecimentos ao meu
viii
grande amigo Marcelo Suetake, o qual ajudou no s na reviso deste trabalho, nas
imagens do mesmo, mas tambm em valiosos ensinamentos e, em hiptese nenhuma posso
deixar no evidenciar o seu companheirismo.
Ao meu grande amigo Evandro Alves da Silva onde tenho o prazer de poder contar
com seu companheirismo em todas as horas, alm da sua pacincia em poder dividir o
apartamento.
Agradeo a todos meus professores da graduao, os quais pude encontrar uma re-
ferncia para alavancar conhecimentos em computao, alm de ajuda para poder estar
cursando o mestrado. Dentre eles, tenho que destacar a contribuio de dois: MSc. Mau-
rcio Escarpinati e o MSc. Paulo Eduardo Ambrsio. Alm de se tornarem meus amigos,
eles merecem um especial agradecimento por tudo que zeram, fazem e que faro, com
certeza, no intuito de colaborar com a minha vida pessoal e prossional.
Tenho tambm que agradecer a empresa Destinform, a qual trabalhei durante todo
o perodo da minha graduao e no incio da ps-graduao. Agradecer pelos incentivos
em meus estudos e por conar em meu trabalho. No posso deixar de citar meus sinceros
votos de agradecimentos a todos que trabalharam comigo, dentre eles: Fabrcio, Mrcio,
derson, Daniel, Glauce, Andra e Antonio Postigo. Em especial, ao Gustavo Postigo,
onde pude encontrar alm de um chefe, uma pessoa mpar.
No posso deixar passar, tambm, meus agradecimentos a empresa 3WT, a qual pude
encontrar pessoas que compartilham conhecimentos e amizades.
Aos funcionrios desta instituio, mas em especial a secretaria da ps-graduao da

EESC. No podendo deixar de ressaltar, meus sinceros votos aos segurana em que sempre
esto dispostos a nos dar ateno, detre eles: Roberto, Jesus, Tiago e Weber.
Enm, agradeo todos que contriburam na elaborao deste trabalho, mas por um
esquecimento no constam seus nomes. Mas mesmo assim, sua contribuio foi de igual
signicncia, sendo assim, alm dos meus agradecimentos, ca registrado minhas sinceras
desculpas.
ix
Resumo
Faccioli, R. A. Algoritmo Hbrido Multi-Objetivo Para Predio de Estrutura Terci-

ria de Protenas. 2007. Dissertao (Mestrado) - Escola de Engenharia de So Carlos,
Universidade de So Paulo, So Carlos, 2007.
Muitos problemas de otimizao multi-objetivo utilizam os algoritmos evolutivos para

encontrar as melhores solues. Muitos desses algoritmos empregam as fronteiras de Pa-
reto como estratgia para obter tais solues. Entretando, conforme relatado na literatura,
h a limitao da fronteira para problemas com at trs objetivos, podendo tornar seu
emprego insatisfatrio para os problemas com quatro ou mais objetivos. Alm disso, as
propostas apresentadas muitas vezes eliminam o emprego dos algoritmos evolutivos, os
quais utilizam tais fronteiras. Entretanto, as caractersticas dos algoritmos evolutivos os
qualicam para ser empregados em problemas de otimizao, como j vem sendo difundido
pela literatura, evitando elimin-lo por causa da limitao das fronteiras de Pareto.
Assim sendo, neste trabalho se buscou eliminar as fronteiras de Pareto e para isso
utilizou a lgica Fuzzy, mantendo-se assim o emprego dos algoritmos evolutivos. O pro-
blema escolhido para investigar essa substituio foi o problema de predio de estrutura
terciria de protenas, pois alm de se encontrar em aberto de suma relevncia para a
rea de bioinformtica.
PalavrasChave: Bioinformtica, Algoritmos Evolutivos, Lgica Fuzzy, folding, Multi-

objetivo, fronteiras de Pareto.
x
xi
Abstract
Faccioli, R. A. Multi-objective Approach To Protein Tertiary Structure Prediction. 2007.

Thesis (Master) - Sao Carlos Engineering School, Univerty of Sao Paulo, Sao Carlos, 2007.
Several multi-objective optimization problems utilize evolutionary algorithms to nd

the best solution. Some of these algoritms make use of the Pareto front as a strategy to
nd these solutions. However, according to the literature, the Pareto front limitation for
problems with up to three objectives can make its employment unsatisfactory in problems
with four or more objectives. Moreover, many authors, in most cases, propose to remove
the evolutionay algorithms because of Pareto front limitation. Nevertheless, characteris-
tics of evolutionay algorithms qualify them to be employed in optmization problems, as
it has being spread out by literature, preventing to eliminate it because the Pareto front
elimination.
Thus being, this work investigated to remove the Pareto front and for this utilized
the Fuzzy logic, remaining itself thus the employ of evolutionary algorithms. The choice
problem to investigate this remove was the protein tertiary structure prediction, because
it is a open problem and extremely relevance to bioinformatic area.
Keywords: Bioinformatic, Evolutionary Algorithms, Fuzzy Logic, folding, Multiobjetive,

Pareto front.
xii
xiii
Lista de Figuras
2.1 Estrutura bsica de um aminocido. . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Classicao dos vinte aminocidos padres encontrados em protenas. . . 12
2.3 Processo de formao de uma ligao peptdica. . . . . . . . . . . . . . . . 13
2.4 Representao dos tomos no mesmo plano (de Lima, 2006). . . . . . . . . 14
2.5 ngulos e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Mapa de Ramachandran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Estrutura Hlice (Branden e Tooze, 1991). . . . . . . . . . . . . . . . . . 17
2.8 Estrutura Folhas (Branden e Tooze, 1991). . . . . . . . . . . . . . . . . . 17
2.9 Estrutura Voltas (Lodish et al., 2004). . . . . . . . . . . . . . . . . . . . . 18
2.10 Estrutura terciria de uma protena (PDB 1CCN). . . . . . . . . . . . . . 18
2.11 Grco da funo de energia potencial de comprimento de ligao. . . . . . 27
2.12 Grco da funo de energia potencial de torso. . . . . . . . . . . . . . . 29
2.13 Grco da funo de energia eletrosttica. . . . . . . . . . . . . . . . . . . 31
2.14 Grco da funo de van der Waals na forma padro. . . . . . . . . . . . . 32
3.1 Exemplo do multi-objetivo (Ticona, 2003). . . . . . . . . . . . . . . . . . . 37
3.2 Esquema do Modelo NSGA-II (Deb, 2001). . . . . . . . . . . . . . . . . . . 48
3.3 Clculo da distncia de multido no NSGA-II (Deb, 2001). . . . . . . . . . 49
3.4 Exemplo do sistema Fuzzy utilizado em Battistella e Cechin (2004) . . . . 51

xiv
4.1 Uma representao dos conjuntos fuzzy. . . . . . . . . . . . . . . . . . . . . 63
4.2 Funes fuzzy ativadas pelos tness. . . . . . . . . . . . . . . . . . . . . . 63
4.3 Processo da Inferncia fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 Regio fuzzy de sada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1 Representao dos quatro conjuntos Fuzzy proposto ajustado pelo ANFIS. 72
5.2 Superfcie entre os tness F1 obj3 e F3 obj3 para o caso com trs objetivos. . 74
5.3 Superfcie entre os tness F2 obj3 e F3 obj3 para o caso com trs objetivos. . 74
5.4 Superfcie entre os tness F1 obj4 e F2 obj4 para o caso com quatro objetivos. 75
5.7 Estruturas tercirias da protena 1JXT com trs objetivos. . . . . . . . . . 81
5.8 Estruturas tercirias da protena 1AB1 com trs objetivos. . . . . . . . . . 82
5.9 Estruturas tercirias da protena 1JXT com quatro objetivos. . . . . . . . 83
5.10 Estruturas tercirias da protena 1AB1 com quatro objetivos. . . . . . . . . 84
A.1 Esquema dos componentes constituntes do Toolbox Fuzzy Logic do Matlab. 100
A.2 Tela inicial do editor FIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.3 Tela inicial do editor das funes de pertinncia. . . . . . . . . . . . . . . . 102
A.4 Editor de regras ilustrando regras do sistema proposto com quatro entradas.103
A.5 Visualizao das regras do sistema proposto com quatro entradas. . . . . . 104
A.6 Visualizador de superfcies. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.7 Tela inicial do editor GUI ANFIS. . . . . . . . . . . . . . . . . . . . . . . . 106
A.8 Editor para determinar parmetros essenciais. . . . . . . . . . . . . . . . . 107
A.9 Estrutura utilizada pelo ANFIS. . . . . . . . . . . . . . . . . . . . . . . . . 108

xv
Lista de Tabelas
2.1 Relao dos vinte aminocidos padres e respectivos mnemnicos. . . . . . 11
3.1 Alguns exemplos de modelos de AEMO. . . . . . . . . . . . . . . . . . . . 47
4.1 Valores hipotticos de Autoridade de Aptido. . . . . . . . . . . . . . . . . 65
5.1 Funes de Energia e seu smbolo para representar na Funo de Avaliao. 68
5.2 Quantidade de Regras Fuzzy para cada treinamento. . . . . . . . . . . . . 72
5.3 Estrutura primria das protenas preditas e a utilizada no treinamento. . . 76
5.4 DM E entre as protenas no teste com trs objetivos. . . . . . . . . . . . . 78
5.5 DM E entre as protenas no teste com quatro objetivos. . . . . . . . . . . . 78
5.6 Custo computacional entre as protenas no teste com trs objetivos. . . . . 79
5.7 Custo computacional entre as protenas no teste com quatro objetivos. . . 80

xvi
xvii
Lista de Quadros
3.1 Pseudo-cdigo de um AG tpico. . . . . . . . . . . . . . . . . . . . . . . . . 40

3.2 Clculo da distncia de multido no NSGA-II. . . . . . . . . . . . . . . . . 49
4.1 Pseudo-cdigo do algoritmo proposto. . . . . . . . . . . . . . . . . . . . . . 60
4.2 Exemplo das regras fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
xviii
xix
Lista de Abreviaturas e Siglas
AE Algoritmo Evolutivo
AEMO Algoritmos Evolutivo Multi-objetivo
AG Algoritmo Gentico
CE Computao Evolutiva
DEP Determinao da Estrutura da Protena
GFA General Fuzzy Automata
HMM Hidden Markov Model
PDB Protein Data Bank
PSP Predio de Estrutura de Protena
POMO Problemas de Otimizao Multi-Objetivo
TS Sistema de inferncia Takagi-Sugeno

xx
xxi
Sumrio
Epgrafe iii
Dedicatria v
Agradecimentos vii
Resumo ix
Abstract xi
Lista de Figuras xiii
Lista de Tabelas xv
Lista de Quadros xvii
Lista de Abreviaturas e Siglas xix
1 Introduo 1
1.1 Motivao e Relevncia do Trabalho . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos e Contribuies da Pesquisa . . . . . . . . . . . . . . . . . . . . 6
1.3 Organizao da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Aspectos Relacionados a Predio de Estruturas de Protenas 9

2.1 Aminocidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Ligaes Peptdicas e os Polipeptdeos . . . . . . . . . . . . . . . . . . . . 12
2.3 Estrutura Primria de Protena . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Estrutura Secundria de Protena . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Estrutura Terciria de Protena . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Determinao Experimental da Estrutura Terciria da Protenas . . . . . . 19
xxii
2.7 Predio de Estrutura Terciria de Protena . . . . . . . . . . . . . . . . . 20

2.7.1 Modelagem por Homologia . . . . . . . . . . . . . . . . . . . . . . . 21
2.7.2 Modelagem por Threading . . . . . . . . . . . . . . . . . . . . . . 23
2.7.3 Modelagem Ab initio . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.8 Funes de Energia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8.1 Energia de Comprimento de Ligao . . . . . . . . . . . . . . . . . 26
2.8.2 Energia de ngulo de Torso . . . . . . . . . . . . . . . . . . . . . 28
2.8.3 Energia Urey-Bradley . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8.4 Energia Imprpria . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.5 Energia Eletrosttica ou de Carga . . . . . . . . . . . . . . . . . . . 30
2.8.6 Energia de Van der Waals . . . . . . . . . . . . . . . . . . . . . . . 31
2.9 Consideraes Parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Abordagem Evolutiva Multi-objetiva Fuzzy 35

3.1 Otimizao Multi-Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.1 Solues de Pareto timas . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.2 Metas em Otimizao Multi-Objetivo . . . . . . . . . . . . . . . . . 38
3.2 Teoria da Evoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Algoritmos Genticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Codicao dos Indivduos . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 Denio da Populao Inicial . . . . . . . . . . . . . . . . . . . . . 42
3.3.3 Operadores Genticos . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.4 Seleo dos Indivduos . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Algoritmo Evolutivo Multi-objetivo . . . . . . . . . . . . . . . . . . . . . . 45
3.4.1 Algoritmo NSGA-II . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2 Distncia de Multido . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5 Lgica Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.1 Universo de Discurso . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.2 Funes de Pertinncia . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5.3 Operaes Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.4 Inferncia Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5.5 Processo de Defuzzicao . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.6 Sistema de Inferncia de Takagi-Sugeno . . . . . . . . . . . . . . . . 55
3.6 Mtodo Evolutivo Multi-objetivo Fuzzy . . . . . . . . . . . . . . . . . . . . 55
xxiii
4 Metodologia Proposta 59
4.1 Sistema Fuzzy Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Resultados da Aplicao do Algoritmo Proposto 67

5.1 Funo de Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 Processo de Treinamento do Algoritmo Proposto . . . . . . . . . . . . . . . 70
5.2.1 Primeira Etapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2 Segunda Etapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Protenas Alvo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6 Concluses e Trabalhos Futuros 85
Referncias Bibliogrcas 89
A Toolbox Fuzzy Logic 99

A.1 Toolbox Fuzzy Logic do Matlab . . . . . . . . . . . . . . . . . . . . . . . . 100
A.2 Tcnica ANFIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.2.1 Editor GUI ANFIS . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.2 ANFIS por Linha de Comando . . . . . . . . . . . . . . . . . . . . 108
xxiv
1
Captulo 1
Introduo
A era ps-genmica tem sido caracterizada por dois cenrios principais. Primeiro,
disponibilizao de uma grande quantidade de informaes biolgicas que necessitam de
ferramentas e mtodos ecientes para modelar os processos visando posteriormente a
anlise de seus comportamentos. Segundo, novos modelos e paradigmas computacionais
tm sido desenvolvidos muitos deles baseados em sistemas bioinspirados, esto tambm
disponveis para serem aplicados em problemas complexos e de difcil modelagem perante
o contexto da computao. Como exemplo desta complexidade, informaes sobre dados
biolgicos variam de strings simples representados por grcos em 1D (seqncia de dados)
a grcos 3D, que modelam a estrutura terciria de protenas (Ezziane, 2006).
Conforme relatos apresentados por Cohen (1994), a utilizao de ferramentas ecien-

tes, as quais auxiliam na interpretao desta vasta quantidade de informaes oriundas
da pesquisa genmica, tm sido cada vez mais essenciais para a comunidade cientca que
trabalha no assunto. Alm disso, relata-se tambm que um dos mais recentes objetivos
da bioinformtica desenvolver modelos in silicio que complementar os experimentos
biolgicos reais.
Bioinformtica e Biologia Computacional esto interessadas no uso de computadores

visando o entendimento dos fenmenos biolgicos e aquisio e explorao dos seus dados
biolgicos. Os mtodos computacionais de Bioinformtica e Biologia Computacional esto
sendo cada vez mais usados para aumentar ou alavancar os laboratrios tradicionais e
observaes baseadas em biologia. Com tais mtodos possvel transformar os dados
2
brutos em dados teis, que comearam com o sequenciamento de DNA e que atualmente
aplicado em diversas outras reas, tais como Predio de Estruturas Terciria de Protenas
(Ezziane, 2006).
Muitos dos desaos da bioinformtica podem ser formulados como problemas de otimi-
zao, os quais vm sendo tratados como um problema de otimizao mono-objetivo apre-
sentando j resultados satisfatrios. Contudo, para alguns deles no possvel investig-
los usando tratamento por otimizao mono-objetivo. Sendo assim, os mesmos devem ser
mapeados como problemas de otimizao multi-objetivos no qual se enquadra o problema
de Predio de Estruturas Terciria de Protenas (Handl et al., 2006).
Mais especicamente, as pesquisas na rea de bioinformtica esto pautadas no uso de

computadores visando auxiliar nos entendimentos dos fenmenos genmicos, bem como
na explorao e identicao de padres e caractersticas intrnsecas que permeiam a es-
sncia dos dados biolgicos (Guseld, 2004). Paralelamente, os mtodos advindos dos
sistemas inteligentes, notadamente aqueles baseados em redes neurais articiais, siste-
mas de inferncia fuzzy e algoritmos evolutivos, esto sendo cada vez mais utilizados na
bioinformtica.
As caractersticas mais atrativas da utilizao de sistemas inteligentes em bioinform-

tica consistem em suas elevadas habilidades em mapear sistemas no-lineares e s suas
facilidades de serem integrados com outras ferramentas numricas e computacionais j
existentes. A rea de sistemas inteligentes constituda por uma combinao de tcnicas
de modelagem e computao que podem ser tambm denominadas como tcnicas de "Soft
Computing" (Zadeh, 1992), cujo objetivo de destaque desse conjunto de mtodos est em
alcanar tratabilidade, robustez, baixo custo e altas taxas de ecincia.
1.1 Motivao e Relevncia do Trabalho
O volumoso conhecimento sobre genes disponvel na base de dados do National Center

for Biotechnology Information (NCBI) de aproximadamente 20 milhes de pares, sendo
que o conhecimento da maior protena consiste de 34 mil aminocidos. Outra base de
dados, denominada Protein Data Bank (PDB), tem catalogada cerca de 45 mil protenas
3
especicadas pela sua estrutura terciria (Ezziane, 2006).
Bajic et al. (2003) descreveu as vantagens na integrao dos dados e nas tecnologias de
data mining que so relevantes para a biologia molecular e cincias biomdicas. Portais
Web, como Entez e ExPASy, representam o primeiro nvel de integrao de dados de
bioinformtica, metodologias e ferramentas (Bergeron, 2003).
Tan e Gilbert (2003) prepararam uma comparao emprica de vrios mtodos (SVM,
Redes Neurais Articiais, rvores de Deciso, entre outros), armando que quando tra-
balhando com combinao de mtodos, os resultados obtidos so melhores que aqueles
obtidos com a aplicao de somente um mtodo.
Cohen (2004) evidencia a importncia do Cientista da Computao para auxiliar os

bilogos a interpretar o volumoso dados oriundos da pesquisa genmica e protemica,
alm de desenvolver in silicio que sero integrados (utilizados) em experimentos in vivo
e in vidro. Sendo assim, por intermdio de data mining tambm possvel identicar
determinados padres em uma grande quantidade de dados atravs de algoritmos de
aprendizagem. Como exemplo, redes neurais articiais foram usadas como ferramentas
de data mining para predizer a ocorrncia de cncer de mama (Pendharkar et al., 1999;
Chou et al., 2004). Em Cutello et al. (2005) e de Lima (2006) se utilizaram algoritmos
evolutivos multi-objetivos para predizer a estrutura terciria de protenas. A proposta
de Bryson et al. (2000) foi desenvolver o GeneWeaver, um sistema multi-agente que est
sendo aplicado para muitos problemas de anlises de genes e predio de estruturas de
protenas. O trabalho de Battistella e Cechin (2004) se utilizou uma rede neural articial
e um sistema de inferncia fuzzy para a identicao de estruturas de protenas.
Assim, as informaes dispostas nesses bancos de dados so repletas de relaes po-

tenciais que requerem um grande esforo computacional para trat-las. Sendo assim,
Tsunoda (2004) investigou a utilizao de abordagens evolucionrias (Algoritmos Evolu-
tivos e Programao Evolutiva) e alguns conceitos biolgicos com o propsito de descobrir
padres e classicao de protenas tendo o PDB sua principal base de dados. Alm disso,
muitos dos mtodos tradicionais foram desenvolvidos para dados numricos homlogos.
Entretanto, bancos de dados de bioinformtica armazenam cada vez mais seqncia de
textos, estruturas de protenas e outras sries de dados. Por esta razo, a necessidade
4
de tcnicas de data mining mais sosticadas e mais inteligentes fundamental para o

desenvolvimento de sistemas ecientes para bioinformtica (Ezziane, 2006).
De fato, o campo de biologia molecular feito sob medida para os mtodos baseados em
sistemas inteligentes, visto que tais mtodos tm uma tima performance onde h muitos
dados quantitativos, mas pouca informao qualitativa disponvel (Ezziane, 2006). Desde
a introduo de tcnicas de sistemas inteligentes nesta rea, muitos algoritmos tm sido
propostos e aplicados para o estudo de diferentes grupos de dados.
Assim sendo, h a necessidade constante de pesquisar novas abordagens de estimao

e otimizao, que possam ser efetivamente aplicadas em problemas de identicao de es-
truturas de protenas. Torna-se, ento, extremanente revelante investigar tais abordagens
em problemas de otimizao multi-objetivo, pois segundo Handl et al. (2006):
1. Muitos dos critrios e funo de validao presentes no cenrio do mundo real so

conitantes e suas relaes no so conhecidas a priori.
2. Desenvolvimento no campo da computao evolutiva torna-se possvel tratar proble-

mas de otimizao multi-objetivo complexos (grande nmeros de variveis, sistemas
no-lineares), alm de no ser restrito certos tipos de problemas de otimizao.
Dentro desse contexto, uma das tnicas principais das pesquisas da rea consiste em
investigar a aplicao de diversas abordagens, advindas da rea de sistemas inteligentes,
nos processos envolvidos com a determinao da estruturas de protenas.
Mais especicamente, a utilizao de sistemas inteligentes, notadamente aqueles ba-

seados em redes neurais articiais (Haykin, 1999), em sistemas e controladores fuzzy
(Pedrycz e Gomide, 1998), e em algoritmos evolutivos (Fogel e Corne, 2003), j tm sido
aplicados com sucesso na soluo de diversos problemas envolvidos com estimao de es-
truturas de protenas. As caractersticas mais atrativas desses sistemas consistem em sua
elevada habilidade em mapear sistemas no-lineares e sua facilidade de ser integrado
com outras ferramentas numricas e computacionais j existentes.
Nessa combinao, as redes neurais articiais se preocupam principalmente com o ma-

peamento de processos, o qual feito atravs da utilizao de elementos processadores
5
que so especialistas em aprender o comportamento existente entre as variveis de en-

tradas e sadas dos respectivos processos. Alm disso, uma das principais vantagens em
se utilizar as abordagens baseadas nas redes neurais articiais a no necessidade de
conhecimento sobre eventuais modelos matemticos que descrevem o comportamento dos
processos a serem mapeados, pois tais modelos podem ainda ser desconhecidos, ou mesmo
ainda, estarem mapeando os processos de forma inapropriada ou particularizada. Esses
mtodos neurais, tipicamente em ambientes com disponibilizao de informaes quanti-
tativas, so capazes de descobrir regularidades (padres) oriundos de grandes bancos de
dados, podendo ser identicados atravs de aprendizado supervisionado (classicao de
padres), ou ainda, no-supervisionado como no caso de clusterizao. Como exemplo,
em Wiebringhaus et al. (2004), uma aplicao de redes neurais feedforward para classi-
car as classes referentes s dobras (fold ) de protenas proposta, tendo como entrada a
seqncia de aminocidos. A concluso apresentada foi que a rede forneceu um melhor
resultado quando comparado com outros mtodos de aprendizado de mquinas, como
aquele desenvolvido em Markowetz et al. (2003).
Paralelamente, as tcnicas associadas aos sistemas e estimadores fuzzy objetivam o

mapeamento de processos, cujos valores das variveis de entrada envolvidas no mesmo
possuem diferentes graus de impreciso e incerteza. Assim sendo, essas tcnicas forne-
cem uma estrutura poderosa para manipular informaes aproximadas, em que o processo
pode ser controlado/mapeado a partir de um conjunto de regras fuzzy do tipo "Se-Ento",
as quais so capazes de tratar (coordenar) conhecimentos incompletos, incertos ou mesmo
conitantes. A ocorrncia de processos, em situaes envoltas de impreciso e incerteza,
tambm bastante observada em diversos problemas relacionados com a determinao
de estruturas de protenas. A aplicao de tcnicas convencionais em tais processos pode
trazer resultados insatisfatrios, pois as mesmas podem no estar aptas para o tratamento
de informaes incertas. Como exemplo, em Doostfatemeh e Kremer (2005), proposto
um General Fuzzy Automata (GFA) que considera as correlaes posicionais dos amino-
cidos em uma famlia de protena como critrios bsicos para a predio e a classicao
de seqncias desconhecidas. O GFA apresentou melhores resultados quando comparados
com os algoritmos HMM (Hidden Markov Model 1 ).
1 um modelo estatstico onde o sistema inicialmente modelado assumido ser um processo de Markov
6
Por sua vez, os Algoritmos Evolutivos (AEs) tm j sido tambm utilizados de forma
extensiva como uma ferramenta de otimizao na soluo de diversos problemas envol-
vendo determinao de estruturas de protenas. Mais especicamente, os algoritmos evo-
lutivos so mtodos de otimizao adaptativos que utilizam operadores, os quais so
inspirados em mtodos seletivos naturais, que so especialistas na procura de solues
timas. Prova-se que os mtodos baseados nos algoritmos evolutivos so teoricamente
e empiricamente robustos em espaos complexos. Assim, os algoritmos evolutivos (na
prtica) podem ser denidos como um mtodo de busca de uma soluo tima a partir
de uma populao de solues candidatas. Conseqentemente, as abordagens inspiradas
nos algoritmos evolutivos podem ser aplicadas em diversos problemas envolvidos com a
determinao de estruturas de protenas, nas quais requerem a procura de uma soluo
levando-se em considerao os critrios timos associados com os potenciais de energia.
Em resumo, as trs principais ferramentas que constituem os sistemas inteligentes

permitem o desenvolvimento de metodologias ecientes capazes de modelar diversos tipos
de problemas envolvidos com a estimao de estruturas de protenas. Assim, conforme
j testemunhado pelas abordagens citadas acima, a aplicao de forma integrada dessas
ferramentas pode produzir resultados promissores para a rea de identicao de estru-
turas de protenas, os quais podero contribuir de forma efetiva para a gerao de novos
conhecimentos que implicaro em ganhos substantivos de ecincia e produtividade.
1.2 Objetivos e Contribuies da Pesquisa
Em otimizao multi-objetivo, normalmente, no h um nico ponto timo, mas sim,

solues no dominadas (fronteira de Pareto). Os Algoritmos Evolutivos Multi-objetivo
(AEMOs) tm se mostrado como uma tcnica poderosa para problemas de otimizao
multi-objetivo. Alguns AEMOs utilizam a dominncia de Pareto, mas quando o problema
consiste de muitos objetivos (acima de trs), segundo Farina e Amato (2003) h duas
razes que o torna insatisfatrio, ou sejam:
sem se conhecer os parmetros, sendo que o desao determinar os parmetros desconhecidos baseando-se
nos dados observados.
7
1. A visualizao da fronteira de Pareto tem que ser realizada de forma cuidadosa.
2. O grupo de soluo classicada como Pareto timo pode ser uma parte pequena do
espao de busca como um todo. Consequentemente, tem-se pouca contribuo no
esforo para encontrar a melhor soluo.
Em relao aos problemas do mundo real, h um nmero considervel de problemas

de otimizao onde h necessidade de considerar mais que trs objetivos e assim, na lite-
ratura, h trabalhos tais como de Moura (2002) e Farina e Amato (2003) que utilizaram
a Lgica Fuzzy com a nalidade de obter um melhor resultado. Nesses trabalhos, com a
adio da Lgica Fuzzy, a abordagem atribuda ao sistema necessita de uma modicao
considervel nos AEs, caso j esteja pronto, ou at mesmo sem a utilizao do mesmo. Em
Deb et al. (2006), autor do NSGA-II2 , arma que tal algoritmo pode possuir diculdade
em trabalhar em problemas com mais de trs objetivos.
Sendo assim, este trabalho de mestrado tem como objetivo propor um algoritmo ba-
seado na Lgica Fuzzy como alternativa fronteira de Pareto, evitando para tanto que
modicaes signicativas sejam realizadas nos AEs que utilizam a tal fronteira. Como
resultado, disponibiliza-se- um algoritmo hbrido multi-objetivo para aplicar neste pro-
blema complexo de otimizao, que intitulado na literatura como predio de estruturas
tercirias de protenas.
1.3 Organizao da Dissertao
O Captulo 2 tratar do estudo terico do problema de predio de estruturas tercirias

de protenas. Contemplar-se- desde a denio de protenas, aminocidos e ligaes
peptdicas at a determinao da estrutura de protenas a partir de sua seqncia de
aminocido.
O Captulo 3 abordar os aspectos tericos sobre o problema de otimizao muti-

objetivo, a computao evolutiva e a lgica fuzzy. Assim, ser ento possvel evidenciar a
abordagem Evolutiva Multi-objetiva Fuzzy.
2 Ver seo 3.4.1.

8
O Captulo 4 referente metodologia proposta, alm de ser possvel vericar o cenrio

de aplicao do algoritmo apresentado.
O Captulo 5 evidenciar os resultados da aplicao do algoritmo proposto no problema

de predio da estrutura terciria da protena.
O Captulo 6 descrever as concluses deste trabalho de mestrado.

9
Captulo 2
Aspectos Relacionados Predio de

Estruturas de Protenas em
Bioinformtica
Protenas so biopolmeros que possuem como alfabeto um conjunto de 20 amino-

cidos. Uma importante propriedade das protenas a classicao de suas estruturas
hierarquicamente: estrutura primria, estrutura secundria e estrutura terciria (tridi-
mensional).
Uma das relevncias em investigar as protenas devida exercerem diversas funes bi-
oqumicas, sendo as principais atuaes: ligao, catlise e atuao como chave molecular
e servindo como componente estrutural de clulas e organismos. Protenas podem ligar-se
a outras macromolculas, tais como DNA ou outras protenas. Esta funo explica a ha-
bilidade das protenas em apresentar superfcies estruturalmente e quimicamente diversas
que podem interagir com outras molculas com alta especicidade (Petsko e Ringe, 2004).
A responsvel por determinar a funo da protena no organismo a sua estrutura

terciria.
Neste captulo, a Seo 2.1 tratar sobre os amincidos e propriedades das ligaes
peptdicas. A hierarquia das protenas ser discutida nas Sees 2.3, 2.4 e 2.5. A Seo 2.6
abordar sobre a determinao da estrutura terciria de protenas. A Seo 2.7 descrever
10
alguns aspectos relacionados predio de estrutura terciria de protenas. A seo de

funes de energia utilizadas encontra-se em 2.8.
2.1 Aminocidos
Aminocidos so compostos orgnicos que possuem uma estrutura bsica comum que
consiste de um carbono central denominado carbono , o qual possui quatro ligantes
diferentes, um hidrognio (H), um grupo carboxila (COOH), um grupo amina (NH2 ) e
um radical R tambm chamado cadeia lateral do aminocido (que pode consistir de um
nico tomo de hidrognio at complexos anis aromticos) (Copeland, 1993). A Figura
2.1 representa a estrutura bsica de um aminocido.
Grupo
Carboxila
Grupo COOH
Amino
H2 N C H
Carbono
R
Cadeia
Lateral
Figura 2.1: Estrutura bsica de um aminocido.
As protenas so formadas a partir de um conjunto de vinte aminocidos que se dife-

renciam pelas suas cadeias laterais. Quando os aminocidos esto presentes em protenas
so denominados de resduos, pois no processo de formao da protena ocorre a perda de
tomos (geralmente uma molcula de gua - H2 O) que compunham a estrutura completa
do aminocido.
Um cdigo de trs ou uma letra utilizado como mnemnico1 para representar os

aminocidos. Os vinte aminocidos esto apresentados na Tabela 2.1, com seus respectivos
cdigos de trs e uma letra, bem como seu peso molecular. A Figura 2.2 apresenta a
estrutura qumica dos vinte aminocidos presentes nas protenas.
Dependendo da natureza qumica da cadeia lateral, os aminocidos podem ser dividi-
1 1. Que se refere memria. 2. Que ajuda a memria. 3. Que facilmente se grava na memria.
11
Tabela 2.1: Relao dos vinte aminocidos padres e respectivos mnemnicos.

Aminocido Cd. 3 letras Cd. 1 letra Origem do Peso Molecular
Cod. 1 Letra MW2
Alanina Ala A Alanine 71
Cistena Cys C C ysteine 103
cido Asprtico Asp D asparD ic acid 114
Fenilalanina Phe F F enylalanine 147
cido Glutmico Glu E gluE tamic acid 128
Glicina Gly G G lycine 57
Histidina His H H istidine 137
Isoleucina Ile I I soleucine 113
Lisina Lys K letra antes do L 129
Leucina Leu L Leucine 113
Metionina Met M M ethionine 131
Asparagina Asn N asparagiN e 114
Prolina Pro P P roline 97
Glutamina Gln Q Q -tamine 128
Arginina Arg R aR ginine 157
Serina Ser S S erine 87
Treonina Thr T T heorine 101
Valina Val V V aline 99
Triptofano Trp W tW o rings 186
Tirosina Tyr Y tY rosine 163
dos em trs diferentes classes. A primeira classe compreende os aminocidos com cadeia
lateral estritamente hidrofbica, isto , o composto da cadeia lateral no se dissolve em
contato com a gua (Alanina, Valina, Leucina, Isoleucina, Fenilalanina e Prolina). Ami-
nocidos que possuem cadeia lateral estritamente hidroflica, isto , o composto da cadeia
lateral se dissolve em contato com a gua, compem a segunda classe (cido Aspr-
tico, cido Glutmico, Serina, Treonina, Cistena, Asparagina, Glutamina, Histidina e
Argenina). A terceira classe composta pelos aminocidos com caractersticas polares
e apolares que dissolvem no contato com a gua, sendo os mesmos tambm chamados
anpticos (Lisina, Tirosina, Metionina, e Triptofano) (Petsko e Ringe, 2004).
12
Figura 2.2: Classicao dos vinte aminocidos padres encontrados em protenas.
2.2 Ligaes Peptdicas e os Polipeptdeos
Os aminocidos formam polmeros3 (cadeias polipeptdicas) por meio de ligaes cova-

lentes denominadas ligaes peptdicas, sendo que este processo de polimerizao ocorre
no ribossomo da clula (Schulz e Schirmer, 1979). Essas ligaes ocorrem entre o grupo
carboxila de um aminocido e o grupo amina do outro (Copeland, 1993). Durante o
processo de ligao ocorre a perda de uma molcula de gua, a Figura 2.3 representa o
resultado de uma ligao peptdica.
3 Macromolculas
constitdas pela repetio de pequenas molculas idnticas ou praticamente idnticas,
os monmeros, ligadas covalentemente (Lodish et al., 2004).
13
Figura 2.3: Processo de formao de uma ligao peptdica.
Quando vrios aminocidos esto conectados, o polmero resultante denominado

polipeptdeo. A diferena entre protenas e polipeptdeos basicamente semntica, por
denio todas as protenas so polipeptdeos, porm costuma-se chamar de polipeptdeo
apenas pequenas sequncias de aminocidos.
As ligaes Peptdicas possuem algumas propriedades. A primeira, o comprimento

da ligao peptdica no pode ser medido como uma tpica dupla ligaco carboxlica
(C=O) e uma ligao simples carbono-nitrognio. Pelo contrrio, ambas as distncias
das ligaes carboxlica e carbono-nitrognio esto nos valores intermedirios entre as
distncias conhecidas para compostos deste tipo j relatados. A explicao para esses
valores resulta da nuvem de eltrons observada na molcula triatmica O-C-N, na qual a
dupla ligao ca alternando desta forma O=C-N e O-C=N (Copeland, 1993). Observa-se
que estas ligaes ocorrem em uma estrutura planar, assim, os seguintes seis tomos fazem
parte de um mesmo plano (Figura 2.4), Ci , Ci , Oi , Ni+1 , Hi+1 , Ci+1 , ou seja, carbonos
de aminocidos adjacentes esto no mesmo plano (Schulz e Schirmer, 1979).
Outra propriedade observada que, embora a rotao sobre a ligao C-N seja res-
14
H O H
R H R O
H
C C C
N N C
C C N C
C N C
H
H
R H
O O H
R
Figura 2.4: Representao dos tomos no mesmo plano (de Lima, 2006).
trita4 , rotaes sobre o C -N e C -C podem ocorrer livremente podendo ser descritas

por dois ngulos e , associados respectivamente a cada uma das ligaes (Figura 2.5)
(Ramachandran e Sasiskharan, 1968).
Figura 2.5: ngulos e .
Atravs de experimentos laboratoriais, Ramachandran e seus colaboradores, observa-

ram que os pares e concentram-se em duas regies do mapa (Figura 2.6 ) para todos os
aminocidos exceto a glicina que, por apresentar uma cadeia lateral muito simples, possui
menos restries espaciais conformacionais. Pode-se observar tambm que cada um dos
dois quadrantes de concentrao pode ser associado a um tipo de estrutura secundria,
a qual ser discutida na Seo 2.4 (Copeland, 1993). Os ngulos e so chamados de
ngulos diedrais e so responsveis por denir a forma da cadeia principal do polipept-
deo, o ngulo pode assumir os valores de 180o graus ou 0o graus. Os valores assumidos
pelo ngulos diedrais respeitam a propriedade de que os carbonos de dois aminocidos
adjacentes devem estar no mesmo plano.
4 onde C no o carbono .
15
Figura 2.6: Mapa de Ramachandran.
2.3 Estrutura Primria de Protena
A sequncia dos aminocidos que compem a protena representa a estrutura primria

da mesma. Com esta informao, pode-se apenas armar o nmero de resduos e como
esto ligados (Ligao Peptdica). Uma outra caracterstica da estrutura primria poder
identicar as protenas similares (repetio de sequncias) e agrup-las em famlias.
Segundo Lodish et al. (2004), muitos termos so usados para designar as cadeias for-
madas pela polimerizao dos aminocidos. Uma cadeia curta de aminocidos, unidos por
ligao peptdica em uma sequncia, chamada de peptdeo; j as cadeias mais longas
so denominadas polipeptdeos. Os peptdeos normalmente contm menos de 30 resduos
de aminocidos enquanto os polipeptdeos podem conter 4 mil resduos.
A string TTCCPSIVARSNFNVCRLPGTPEALCATYTGCIIIPGATCPGDYAN foi

obtida no Protein Data Bank (PDB),5 sendo esta a estrutura primria da protena 1CCN.
Tendo tal informao e observando a Tabela 2.1, pode-se concluir que a protena em ques-
to formada pelos aminocidos: Treonina, Cistena, Prolina, Serina, Isoleucina, Valina,
5O PDB uma das principais bases de dados de protenas com estrutura terciria determinada por
meio dos mtodos experimentais.
16
Alanina, Asparagina, Arginina, Fenilalanina, Leucina, Glicina, cido Glutmico e Tiro-

sina.
2.4 Estrutura Secundria de Protena
Embora as protenas sejam polmeros lineares, suas estruturas no so cordes ale-

atrios (Lodish et al., 2004). A grande parte das protenas solveis tem um centro li-
geiramente empacotado consistindo primariamente de aminocidos hidrofbicos. Esta
observao pode ser explicada pela tendncia que grupos hidrofbicos possuem de evi-
tar o contato com a gua e de interagir com outros. Outra caracterstica interessante
de cadeias polipeptdicas dobradas que os segmentos da cadeia em aproximadamente
todas as protenas adotam conformaes nas quais os ngulos de toro e da cadeia
principal repetem-se em padres regulares. Esses padres regulares formam os elementos
da estrutura secundria da protena.
Segundo Lodish et al. (2004), pode-se denir trs tipos de elementos de estrutura
secundria:
1. Hlice ,
2. Folhas ,
3. Voltas.
A seguir, ser ilustrado, respectivamente, cada estrutura secundria de protenas.

Nota-se na Figura 2.7 uma forma de hlice, sendo assim, tal gura representa a estrutura
Hlice .
J a Figura 2.8 representa a estrutura Folhas a qual apresentada por echas em

razo de poder assumir direes na cadeia de polipepitdica (Branden e Tooze, 1991).
Enm, a estrutura Voltas ilustrada na Figura 2.9. importante o formato U a qual

qualica como uma estrutura volta.
Estes so os tipos de estrutura secundria considerados estveis estruturalmente, de-

vido principalmente, formao de pontes de hidrognio entre os grupos carboxila e amino
17
Figura 2.7: Estrutura Hlice (Branden e Tooze, 1991).
Figura 2.8: Estrutura Folhas (Branden e Tooze, 1991).
de aminocidos no diretamente ligados e que em funo da estrutura tridimensional da

protena, encontram-se prximos (Copeland, 1993).
A relevncia da estrutura secundria contribuir signicativamente para a estabiliza-

o da dobra total da protena.
2.5 Estrutura Terciria de Protena
A estrutura terciria das protenas refere-se conformao total (arranjo tridimencio-

nal) de todos os resduos de aminocidos e estabilizada, principalmente, por interaes
hidrofbicas entre as cadeias no polares, pontes de hidrognio entre as cadeias polares
18
Figura 2.9: Estrutura Voltas (Lodish et al., 2004).
e ligaes peptdicas. Essas foras mantm os elementos da estrutura secundria unidos

e compacta (Lodish et al., 2004). A Figura 2.10 um exemplo da estrutura terciria de
uma protena.
Figura 2.10: Estrutura terciria de uma protena (PDB 1CCN).
A forma tridimensional assumida pela protena conhecida por dobra nativa (ou eno-
velamento nativo) e deve-se principalmente variao de fatores termodinmicos. Em
sua estrutura nativa, as protenas, esto no formato que lhes permite ter a mnima ener-
gia livre, favorvel na soluo em que se encontram. Alguns fatores termodinmicos
inuenciam o processo de dobramento das protenas, sendo um dos mais importantes a
necessidade de resguardar os aminocidos no polares do meio aquoso, o que forma o
conhecido centro hidrofbico da protena. De forma similar, o processo de dobramento
tambm procura favorecer as interaes entre os aminocidos polares e molculas do sol-
vente na superfcie hidroflica da protena. Assim, protenas em seu estado natural sempre
dobram-se espontaneamente em estruturas tridimensionais, quando em condies de so-
lues favorveis (Copeland, 1993).
A caracterizao da estrutura terciria muito difcil. Uma das possibilidades por

19
meio do arranjo topolgico dos vrios elementos da estrutura secundria. Um efeito da

estrutura terciria criar uma superfcie topogrca complexa que permite a protena
interagir especicamente com pequenas molculas que podem ligar-se em fendas, ou com
outras macromolculas, com as quais a protena pode ter regies de topologia complemen-
tar e carga (positiva ou negativa). Esses locais reconhecidos so freqentemente formados
de extenses de aminocidos unindo elementos de estrutura secundria (Petsko e Ringe,
2004).
As relevncias em investigar a estrutura terciria so as seguintes:
atravs dela que denida a forma e a dimenso da protena.
Permite denir o conceito de proximidades espaciais entre aminocidos que esto

distantes na cadeia linear (estrutura primria6 ) da protena, mas que precisam estar
prximos para formar locais de catlise de uma enzima, locais ativos (ou stio ativo)
para a ligao de um receptor, ou um local de recombinao para a ao de outra
protena (Copeland, 1993).
Em suma, pode-se armar que a estrutura terciria a responsvel pela determinao

da funo da protena no organismo.
A estrutura terciria das protenas com peso molecular maior que 15 mil, possui uma
unidade fundamental conhecida como Domnio. Geralmente, um domnio caracterizado
por alguma caracterstica interessante: uma abundncia incomum de um derterminado
aminocido (domnios ricos em prolina um domnio cido) (Lodish et al., 2004).
2.6 Determinao Experimental da Estrutura Terciria

da Protenas
Pode ser determinada experimentalmente a estrutura terciria da protena por meio de

dois mtodos diferentes: cristalograa de raio-X e Ressonncia Nuclear Magntica (RNM).
A interao dos raios-X com os eltrons em molculas arranjadas em um cristal utilizada
6 Ver seo 2.3.

20
para obter um mapa de densidade de eltrons da molcula, o qual pode ser interpretado
em termos de um modelo atmico. Atuais avanos tcnicos, tais como computadores
poderosos, incluindo sistemas grcos, detectores de reas eletrnicas e muitas fontes
fortes de raios-X de radiao sncrona, tm facilitado extremamente o uso de cristalograa
de raio-X (de Lima, 2006).
Pode ser difcil de obter a cristalizao de protenas e, geralmente, requer muitos

experimentos diferentes variando um nmero de parmetros, tais como pH, temperatura,
concentrao da protena e a natureza do solvente. Cristais de protenas contm vrios
canais e furos preenchidos com solventes, os quais podem ser utilizados para difuso de
metais pesados no cristal. A adio de metais pesados necessria para a fase da difrao
de raios (Branden e Tooze, 1991).
Estruturas de raio-X so determinadas em diferentes nveis de resoluo. Na resolu-

o mais baixa somente a forma da molcula obtida, enquanto que na alta resoluo a
maioria das posies atmicas pode ser determinada com alto grau de exatido. Na reso-
luo intermediria a dobra da cadeia polipeptdica , geralmente, corretamente revelada,
bem como as posies aproximadas das cadeias laterais, incluindo seus stios ativos. A
qualidade do modelo tridimensional nal da protena depende da resoluo dos dados do
raio-X e do grau de renamento (Branden e Tooze, 1991).
No mtodo de RNM as propriedades de spin magntico do ncleo atmico da molcula

so utilizadas para obter uma lista das restries de distncia entre os tomos na molcula,
a partir da qual a estrutura tridimensional da molcula da protena pode ser obtida. Este
mtodo no requer cristais de protena e pode ser utilizado em molculas proticas em
solues concentradas. No entanto, sua utilizao restrita a pequenas molculas de
protena (Branden e Tooze, 1991).
2.7 Predio de Estrutura Terciria de Protena
Os mtodos experimentais para determinao da estrutura terciria das protenas

possuem uma srie de condies para que estes possam ser utilizados (Seo 2.6), o que
torna extremamente relevante a investigao de mtodos computacionais ecientes para
21
a determinao da estrutura terciria, na qual qualica-se como predio de estrutura

terciria de protenas.
O processo de formao da estrutura terciria denominado dobramento e existem al-

gumas propriedades fsicas que determinam este processo (Karplus e Shakhnovich, 1992):
rigidez da cadeia principal (cadeia que contm todos os carbonos , Seo 2.1);
interaes entre os aminocidos, incluindo interaes eletrostticas;
foras de Van der Waals;
restries de volume;
pontes de hidrognio e dissulfeto;
interaes dos aminocidos com o meio aquoso.
Por ainda no haver uma teoria que explique adequadamente o processo de dobramento
de uma protena em sua estrutura terciria, a qual necessria para a determinao da sua
funo, uma alternativa tem sido as abordagens que visam a Determinao da Estrutura
da Protena (DEP) sendo que a mesma pode ser vista como um problema de otimizao.
Vrios mtodos de otimizao tm sido investigados para esse problema, destacando-se
aqueles baseados em threading (Baxevanis e Ouellette, 2001), homologia (Doolittle, 1986;
Hilbert et al., 1993), Ab initio (Cui et al., 1998; Vullo, 2002) e semi Ab initio (Inbar et al.,
2003, 2005).
2.7.1 Modelagem por Homologia
A modelagem por homologia signica predizer a estrutura terciria de uma protena

desconhecida com base em uma estrutura conhecida de uma outra protena (homloga7 ).
Neste contexto, importante descobrir a quantidade de similaridade com a seqncia
conhecida necessria para predizer a estrutura com exatido. Para determinar essa si-
milaridade, Hilbert et al. (1993) estudaram superposies de alinhamento de um largo
7 So protenas que possuem um ancestral comum (Doolittle, 1986).

22
nmero de estruturas conhecidas de diferentes formas e classes funcionais com diferentes

graus de homologia. Com base neste estudo, Hilbert et al. sugeriram as seguintes relaes
entre seqncias homlogas e diferenas estruturais:
O tamanho do ncleo da regio comum diminui conforme diminui a identidade

na seqncia. Alinhamentos com mais de 50% de similaridade possuem acima de
90% de seus resduos em regies estruturalmente conservadas. Se a identidade na
seqncia ca abaixo de 20%, o ncleo da regio comum contm cerca de 65% dos
aminocidos.
Regies estruturalmente divergentes com mais de 50% de similaridade na seqn-

cia possuem conformao estrutural parecida. Grandes desvios estruturais podem
acontecer se a similaridade for baixa.
A diminuio da correlao de similaridade na seqencia implica em aumento no

nmero de inseres e/ou remoes em uma das seqncias para que se tornem
iguais. Identicou-se que para um nmero mximo de 16 inseres e remoes,
em geral, a similaridade abaixo de 20%. Por outro lado, praticamente nenhuma
insero e remoo vericada com mais de 60% de similaridade.
Os estudos de Hilbert et al. no se esgotam o assunto de similaridade de protenas.
Kabsch e Sander (1983) demonstraram que at mesmo uma similaridade exata, em

pequenos segmentos, no fornece indicao de estrutura, apresentando exemplos de pen-
tapeptdeos idnticos que participam de diferentes estruturas em diferentes protenas. Em
Wilson et al. (1985), extendeu-se essa idia para hexapeptdeos. Mas, em Cohen et al.
(1993), examinando os hexapeptdeos conclui que, dentro de uma classe estrutural de
protena ou domnio, a similaridade na estrutura de um hexapeptdeo seqencialmente
idntico preservada. Foi com esse estudo que inspirou a possibilidade de desenvolver
algoritmos para predizer as estruturas tercirias de protenas com domnio conhecido
(Barton et al., 1993; Peitsch, 2002).
Em suma, as tcnicas de modelagem por homologia investiga um dobramento des-

conhecido, modelando-o por intermdio da estrutura homloga conhecida. Entretanto,
23
sabe-se que, e no muito incomum, encontrar duas protenas tendo baixa identidade na
seqncia com estrutura terciria, mas com funo similares entretanto.
2.7.2 Modelagem por Threading
As abordagens de threading e modelagem por homologia8 so baseadas na observao

de que muitas protenas no PDB so muito similares. Sendo assim, muitos cientistas esto
investigando que h somente um limitado nmero de dobramentos de protenas diferentes
na natureza. As estimativas variam consideravelmente, mas prev-se que existam menos
de 1000 dobras de protenas. Isso propicia uma abordagem para a predio de estru-
tura terciria de protenas, determinando a estrutura de uma nova protena pela busca
(match ) de seu melhor ajuste para alguma estrutura particular na biblioteca de estrutu-
ras. A diferena entre threading e modelagem por homologia que na primeira, aplica-se
quando a protena no tem nenhuma protena homloga, mas pode ter uma estrutura
tridimensional similar; na segunda, h a necessidade de possuir uma protena homloga.
O processo de determinao dos mtodos de threading pode ser descrito da seguinte

forma: obtm uma seqncia de busca e tenta alinha-la em um modelo de estrutura
escolhido aleatoriamente do conjunto das principais estruturas tridimensionais determi-
nadas de protenas. A seqncia de busca a estrutura primria de uma protena que
tem estrutura tridimensional desconhecida. As estruturas tridimensionais que compem
a biblioteca de estruturas foram obtidas por cristalograa de raio-X ou por ressonncia
nuclear magntica. O alinhamento da seqncia de busca com o modelo de estrutura pode
ocorrer das seguintes formas:
Alinhamento seqncia-seqncia: busca encontrar o melhor alinhamento entre a

seqncia de busca e a seqncia de aminocidos do modelo de estrutura por meio
de inseres e remoes.
Alinhamento seqncia-estrutura: a seqncia de busca movimentada sobre a

estrutura tridimensional sujeita pr-determinadas restries fsicas referentes ao
8 Ver seo 2.7.1.

24
tamanho dos elementos da estrutura secundria, s regies de loop que podem ser
xas ou variveis dentro de um intervalo, entre outras restries.
Para cada posicionamento da seqncia contra a estrutura, interaes de pareamento e

hidrofbicas entre resduos no locais so determinadas. Esses clculos (termodinmicos)
so usados para determinar o alinhamento mais favorvel da seqncia questionada contra
o modelo de estrutura selecionado (Baxevanis e Ouellette, 2001).
2.7.3 Modelagem Ab initio
Em abordagens Ab initio, nenhuma homologia na seqncia necessria em relao s

protenas de estrutura conhecida. O processo de determinao no depende da protena ter
uma dobra similar conhecida. As abordagens computacionais Ab initio tpicas computam
a estrutura tridimensional realizando buscas no espao de conformaes adequado (Vullo,
2002). Alguns modelos computacionais so baseados em mtodos de otimizao. Este
problema envolve dois aspectos: primeiro, a especicao da funo de minimizao e,
segundo, a escolha do algoritmo de busca (Khimasia e Coveney, 1997).
As funes de minimizao so baseadas em leis fsicas de movimentao em campos

potenciais cuidadosamente planejados (dinmicas moleculares) (Vullo, 2002). Na maioria
dos casos a funo procura minimizar a energia livre da molcula, pois sabe-se que a
estrutura nativa das protenas tem sua energia mnima (Khimasia e Coveney, 1997).
Avaliar a funo de minimizao para protenas grandes e o fato de que o espao

de busca cresce exponencialmente conforme aumenta o nmero de resduos da protena
so alguns dos desaos deste mtodo. Em Cui et al. (1998), observou-se algumas outras
informaes referentes estrutura de protenas que podem ser utilizadas no processo de
determinao de estrutura terciria, ou sejam:
1. Estruturas nativas de protenas so compactas e tm um centro bem acondicionado

que altamente enriquecido com resduos hidrofbicos.
2. A fora de interao hidrofbica dirige o processo de dobra; dicilmente resduos

no-polares so encontrados na superfcie externa da protena.
25
3. Protenas globulares so organizadas com uma estrutura hierrquica; isto , estru-

tura secundria, estrutura terciria e estrutura quaternria9 .
4. As protenas empregam caminhos de dobra evitando extensivas buscas no espao

conformacional.
2.8 Funes de Energia
As funes de energia utilizadas foram baseadas nas implementaes disponveis no

sistema de modelagem molecular TINKER. O TINKER um programa de modelagem
molecular consistido de um pacote geral e completo para dinmicas e mecnicas molecu-
lares com algumas caractersticas especiais para biopolmeros (Ponder, 2001).
Por intermdio do TINKER, tem-se a possibilidade de se trabalhar em vrios sistemas

operacionais, por exemplo, Windows, Unix/Linux, Mac; ou seja, TINKER um programa
multiplaforma. possvel tambm, analisar seu cdigo e, inclusive, at mesmo modic-
lo uma vez que open-source. Referindo-se ao cdigo do TINKER, este foi implementado
em Fortran77 com algumas extenses escritas na linguagem C.
Assim sendo, o TINKER atualmente bem difundido perante a comunidade cientca.

Vale ressaltar que o mesmo utiliza diversos conjuntos de parmetros comuns a outros
programas de pacotes de energia como, por exemplo: AMBER, CHARMM, OPLS entre
outros (Ponder, 2001).
Com relao ao formato de arquivos e suas respectivas converses, o TINKER reco-

nhece tais formatos em:
Coordenadas internas, onde so apresentados os ngulos de ligao, torso e com-

primentos das ligaes dos tomos.
Formato XYZ, contendo as coordenadas cartesianas da cada tomo.
9 Refere-se relao espacial (ligadas por ligaes no-covalentes) entre duas ou mais cadeias polipep-
tdicas para compor uma protena.
26
Formato PDB, amplamente utilizado para representar as estruturas de protenas,

cidos nucleicos e nucleotdeos.
As funes de energia dividem-se em dois grupos: O grupo das ligaes Covalentes

e no-Covalentes. Pertencem ao primeiro grupo as energias Comprimento de Ligao,
ngulo de Torso, Urey-Bradley e Imprpria. J as energias de van der Waals e Eletros-
ttica englobam o segundo grupo. Segundo Lodish et al. (2004) embora as energias do
segundo grupo possuem uma fora atrativa menor em relas s primeiras, tm a mesma
importncia para a estabilizao de uma biomolcula na qual se tem a protena como
exemplo. A seguir, estas energias sero apresentadas em seus detalhes.
2.8.1 Energia de Comprimento de Ligao
As interaes de comprimento de ligao so melhor compreendidas de forma funcional

analisando como a energia de ligao muda de acordo com o comprimento da ligao. A
energia de ligao menor em um particular comprimento natural ou de referncia (r0 ).
Se a ligao comprimida, ento a nuvem de eltrons dos dois tomos ser gradualmente
sobreposta. Se a ligao afastada do equilbrio a energia comea a aumentar. Even-
tualmente, no entanto, a ligao disassociada, ou seja, deixa de existir. A Figura 2.11
mostra o comportamento da energia em relao ao comprimento da ligao. A linha cheia
mostra a aproximao harmnica por uma expanso de Taylor para pequenas variaes
no comprimento da ligao em relao ao valor de referncia. A linha pontilhada mostra
o comportamento da energia utilizando o potencial de Morse (Morse, 1929) que mais se
aproxima do comportamento real da energia potencial de ligao, havendo a disassoci-
ao da ligao aps um certo afastamento do comprimento de ligao ideal. Embora
tal potencial seja o que mais se aproxima do comportamento real, o seu emprego no
comum em virtude de sua complexidade, sendo que, para cada ligao, o mesmo exige
trs parmetros (Leach, 2001).
A expanso de Taylor aplicado em (r r0 ), onde, como mencionado, r0 a distncia

de referncia e r a distncia real. A Equao (2.1) apresenta a expanso de Taylor
utilizada para o clculo da energia potencial de ligao.
27
Figura 2.11: Grco da funo de energia potencial de comprimento de ligao.

dE 1 d2 E 2 1 d3 E
E(r) = E(r0 ) + (r r0 ) + (r r0 ) + (r r0 )3 + . . . (2.1)
dr r=r0 2 dr2 r=r0 6 dr3 r=r0
Em sua forma simplicada, a Equao (2.1) resumida ao termo (r r0 )2 , sendo

conhecida como aproximao harmnica. Considerando E(r0 ) = 0 e que em r = r0 a

d2 E
energia nula, ento a primeira derivada da energia zero, e assumindo kr = dr2 ,
r=r0
tem-se:
1
Ebond (r) = kr (r r0 )2 (2.2)
2
O comprimento de ligao de referncia r0 freqentemente denominado de compri-

mento de ligao de equilbrio.
As foras entre tomos (covalentes) ligados so muito fortes em comparao com ou-
tras foras relativas s interaes entre os tomos. Esta uma justicativa para utilizar
uma aproximao harmnica. importante lembrar que esta uma aproximao para o
potencial de comprimento de ligao real e que, para grandes desvios de r0 , a aproxima-
o harmnica no reete o comportamento verdadeiro do potencial de comprimento de
28
ligao. Para situaes onde o comprimento de ligao pode desviar para longe de r0 , ou
ainda, em casos onde se deseja calcular de forma precisa, h a necessidade de se utilizar
o potencial de Morse.
2.8.2 Energia de ngulo de Torso
Interaes de ngulo de torso so diferentes das interaes de comprimento de ligao

em dois aspectos: O primeiro que as barreiras de rotao internas so baixas comparadas
s outras interaes, signicando que mudanas nos ngulos diedrais podem ser grandes;
e segundo, o potencial de torso, Etors , peridico por meio de uma rotao de 360o . O
primeiro aspecto implica que seria inapropriado aproximar Etors por uma srie de Taylor.
Alm disso, Etors pode ser utilizada em muitas diferentes formas, dependendo dos
tomos envolvidos. Assim, a forma funcional escolhida deve ser capaz de modelar ampla-
mente diferentes potenciais.
Os termos Comprimento de Ligao e ngulos de Torso so consideradas medidas

hard de liberdade, em que h a necessidade de uma quantidade substancial de energia
para causar deformaes signicativas advindos dos seus valores de referncia. Muitas das
variaes na estrutura da molcula se deve complexa interao entre as contribuies
torsionais (tores) e das ligaes no-covalente (Leach, 2001).
Para as interaes de torso comum sua modelagem utilizar uma srie de Fourier,
ou seja:
X1
Etors () = Vn cos(n) (2.3)
n
2
onde n o nmero de fases utilizadas, Vn so as constantes de fora de rotao de torso

e o ngulo de torso atual. costume mover a origem do potencial e incluir fatores
de fase cando a Equao (2.4) como se segue:
X1
Etors () = Vn (1 + cos(n n )) (2.4)
n
2
onde os ngulos de fase n so geralmente escolhidos de forma que os termos com Vn

29
positivo tenham energia mnima em 180o .
Na Figura 2.12 podem ser vistas as trs primeiras fases da Equao (2.4). A linha
cheia apresenta o grco da Equao (2.4) para n = 1, a linha pontilhada para n = 2 e a
linha tracejada ilustra o grco da Equao (2.4) para n = 3.
1
n=1
n=2
n=3
0.5
E
0
0 90 180 270 360
phi
Figura 2.12: Grco da funo de energia potencial de torso.
2.8.3 Energia Urey-Bradley
O termo de energia Urey-Bradley refere-se s interaes entre pares de tomos i e

j separados por duas ligaes atmicas, conhecida como interao 1 : 3 tomos e so
calculados utilizando um termo de aproximao harmnica da distncia entre os tomos
i e j , como o utilizado para energia de comprimento de ligao e energia de ngulo de
ligao.
A expresso utilizada para a energia de interao Urey-Bradley dada pela sequinte

equao:
1
Eurey (s) = kurey (s s0 )2 (2.5)
2
onde kurey a constante de fora da interao Urey-Bradley e s0 a distncia ideal entre
30
os tomos i e j .
2.8.4 Energia Imprpria
Energia imprpria est associada com deformaes dos ngulos de torso imprprios.
Estes ngulos de torso referem-se a tomos com hibridizao sp2, que geram deformaes
fora do plano.
Para o clculo da energia referente s interaes de ngulos de torso imprprios

utilizada uma aproximao harmnica dada pela equao seguinte:
1
Eimproper () = kimproper ( 0 )2 (2.6)
2
onde kimproper a constante de fora imprpria e 0 o ngulo de torso imprprio ideal.

Para o clculo da energia imprpria da estrutura que est sendo avaliada utilizado o
somatrio de todas as interaes de imprprias da molcula.
2.8.5 Energia Eletrosttica ou de Carga
A interao eletrosttica entre um par de tomos representada pelo potencial de

Coulomb apresentado na Equao (2.7), onde D a funo dieltrica efetiva para a mdia
entre os tomos e r a distncia entre dois tomos tendo cargas qi e qj .
X qi qj
Echarge = i, j (2.7)
Dri,j
Considerando que as cargas (qi e qj ) dos tomos no variam, tem-se que a energia
eletrosttica ento varia de acordo com a distncia entre os tomos. Assim, tendo-se o
produto das cargas qi e qj como positivo, e variando o tamanho da distncia entre os
tomos, obtem-se o grco apresentado na Figura 2.13. Neste grco, observa-se que
conforme a distncia entre os tomos diminui a energia tende a innito e que quando a
distncia aumenta a energia tende a zero.
Como no caso da energia de van der Waals (Seo 2.8.6), tendo tambm como obje-
31
Figura 2.13: Grco da funo de energia eletrosttica.
tivo aumentar a velocidade computacional, interessante estabelecer um valor de corte

determinando a maior distncia em que a interao eletrosttica ser considerada. Caso
sejam consideradas todas as interaes, tem-se um crescimento de acordo com o quadrado
do nmero de tomos da molcula.
2.8.6 Energia de Van der Waals
A interao de van der Waals ocorre quando dois tomos aproximam-se muito um do
outro criando uma fora de atrao fraca e inespecca. Entende-se como uma interao
inespecca o caso em que dois tomos ligados no-covalentemente (no compartilham um
par de eltrons) estiverem suentemente prximos10 a ponto dos eltrons de um dos tomos
pertubarem os eltrons do outro, sendo que esta pertubao gera um dipolo temporrio
no segundo tomo e atrair-se-o fracamente (Lodish et al., 2004).
A interao de van der Waals freqntemente modelada utilizando o potencial de

Leonnard-Jones 6-12 que expressa a energia de interao utilizando constantes A e C
10 Quando muito prximos os tomos se repeliro devido as cargas negativas dos seus eltrons
(Lodish et al., 2004).
32
dependentes do tipo do tomo. Os valores de A e C podem ser determinados por uma

variedade de mtodos, como distncia dos no ligados em cristais e medidas de disperso
na fase gasosa. A Equao (2.8) a forma geral do potencial de Leonnard-Jones, onde
ri,j
r= Ri +Rj
.
X Ai,j Ci,j
Evdw = (2.8)
i,j
r12 r6
As interaes de van der Waals so uma das mais importantes para a estabilidade de
macromolculas biolgicas. Estas interaes so calculadas sobre pares de tomos. Em
princpio, todas as interaes de todos os pares de tomos deveriam ser avaliados, mas isto
elevaria signicativamente o custo computacional. Sendo assim, dene-se previamente a
mxima distncia que eviderenciar uma interao de van der Waals. Em de Lima (2006)
esta distncia foi de ri,j > 8. Outro valor de corte estabelecido quando a distncia
entre os tomos se torna menor que uma distncia pr-denida, conhecido como corte
de diminuio, pois neste caso Evdw , como pode ser observado na Figura 2.14 que
mostra o grco da funo de van der Waals em sua forma padro.
3
E
1
0.8 1 1.5 2
r
Figura 2.14: Grco da funo de van der Waals na forma padro.

33
2.9 Consideraes Parciais
Neste captulo foi possvel obter informaes sobre as protinas e elucidar os desa-
os, devido sua complexidade, para o problema de predio de estruturas tercirias de
protenas in silicio. Podemos enfatizar algumas informaes sobre as protenas, ou sejam:
As protenas so compostos orgnicos, constitudo por compostos mais simples,

denominados aminocidos, os quais possuem um carbono central, C , que possui
quatro ligantes diferentes: um grupo amino, um grupo carboxila, um hidrognio e
um radical ou cadeia lateral. Os aminocidos so diferenciados por mudanas no
radical. Pequenas seqencias de aminocidos so chamados polipeptdeos.
As protenas so molculas hierarquicamente estruturadas, ou seja, possuem uma

estrutura primria (seqncia linear dos aminocidos), estrutura secundria (confor-
maes locais repetidas em quase todas as protenas) e a estrutura terciria (arranjo
tridimensional da molcula protica).
A relevncia em investigar a estrutura terciria da protena est em virtude de ser

possvel determinar qual a funo da protena no organismo. Este conhecimento
contribui para o desenvolvimento de novos frmacos, pois conhecendo a estrutura
tridimensional, torna-se possvel determinar quais os melhores compostos podem
ligar-se ao stio ativo da protena.
Foi tambm descrito as funes de energia que sero utilizadas na funo de avaliao11
do algoritmo proposto.
11 Ver na Seo 5.1.

34
35
Captulo 3
Abordagem Evolutiva Multi-objetiva

Fuzzy
A abordagem Evolutiva ou Computao Evolutiva (CE) trata de inspirar-se nos fen-

menos que ocorrem na natureza para solucionar problemas, principalmente na rea de
otimizao. Uma das motivaes de aplicar CE sua capacidade de lidar com problemas
complexos para os quais no possvel, ou difcil, obter uma descrio detalhada dos
mesmos ou no se consegue impor restries rgidas ao escopo do problema de otimizao.
Outra motivao capacitar o computador a tomar decises, antes restritas a especialis-
tas humanos, possuindo como informao somente as conseqncias das aes tomadas
anteriormente, constiuindo assim a evoluo do processo de aprendizagem (Michalewicz,
1996).
A abordagem Fuzzy possibilita ao computador a procincia de intepretar caracte-

rsticas subjetivas, ou at mesmo, quando suas fronteiras1 no so possveis denir com
segurana.
Neste captulo, a Seo 3.1 trata da otimizao multi-objetivo no que diz respeito ao
conceito e denies. A Seo 3.2 referencia sobre a base fundamental dos algoritmos
genticos (Seo 3.3) que a teoria da evoluo. A Seo 3.4 refere-se aos algoritmos
evolutivos aplicados nos problemas de otimizao multi-objetivo. A Seo 3.5 abordar a
1 Ver a Seo 3.1.

36
lgica Fuzzy e na Seo 3.6 ser apresentada a abordagem evolutiva multi-objetiva Fuzzy
que a metodologia computacional que ser investigada e aplicada.
3.1 Otimizao Multi-Objetivo
Os Problemas de Otimizao Multi-Objetivo (POMO) abordam os problemas onde a

quantidade de objetivos no seja nico e que h a necessidade de serem tratados simulta-
neamente. Neste tipo de problema, h um grupo de solues que atenda um equilbrio
de situaes (solues).
Um POMO possui um conjunto de funes objetivos a serem otimizadas e restries

que devem ser satisfeitas por qualquer soluo factvel2 (Deb, 2001). O conjunto de todas
as solues factveis conhecido como espao de busca ou regio factvel.
Para os algoritmos de otimizao, todas as funes objetivos devem ser maximizadas

ou minimizadas.
O espao de objetivos Z um espao multi-dimensional, composto pelo vetor funes

objetivos f(x). A diferena entre multi-objetivo e mono-objetivo o espao de busca: no
multi-objetivo multidimensional, cada soluo x, no espao de deciso, possui f(x) em
Z; e no mono-objetivo, unidimensional.
3.1.1 Solues de Pareto timas
Apresentar uma deciso implica em considerar vrios aspectos visando encontrar a

melhor soluo. Pode haver situaes que, considerando somente as caractersticas quan-
titativas, no se consegue determinar uma soluo melhor que a outra. Toma-se como
exemplo Ticona (2003): para a deciso da compra de um carro, pode-se considerar que se
est procurando o carro com melhores preo e conforto. A Figura 3.1 ilustra essas opes.
O objetivo minimizar preo e maximizar conforto. Neste caso, tem-se cinco possveis
alternativas de compra. As solues 1 e 2, so descartadas, pois a soluo 5 fornece mais
2 Umasoluo x factvel se, e somente se, satisfazer todas as restries. Caso contrrio, a soluo
ser no factvel.
37
Figura 3.1: Exemplo do multi-objetivo (Ticona, 2003).
conforto por um igual preo e preo inferior, respectivamente. As solues 3, 4 e 5 so

as melhores alternativas de compra, mas em termos quantitativos, no se pode armar
quem a melhor. Pode-se atribuir um compromisso entre os objetivos. Quanto maior
o conforto, maior o preo e vice-versa (Ticona, 2003).
Uma soluo domina uma outra soluo se, e somente se, em todos seus objetivos,
possuir valores melhores. No exemplo de Ticona (2003), a soluo 5 domina a soluo 1
e no dominada por nenhuma outra. Aplica-se o mesmo, para as solues 3 e 4.
No tendo mais informaes a respeito das solues, pode-se armar que o conjunto
das solues 3, 4 e 5 so as melhores solues, o qual tambm conhecido como conjunto
no dominado. Logo, as solues 1 e 2 constituem o conjunto dominado.
O conjunto das solues no dominadas pode ser representado no espao cartesiano e

formam a chamada frente de Pareto 3 ou fronteira de Pareto. As solues Pareto timas
ou conjunto Pareto timo, ou ainda, fronteira tima de Pareto, formam o conjunto de
3 VilfredoPareto, economista e socilogo italiano. Graduou-se na universidade de Turin em 1869 e

trabalhou como engenheiro em uma grande companhia ferroviria. Em 1893 foi lecionar na universidade
de Lausanne, Frana (Encyclopdia Britannica, 2007).
38
solues no dominadas em relao a todas as solues possveis.
3.1.2 Metas em Otimizao Multi-Objetivo
Em Deb (2001) assinalada duas importantes metas em otimizao multi-objetivo:
1. Encontrar um conjunto de solues que esteja o mais prximo possvel do conjunto

Pareto timo.
2. Encontrar um conjunto de solues com maior diversidade possvel.
A primeira meta comum para todos os problemas de otimizao, porque solues

muito distantes da fronteira tima de Pareto so indesejveis. No entanto, a segunda meta,
encontrar a maior divesidade, uma meta especca para a otimizao multi-objetivo. Em
POMO, trabalha-se com o espao de decises e o espao de objetivos, sendo imprescindvel
que as solues tenham uma boa diversidade nestes espaos.
3.2 Teoria da Evoluo
A teoria da evoluo foi proposta por Charles Darwin (Darwin, 1859) na dcada de
1850 e at nos dias atuais o principal conceito unicador das diversas reas da biologia.
Tal teoria comeou a ser desenvolvida a partir das observaes de Darwin durante sua
viagem a bordo do navio Beagle. Esta teoria tem como um de seus princpios o conceito
de seleo natural, o qual arma que o meio atua sobre os indivduos selecionando os mais
adaptados ao ambiente para sobreviver, pois as populaes no podem crescer demais.
So considerados indivduos adaptados ao ambiente aqueles que conseguem sobreviver e
deixar descendentes.
Darwin no conseguia explicar, geneticamente, como a variabilidade dos indivduos

surgia e era transmitida para os descendentes. S em 1900, nos estudos de Gregor Mendel,
torna-se possvel explicar a ligao entre os mecanismos de herana e o cromossomo, dando
origem a gentica (Silva Junior e Sasson, 2003).
39
Em 1940, pesquisadores com o auxlio da teoria gentica chegaram Teoria Sinttica

da Evoluo ou Neodarwinismo (Silva Junior e Sasson, 2003) baseada nos conceitos de
recombinao gnica e mutao. A recombinao gnica responsvel pela transmisso
das caractersticas dos pais para os lhos. A mutao responsvel pelo surgimento da
diversidade nos indivduos da populao, com o surgimento de novas caractersticas que,
se forem bencas, tornam os indivduos mais aptos e adaptados, facilitando a gerao de
descendentes com tais caractersticas; caso contrrio, essas caractersticas tendem a ser
eliminadas. Esse processo denominado de seleo natural.
3.3 Algoritmos Genticos
Holland (1975) introduziu os Algoritmos Genticos (AGs) com a motivao de es-

tudar, formalmente, os conceitos de adaptao que ocorrem na natureza, formaliz-los
matematicamente e desenvolver sistemas articiais4 que imitassem os mecanismos origi-
nais encontrados em sistemas naturais.
O AG proposto por Holland um mtodo que consiste em modicar uma populao5

inicial em uma nova populao utilizando a seleo natural e os operadores genticos:
recombinao gnica (ou crossover) e mutao. Os AGs utilizam uma terminologia origi-
nada da teoria da evoluo natural (Seo 3.2 ) e da gentica. Um indivduo da populao
representado por um nico cromossomo, que contm a codicao (gentipo) de uma
possvel soluo do problema (fentipo). Cromossomos so geralmente implementados na
forma de listas de atributos, vetores ou strings, onde cada atributo conhecido como gene
e os possveis valores que um determinado gene pode assumir so denominados alelos.
No AG proposto por Holland um cromossomo geralmente representado por uma string
binria, ou seja, uma string de zeros e uns.
Segundo Michalewicz (1996), um AG busca um espao de solues potenciais para o

problema e para isso requer um equilbrio entre dois objetivos aparentemente conitantes:
o aproveitamento das melhores solues e a explorao do espao de busca. AGs cons-
4 Simuladosem computador.
5 Conjuntode indivduos representando as solues candidatas codicadas de forma similar a cromos-
somos em gentica.
40
tituem, assim, uma classe de mtodos de busca de propsito geral que apresentam um
balano considervel entre aproveitamento de melhores solues e explorao do espao
de busca.
Mesmo apresentando etapas no-determinsticas em seu desenvolvimento, os AGs,

no so mtodos de busca puramente aleatrios em conseqncia combinao de va-
riaes aleatrias com seleo pelos valores de adequao (tness ) atribudo a cada in-
divduo. Uma propriedade importante dos AGs que esses mantm uma populao de
solues candidatas enquanto que outros mtodos alternativos, como simulated annealing
(Aarts e Korst, 1989), analisam um nico ponto no espao de busca a cada instante. Alm
disso, os AGs possuem um paralelismo implcito decorrente da avaliao independente de
cada uma das cadeias de bits (cromossomo) que compem os indivduos. O processo
de busca multi-direcional, com a manuteno de solues candidatas que representam
a busca em vrias partes do domnio e com troca de informaes entre essas solues.
A cada gerao, solues relativamente boas geram mais descendentes, enquanto que
solues relativamente ruins tendem a ser eliminadas. Para fazer a distino entre dife-
rentes solues, empregada a funo de avaliao (tness ) que simula o papel da presso
exercida pelo ambiente sobre o indivduo. O Quadro 3.1 descreve um AG tpico:
Quadro 3.1 Pseudo-cdigo de um AG tpico.

ALGORITMO AG
// inicializa uma populao de n indivduos aleatoriamente
INICIA_POPULACAO(P (t));
// avalia o grau de adequao dos indivduos de P 0
AVALIA(P 0 );
// testa o critrio de trmino (por exemplo, um tempo t mximo ou um nvel de adaptao esperado)
ENQUANTO criterio nao atingido FACA
// obtm uma nova populao privilegiando os indivduos mais adaptados
P 0 := SELECIONA_INDIVDUOS(P (t));
// aplica crossover sobre os indivduos selecionados
APLICA_CROSSOVER(P 0 );
// perturba estocasticamente os indivduos da populao que recombinou
APLICA_MUTA(P 0 );
AVALIA(P 0 );
// seleciona os sobreviventes entre os indivduos de P (t) e P 0
P (t + 1) := SOBREVIVENTES(P (t),P 0 );
FIM
Para desenvolver um AG, em um problema particular, deve-se considerar os seguintes

componentes:
41
representao gentica para solues potenciais (etapa de codicao);
procedimento para criar uma populao inicial;
funo de avaliao para classicar as solues em termos de sua adaptao ao

ambiente (sua capacidade de resolver o problema);
denir os operadores genticos6 com base na codicao (representao dos dados

referentes ao indivduo) utilizada;
valores para os diversos parmetros do AG, tais como: tamanho da populao,

probabilidades de aplicao dos operadores genticos e outros.
3.3.1 Codicao dos Indivduos
A codicao uma das etapas mais crticas na denio de um AG. No AG clssico7

os indivduos da populao so codicados em strings binrias de tamanho xo. A grande
motivao para o emprego da codicao binria est na Teoria de Esquemas (Holland,
1992) utilizada para justicar a ecincia dos AGs e, concluindo, a representao binria
maximiza o paralelismo implcito inerente ao AG. Entretanto, tanto Michalewicz (1996)
como Deb (2001) apresentam resultados de comparaes do desempenho de AGs com co-
dicao binria e com ponto utuante. Os resultados apresentados revelam superioridade
da codicao em ponto utuante quando comparada com a codicao binria.
Michalewicz (1996) argumenta que a representao binria no adequada quando o

espao de busca de alta dimenso. Porm, esta argumentao no muito aceita na
literatura sobre AGs. Espaos de busca de alta dimenso podem s vezes ser explorados
ecientemente, enquanto que espaos de busca de dimenso reduzida podem apresentar
diculdades signicativas. Outro problema encontrado com a codicao binria ocorre
quando o espao de busca do problema contnuo, podendo ocorrer Hamming clis com
certas strings, por exemplo 01111 e 10000, onde a transio para uma soluo vizinha no
espao de nmeros de ponto utuante requer a alterao de muitos bits da string (Deb,
6 Ver na Seo 3.3.3.

7 Proposto por Holland.
42
2001). Os Hamming clis presentes na codicao binria causam o atraso para uma
busca gradual nos espaos de busca contnuos.
Outra diculdade no caso de problemas com espaos de busca contnuos a inca-

pacidade de armazenar qualquer preciso arbitrria na soluo tima, sendo necessrio
quando a codicao binria utilizada escolher a priori o tamanho da string para que
o AG seja capaz de armazenar uma certa preciso na soluo. Quanto mais preciso for
requerida, ento maior ser o tamanho da string. Para grandes strings, requer-se uma
populao grande, aumentando assim a complexibilidade do algoritmo, tornando-o ento
invivel (Deb, 2001). Deb (2001) apresenta um operador de crossover para AGs com co-
dicao de ponto utuante que simula o princpio do operador de crossover de um ponto
para AGs utilizando a codicao binria.
A denio inadequada da codicao pode acarretar problemas de convergncia pre-

matura8 do AG. A estrutura de um cromossomo deve representar uma soluo como um
todo e deve ser a mais simples possvel.
Em Michalewicz (1996) so referenciados que nos problemas de otimizao com res-

trio h a possiblidade de que os indivduos modicados por crossover/mutao sejam
invlidos. Nesses casos, cuidados especiais devem ser tomados na denio da codicao
e/ou dos operadores.
3.3.2 Denio da Populao Inicial
Quando no h algum conhecimento do problema, o mtodo para inicializar a popu-

lao aleatria. Deve atentar-se para os problemas com restries visando no gerar
indivduos invlidos na etapa de inicializao. Conforme mencionado em de Lima (2006),
no caso de codicao binria, se sabido que a soluo nal vai apresentar mais 00 s do
que 10 s, ento esta informao pode ser utilizada, mesmo que no se saiba exatamente a
proporo.
8A
convergncia prematura ocorre quando indivduos relativamente adaptados, contudo no timos,
rapidamente dominam a populao fazendo com que o AG convirja para um mximo ou mnimo local.
Este problema pode ocorrer devido a uma formulao inadequada do problema.
43
3.3.3 Operadores Genticos
Os operadores genticos mais freqentemente utilizados em AGs so o crossover e a

mutao.
Operador de Crossover
O operador de crossover ou recombinao cria novos indivduos utilizando a combi-

nao de dois ou mais indivduos. Estes indivduos so chamados pais. No operador de
crossover, h a troca de informao entre diferentes solues candidatas. No AG clssico
atribuda uma probabilidade xa de ocorrer crossover aos indivduos da populao.
O tipo de crossover mais difundido o crossover de um ponto. Para a aplicao deste,

so selecionados dois indivduos (pais) e, a partir de seus cromossomos, so gerados dois
novos indivduos (lhos). Para gerar os lhos, seleciona-se um mesmo ponto de corte
aleatoriamente nos cromossomos dos pais, ento, os segmentos de cromossomo criados a
partir do ponto de corte so trocados.
Muitos outros tipos de crossover tm sido propostos na literatura. Alguns, exclusivos,

quando utiliza-se codicao em ponto utuante. Um exemplo o crossover de mistura
(BLX-) (Eshelman e Schaer, 1993). Considere x1 e x2 dois indivduos selecionados para
crossover e assume-se que x1i < x2i onde i representa o i-simo gene. O BLX- escolhe
aleatoriamente uma soluo no intervalo [x1i (x2i x1i ), x2i + (x2i x1i )]. A literatura
tem reportado que o melhor valor para 0.5 sobre qualquer outro valor escolhido. Se
a diferena entre os pais for pequena, ento a diferena entre os pais e os lhos tambm
ser pequena e vice versa. Esta propriedade permite que este operador execute uma busca
pelo espao inteiro, no incio, e tambm execute uma busca localizada quando a populao
tende a convergir para uma regio do espao de busca.
Operador de Mutao
O operador de mutao altera aleatoriamente um ou mais genes de um cromossomo.

A taxa de mutao a probabilidade de ocorrncia de mutao em um gene. A nalidade
do operador de mutao criar uma variabilidade extra na populao, mas sem destruir
44
o progresso j obtido com a busca.
Para elucidar, toma-se a exemplo, a codicao binria. O operador de mutao

padro simplesmente troca o valor de um gene em um cromossomo (Holland, 1992). Assim,
se um gene selecionado para mutao tem valor um, o seu valor passar a ser zero aps a
aplicao da mutao, e vice versa.
Nos problemas com codicao em ponto utuante, os operadores de mutao mais

populares so a mutao uniforme e a mutao gaussiana (Michalewicz e Schoenauer,
1996). O operador para mutao uniforme seleciona aleatoriamente um componente k
{1, 2, ..., n} do cromossomo x = [x1 , ..., xk , ..., xn ] e gera um indivduo x0 = [x1 , ..., x0k , ..., xn ],
onde x0k um nmero aleatrio (com distribuio de probabilidade uniforme) amostrado
no intervalo [LB, U B], onde LB e U B so, respectivamente, os limites inferior e superior
para o valor do alelo xk . No caso da mutao gaussiana, todos os componentes de um
cromossomo x = [x1 , ..., xk , ..., xn ] so modicados na forma:
x0 = x + N (0, ),
onde N (0, ) um vetor de variveis aleatrias gaussianas independentes, com mdia

zero e desvio padro . Outro operador de mutao, especialmente desenvolvido para
problemas de otimizao com restries e codicao em ponto utuante, a chamada
mutao no-uniforme, destinada a realizar pequenos ajustes necessrios para atingir a
soluo tima junto aos indivduos da populao. Este e outros exemplos de operadores de
mutao para problemas de otimizao numrica podem ser encontrados em Michalewicz
(1996) e em Michalewicz e Schoenauer (1996).
3.3.4 Seleo dos Indivduos
O AG proposto por Holland utiliza um mtodo de seleo de indivduos para a prxima

gerao chamado tcnica da roleta (Michalewicz, 1996). A tcnica da roleta atribui a cada
indivduo de uma populao uma probabilidade de passar para a prxima gerao que
proporcional ao tness do indivduo e somatria do tness de todos os indivduos
da populao. Assim, quanto maior o tness de um indivduo, maior a probabilidade
45
deste passar para a prxima gerao. Sendo assim, a seleo de indivduos pela tcnica
da roleta pode fazer com que o melhor indivduo da populao seja perdido, ou seja, no
passe para a prxima gerao. Uma alternativa escolher como soluo o melhor indivduo
encontrado em todas as geraes do algoritmo. Pode-se, tambm, manter sempre o melhor
indivduo da gerao atual na gerao seguinte, estratgia essa conhecida como seleo
elitista (Fogel, 1994; Michalewicz, 1996).
A literatura relata outros mecanismo de seleo, dentre essas destacam-se a baseada

em rank (Bck et al., 1997) e seleo por Torneio. A primeira estratgia utiliza as posi-
es dos indivduos ordenados de acordo com o tness para determinar a probabilidade
de seleo. Podem ser usados mapeamentos lineares ou no-lineares para determinar a
probabilidade de seleo. J a segunda, um nmero m de indivduos da populao esco-
lhido aleatoriamente para formar uma sub-populao temporria. Deste grupo, o melhor
indivduo selecionado. Assim, escolhe-se cada indivduo que ir compor o grupo de N
indivduos selecionados.
Os mecanismos de seleo tm sidos empregados, tambm, para determinar os indi-

vduos que iro sofrer crossover e mutao. O nmero de indivduos selecionados para
crossover pode ser bem menor que o total de indivduos da populao, indicando que s
alguns tero maior probabilidade de gerar descendentes em grande nmero.
3.4 Algoritmo Evolutivo Multi-objetivo
Os Algoritmos Evolutivo Multi-Objetivo (AEMO) tm sido aplicados para problemas

de otimizao multi-objetivo (Seo 3.1). O primeiro AEMO implementado foi proposto
por Schaer (1985) e foi denominado VEGA (Vector Evaluated Genetic Algorithm). Nesta
proposta Schaer prope uma modicao no AGs para avaliar cada objetivo separada-
mente. Um dos problemas do algoritmo proposto por Schaer que este no obtm boa
diversidade nas solues da fronteira de Pareto (Seo 3.1.1).
Goldberg (1989) cita um procedimento que ordena as solues baseado no conceito

de dominncia que fornece um valor de aptido para uma soluo proporcional ao n-
mero de solues que esta domina. Com isto, as solues no dominadas possuem maior
46
aptido e assim tero maior quantidade de cpias na lista de solues. Com o objetivo
de manter a diversidade das solues, Goldberg sugeriu a utilizao de um mtodo de
compartilhamento que calcula o nicho de cada soluo dentro da fronteira que a soluo
pertence. Com base nas idias iniciais de Goldberg foram ento propostos vrios modelos
de AEMOs.
O operador de seleo a principal diferena entre os AEs tradicionais e os AEMOs,

quando a comparao entre duas solues deve se realizar de acordo com o conceito de
dominncia de Pareto. A Tabela 3.1 sintetiza os principais modelos de AEMOs encon-
trados na literatura. Em algumas proposta, como MOGA e SPEA, o valor de aptido
proporcional dominncia da soluo. Em outros mtodos, como NPGA, utilizam a
dominncia Pareto e no calculam um valor de aptido.
Os modelos de AEMO so classicados por Deb (Deb, 2001) em dois tipos:
1. No elitistas: compreende os modelos que como o prprio nome indica, no utilizam

alguma forma de elitismo nas suas interaes.
2. Elitistas: compreende os modelos que empregam alguma forma de elitismo. Alguns

modelos, como SPEA-2 e PESA (Tabela 3.1), utilizam uma populao externa para
armazenar as solues no dominadas encontradas at o momento. Mtodos como
NSGA-II combinam a populao atual com a populao gerada e preserva as me-
lhores solues de ambas. Estudo realizado por Zitzler et al. (2000) conclui que o
elitismo melhora as solues encontradas por um modelo de AEMO.
A Tabela 3.1 apresenta os principais modelos de AEMO e seus autores.
Dentre os AEMOs, detalhar-se- na Seo 3.4.1 o modelo proposto para o NSGA-II,

em virtude da utilizao do mesmo neste trabalho. A escolha do NSGA-II se baseia em
dois aspectos:
1. Como relatado pela literatura, O NSGA-II o AEMO mais utilizado atualmente

em virtude de suas caractersticas.
2. O NSGA-II utiliza as fronteiras de Pareto, podendo se tornar ento insatisfatrio

seu emprego para problemas acima de trs objetivos.
47
Tabela 3.1: Alguns exemplos de modelos de AEMO.
Sigla Nome do Modelo Autores

VEGA Vector Evaluated Genetic Algorithm (Schaer, 1985)
WBGA Weight Based Genetic Algorithm (Hajela e Lin, 1992)
MOGA Multiple Objective Genetic Algorithm (Fonseca e Fleming, 1993)
NSGA Non-Dominated Sorting Genetic Algorithm (Srinivas e Deb, 1994)
NPGA Niched-Pareto Genetic Algorithm (Horn et al., 1994)
PPES Predator-Prey Evolution Strategy (Laumanns et al., 1998)
REMOEA Rudoph's Elitist Multi-Objective (Rudolph, 2001)
Evolutionay Algorithm
NSGA-II Elitist Non-Dominated Sorting Genetic (Deb et al., 2000)
Algorithm
SPEA, Strenght Pareto Evolutionary Algorithm 1 e 2 (Zitzler e Thiele, 1998),
SPEA-2 (Zitzler et al., 2001)
TGA Thermodynamical Genetic Algorithm (Kita et al., 1996)
PAES Pareto-Archived Evolutionary Strategy (Knowles e Corne, 1999)
MONGA-I, Multi-Objective Messy Genetic Algorithm (Veldhuizen, 1999)
MONGA-II
Micro-GA Multi-Objective Micro-Genetic Algorithm (Coello e Pulido, 2001)
PESA-I, PESA-II Pareto Envelope-Base Selection Algorithm (Corne et al., 2000),
(Corne et al., 2001)
RDGA Rank-Density-based Genetic Algorithm (Haiming e Gary, 2003)
GENMOP General Multi-objective Parallel Genetic Algorithm (Kleeman e Lamont, 2005)
Multi-Objective Genetic Algorithm
SDMOGA based on Objective Space Divided (Wangshu et al., 2006)
RJGGA Real-coding Jumping Gene Genetic Algorithm (Ripon et al., 2007)
3.4.1 Algoritmo NSGA-II
O algoritmo NSGA-II baseado em uma ordenao elitista por no-dominncia (Deb et al.,
2000). O NSGA-II, com a populao de indivduos pais P , gera a populao de indiv-
duos lhos Q como nos AEs convencionais. Na primeira iterao, gera-se uma populao
Pt , que ordenada por no-dominncia (Seo 3.1.1). Depois, aplicando os operadores
de seleo por torneio (Seo 3.3.4), cruzamento e mutao, obtm-se a populao de
indivduos lhos Qt . Tanto P como Q so de tamanho N .
Para o prximo passo, ambas as populaes so unidas em uma nova populao Rt =

S
Pt Qt , com |R| = 2N . Para as seguintes geraes, n = 1, 2, . . . , o algoritmo NSGA-II
trabalha com a populao Rt (Figura 3.2).
Obtida a populao Rt , realiza-se ento a ordenao por no-dominncia da mesma,

obtendo as fronteiras F1 , F2 , . . . e todos estes conjuntos so inseridos na nova populao
48
Pt+1 . Considerando que apenas N solues podem ser inseridas na populao Pt+1 , N
solues de Rt so descartadas. Para preencher as Pt+1 , comea-se com as solues em F1 ;
se no forem completadas as N solues, prossegue-se com F2 e, assim por diante. Cada
conjunto Fi deve ser inserido na sua totalidade em Pt+1 , isto ocorre quando |Pt+1 | + |Fi |
N . Quando ocorre o caso de ao inserir Fj a |Fj | > N |Pt+1 |, o algoritmo NSGA-II
seleciona as solues de Fj que estejam melhor diversicadas. A Figura 3.2 ilustra uma
iterao do algoritmo NSGA-II.
ordenao distncia
por dominncia de multido
F1
Pt F2 P t+1
Qt F3
Rt rejeitadas
Figura 3.2: Esquema do Modelo NSGA-II (Deb, 2001).
O algoritmo NSGA-II emprega um mtodo chamado de distncia de multido (Ver

Seo 3.4.2) (crowding distance ). Tendo obtidas as distncias, os conjuntos de solues
Fj so ordenados decrescentemente em relao s suas distncias, e copia-se as primeiras
N |Pt+1 | solues de Fj para Pt+1 . Finalmente, obtm-se Qt+1 a partir de Pt+1 usando
os operadores de seleo por torneio, crossover e mutao.
3.4.2 Distncia de Multido
A distncia de multido di de uma soluo i representa uma estimativa do permetro

formado pelo cubide cujos vrtices so os seus vizinhos. A Figura 3.3 apresenta a distn-
cia de multido para a soluo i. Quanto maior o cubide de i, mais afastada se encontra
a soluo i dos seus vizinhos. As solues extremas em cada objetivo, ou seja, a melhor e a
pior soluo em cada objetivo, tero um cubide innito. O procedimento para encontrar
a distncia de multido est descrito no Quadro, 3.2 onde Iim representa a i-sima soluo
na lista ordenada pelo objetivo m. I1m e Ilm so os elementos da lista com o menor e o
49
Im Im
maior valor para um objetivo m. fmi+1 e fmi1 so os valores dos vizinhos de i na m-sima
max
funo objetivo. Os fm min
e fm so parmetros dos limites mximo e mnimo em cada
objetivo. A Equao (3.1) garante que as solues mais afastadas tenham di maior do
que as mais prximas.
d0 =
f2
di
di+1
i-1
i
i+1 dN =
f1
Figura 3.3: Clculo da distncia de multido no NSGA-II (Deb, 2001).
Quadro 3.2 Clculo da distncia de multido no NSGA-II.

ALGORITMO Distncia Multido
// Fj : conjunto de solues na fronteira i
1. l denota o nmero de solues em Fj
2. Para cada soluo em F j atribui-se di = 0
3. Para cada funo objetivo m = 1, 2, . . . , M
Ordenar decrescentemente as solues por fm na lista I m
4. Para cada soluo extrema (mnimo e mximo) em cada um dos M objetivos
Fazer dI1m = dIlm =
5. Para as solues i = 2, . . . , l 1 calcular:
Im Im
fmi+1 fmi1
dIim = dIim + max min
(3.1)
fm fm
A forma como mantida a diversidade entre as solues no dominadas a principal

vantagem do NSGA-II. O mtodo de comparao por multido utilizado para a seleo
por torneio e para escolher os elementos da fronteira Fj (Deb, 2001). Se o conjunto F1
tem um tamanho maior que N , ser executado o processo de escolher apenas N solues,
pois utilizando a distncia de multido faz com que sejam perdidas algumas solues.
Seja um F1 onde existam vrias solues Pareto-timas muito prximas e alguma soluo
distante no Pareto-tima, mas no dominada no momento. Considerando que o cubide
da soluo no dominada maior, esta soluo ser copiada em Pt+1 enquanto que uma
soluo Pareto-tima eliminada. Esta situao faz com que o NSGA-II possa cair em
50
um ciclo de gerar solues Pareto-timas e no Pareto-timas at convergir nalmente a

um conjunto de solues Pareto-timas (Deb, 2001).
3.5 Lgica Fuzzy
Os sistemas Fuzzy (nebulosos), introduzido por Zadeh (1973), consistem em aproximar

o processo de deciso computacional da deciso humana. Ou seja, a deciso de uma
mquina no se resuma apenas um sim ou no, mas tambm tenham decises abstratas
do tipo "prximo de", "em torno de", "muito boa", etc (Pedrycz e Gomide, 1998).
As caractersticas de um sistema Fuzzy so as seguintes:
Expressa imprecises e incertezas.
Sistemas baseados em regras lingisticas.
Raciocnio executado de modo aproximado.
Concluses so obtidas de forma paralela.
Capacidade de aproximar sistemas no lineares complexos.
A grande diferena entre os conjuntos Fuzzy e os conjuntos Clssicos est na denio

da Funo de Incluso. Nos conjuntos Clssicos, ela indica se um determinado elemento
pertence ou no a determinado conjunto. J em conjuntos Fuzzy, ela exibilizada, ou
seja, os elementos podem pertencer parcialmente ao conjunto (Funo Pertinncia9 ).
3.5.1 Universo de Discurso
Universo de Discurso o conjunto de valores que denem o domnio das variveis de

Entrada e Sada. Como exemplo, na Figura 3.4 (Battistella e Cechin, 2004), ilustra-se
um sistema Fuzzy, tendo o universo de discurso X no intervalo [5, 5], sendo que F 1, F 2
e F 3 so os respectivos conjuntos fuzzy.
9 Ver Seo 3.5.2.

51
Figura 3.4: Exemplo do sistema Fuzzy utilizado em Battistella e Cechin (2004)
3.5.2 Funes de Pertinncia
A Funo de Pertinncia a funo que dene o grau de incluso de um determinado

elemento em um conjunto Fuzzy, considerando seu universo de discurso (Seo 3.5.1).
Formalmente, tem-se este mapeamento descrito em (3.2).
A(x) = x [0, 1]; x X (3.2)
onde A(x) retorna o grau de pertinncia do elemento x, referente ao universo de discurso

X , em relao ao conjunto fuzzy A. O grau de pertinncia um valor normalizado entre
0 e 1, ou seja, A(x) [0, 1] (Pedrycz e Gomide, 1998).
Como exemplo, considera-se a Figura 3.4 que denota trs conjuntos fuzzy : F1 , F2 e
F3 . Neste exemplo, verica-se que para x = 0, as funes F1 , F2 e F3 possui graus de
pertinncia 0, 1 e 0, respectivamente.
Os principais tipos de funes de pertinncia so: Funes Triangulares, Funes

Trapezoidais, Funes Gaussianas e Funes Sigmides.
Uma informao importante quando trabalhando com conjuntos fuzzy que mesmo
um elemento possuindo grau de pertinncia 1.0, no signica que este estar excluso dos
outros conjuntos fuzzy.
52
3.5.3 Operaes Fuzzy
As operaes bsicas em conjuntos fuzzy so as seguintes: Unio, Interseco e Com-

plemento. Estas operaes so geralmente denidas em funo dos operadores max () e
min(), os quais so anlogos aos operadores produto(.) e soma(+) da lgebra elementar.
A Unio entre dois conjuntos fuzzy A e B , pertencentes a um mesmo universo de

discurso X, formada pelos valores mximos entre A(x) e B(x) . Formalmente, tem-se:
A(x) B(x) = max (A(x) , B(x) ); x X (3.3)
A Interseco entre dois conjuntos fuzzy A e B , pertencentes a um mesmo universo de

discurso X, formada pelos valores mnimos entre A(x) e B(x) . Formalmente, tem-se:
A(x) B(x) = min(A(x) , B(x) ); x X (3.4)
O complemento de um conjunto fuzzy A normalizado, pertencente a um universo de

discurso X, formado pela subtrao de A(x) do valor unitrio {1}. Formalmente, tem-se:
A(x) = 1 A(x) ; x X (3.5)
H a operao de agregao que consiste em combinar um ou mais conjuntos fuzzy

visando a obteno de um nico conjunto fuzzy. Uma das aplicaes da agregao no
processo de defuzzicao que ser abordado na Seo 3.5.5.
Admitindo-se ento N conjuntos Fuzzy dados por {A1, A2, ..., An} denidos em um
mesmo universo de discurso X, ento a funo de pertinncia B(x) representando o con-
junto fuzzy B , o qual resultante da aplicao da agregao AGGR(.) sobre os elementos
de {A1, A2, ..., An}, dada por:
B(x) = AGGR(A1 (x ) , A2 (x ) , ..., An(x ) ); x X (3.6)
As condies necessrias para que uma funo seja classicada como funo de agre-
53
gao so:
1. A funo deve obedecer as condies de contorno denidas por:
AGGR(0 , 0 , 0 , 0 , ..., 0 ) = 0
AGGR(1 , 1 , 1 , 1 , ..., 1 ) = 1
2. A funo deve obedecer a condio de monotonicidade, ou seja:
AGGR(a1 , a2 , a3 , a4 , ..., an) AGGR(b1 , b2 , b3 , b4 , ..., bn)
Assim, verica-se que os operadores min e max so tambm classicados como funes
de agregao.
3.5.4 Inferncia Fuzzy
Os sistemas de inferncia fuzzy permite o tratamento de informaes incertas e im-

precisas, as quais so representadas por uma famlia de conjuntos fuzzy, possibilitando
modelar o sistema quando as informaes advindas so qualitativas. O processo de infe-
rncia fuzzy, ou raciocnio aproximado, permite o mapeamento do conhecimento a respeito
de um sistema utilizando regras fuzzy do tipo "se-ento". Tendo um conjunto nito dessas
regras se pode determinar, por intermdio da inferncia, o comportamento de variveis
de sada do sistema.
Considera-se que x e y so variveis lingisticas compostas, respectivamente, por um

conjunto de termos {A1, A2, ..., An} e {B1, B2, ..., Bn}, ento o objetivo do processo de
inferncia encontrar uma funo de pertinncia B 0 que representa a consequncia da apli-
cao simultnea de regras da forma "se (condio) ento (ao)". Assim, considerando
um fato observvel A', tem-se:
54
FATO: X A'
Regra1 : Se X A1 ENTO Y B 1
Regra2 : Se X A2 ENTO Y B 2
(...)
RegraN : Se X AN ENTO Y B N
_________________________
CONSEQNCIA: Y B'
Para duas variveis lingusticas x e y com valores A e B , respectivamente, a funo

de pertinncia AB(x,y) indicando o resultado da inferncia pode ser obtida atravs dos
seguintes operadores:
1. Mandani AB(x,y) = min(A(x) , B(y) )
2. Zadeh AB(x,y) = max (1 A(x) , min(A(x) , B(y) )
3. Larsen AB(x,y) = A(x) .B(y) )
4. Aritmtico AB(x,y) = min(1, 1 A(x) + B(y) )
5. Booleano AB(x,y) = min(1 A(x) , B(y) )
O resultado nal da inferncia uma regio fuzzy representativa da sada do processo.

Os passos para determinar tal regio fuzzy de sada so constitudos por:
1. Encontrar todas as regras fuzzy que estejam ativadas.
2. Determinar a sada fuzzy de cada uma das regras ativadas.
3. Combinar (Agregar) todas as sadas fuzzy calculadas no passo (2).
3.5.5 Processo de Defuzzicao
Para determinar uma regio fuzzy B ' advinda de todas as regras ativadas se deve
aplicar o operador de agregao (Seo 3.5.3) e, aps, usando um mtodo de defuzzicao,
obtem-se uma resposta no-fuzzy (crisp). Os principais mtodos de defuzzicao so os
seguintes:
55
PN
B 0 (V ) .Vk
1. Centro de rea : k=1
PN k
B 0 (V
, onde Vk a discretizao do universo de discurso.
k=1 k)
PM Vk
2. Mdia dos Mximos : k=1 M , onde M a quantidade de elementos que contm
graus de pertinncia mximos.
Assim, a resposta nal defuzzicada ser um valor numrico pertecente ao universo

de discurso da respectiva sada.
3.5.6 Sistema de Inferncia de Takagi-Sugeno
Desenvolvido por Takagi e Sugeno (1985), sendo que o principal diferenciador est no
fato de que a sua funo de pertinncia de sada pode ser tanto uma funo linear quanto
uma funo constante.
Uma regra tpica do sistema de inferncia de Takagi-Sugeno pode ser descrito como:
Se x A e y B ento C ax + ay + c
A metodologia de Takagi-Sugeno mais apropriada quando h disponibilidade de

informaes quantitativas sobre o processo (Cheng-Jian e Yong-Ji, 2005), sendo esse o
caso da aplicao abordada nesta dissertao.
3.6 Mtodo Evolutivo Multi-objetivo Fuzzy
A integrao de lgica Fuzzy e AE proporcionam a modelagem de problemas de oti-

mizao que possuem incertezas e informaes imprecisas. Segundo Alcal et al. (2004) o
grande sucesso dos sistemas Fuzzy deve-se a sua capacidade de incorporar a experincia do
conhecimento especialista, tendo por objetivo inferir na procura das melhores solues, e
o emprego de algoritmos evolutivos est em sua ampla utilizao, inclusive em problemas
de otimizao, incluindo-se o multi-objetivo.
Bonissone et al. (2002) aplicou tcnicas evolutivas para ajustar um sistema de deciso
Fuzzy, onde o mesmo automaticamente computa o risco de uma aplicao de seguros. J
56
em Voget e Kolonko (1998) apresentado um esquema de otimizao multi-objetivo em

que um sistema Fuzzy controla a regulao do processo de seleo e funo de tness. O
sistema gerencia, por exemplo, a taxa de mutao e o tamanho da populao.
O algoritmo FDD-GA (Fuzzy-Dominance-Driven GA), proposto em Koppen et al.

(2005), investigou a relao da fuzzicao da dominncia de Pareto e sua aplicao no
design dos AEMOs para os problemas de otimizao. Em tal estudo, utilizou o chamado
problema da Caixa de Pareto10 , o qual permitiu comprovar uma melhor performance
do algoritmo FDD-GA quando havia uma diminuio dos pontos dominados, sendo isto
em virtude do aumento da dimenso da referida caixa quando o mesmo comparado com
outros AEMOs inclusive o NSGA-II.
importante ressaltar a diferena entre a proposta apresentada em Koppen et al.

(2005) e esta dissertao. Neste trabalho, investiga-se a substituio das fronteiras de
Pareto por um sistema Fuzzy, enquanto que a outra abordagem, busca encontrar a melhor
soluo perante todas as outras, ou seja, encontrar o Pareto timo.
J em Gonzlez et al. (2006) proposto um AEMO para contribuir na reduo do erro

aproximado global de um sistema Fuzzy. Tal algoritmo uma modicao do NSGA-II
com novos operadores de mutao. Sendo assim, segundo a proposta de Gonzlez, torna-se
possvel modelar um sistema Fuzzy perante alguns dados de treinamento.
Um estudo de caso de uma companhia de exportao/importao, do sul da Espanha,

foi apresentado em Jimnez et al. (2006). Nesta pesquisa evidenciou o uso de AEMO
Fuzzy em virtude de sua complexidade.
Neste captulo foi abordado, teoricamente, as abordagens computacionais que sero

investigadas, alm de tratar sobre o problema de otimizao multi-objetivo como um todo.
Foi possvel evidenciar os aspectos do mtodo evolutivo multi-objetivo fuzzy, a qual

a metodologia proposta neste trabalho. Alm de uma breve reviso bibliogrca do
10 Do ingls, Pareto-Box problem.

57
assunto.
Alm disso, este captulo abordou a utilizao da metologia proposta por Takagi-
Sugeno, onde se evidencia uma melhor performace do sistema quando este possui infor-
maes quantitativas, sendo esta a situao apresentada nesta dissertao.
58
59
Captulo 4
Formulao do Algoritmo Hbrido

Multi-objetivo
A metodologia proposta consiste em desenvolver um algoritmo Hbrido multi-objetivo

e aplicar o mesmo no problema de predio de estruturas tercirias de protenas.
O algoritmo consistir de duas abordagens inteligentes: Evolutivo e Lgica Fuzzy. A

justicativa da utilizao da tcnica Evolutiva porque esta j vem sendo aplicada nos
problemas multi-objetivo onde o espao de busca complexo por possuir vrios objetivos.
Entretanto, a maioria dos algoritmos evolutivos multi-objetivo trabalham utilizando a
fronteira de Pareto, sendo que o uso da mesma pode se tornar insatisfatria quando o
problema possui mais que trs objetivos (Deb et al., 2006). A Lgica Fuzzy trabalhada
como um sistema de inferncia e adotada para contornar o problema da fronteira de
Pareto.
A maioria dos algoritmos evolutivos multi-objetivo que trabalham com fronteira de

Pareto, para melhorar a seleo dos indivduos da fronteira, tem que recorrer a alguma
outra informao (dado) para decidir quem so os melhores daquela fronteira. Com isso,
h um aumento de esforo computacional. Para trabalhar com esta informao adicional,
utilizam-se vrias abordagens, inclusive Fuzzy.
Tendo em vista este cenrio, espera-se do algoritmo proposto um esforo computacional

menor, alm de mapear intrinsecamente a informao que decide os melhores indivduos
60
sem a necessidade de trabalhar com a fronteira de Pareto, mas tendo o espao de busca
percorrido.
O procedimento de execuo do algoritmo proposto consiste de dois passos principais,

ou sejam:
1. Um AE executado com todos seus tness e operadores genticos.
2. Um sistema de inferncia contendo quatro conjuntos Fuzzy { muito boa, boa,

ruim, muito ruim } tem a misso de computar os indivduos mais adaptados.
O Quadro 4.1 descreve o algoritmo proposto:
Quadro 4.1 Pseudo-cdigo do algoritmo proposto.

ALGORITMO Proposto
// inicializa uma populao de n indivduos aleatoriamente
INICIA_POPULACAO(P (t));
AVALIA(P 0 );
// testa o critrio de trmino (por exemplo, um tempo t mximo ou um nvel de adaptao esperado)
ENQUANTO criterio nao atingido FACA
//Cada indivduo da populao P (t) ser avaliado em um sistema Fuzzy
P1 (t)0 := SISTEMA_FUZZY(P (t));
// obtm uma nova populao privilegiando os indivduos mais adaptados segundo a sada do sistema
Fuzzy
P 0 := SELECIONA_INDIVDUOS(P1 (t)0 );
// aplica crossover sobre os indivduos selecionados
APLICA_CROSSOVER(P 0 );
// perturba estocasticamente os indivduos da populao que recombinou
APLICA_MUTA(P 0 );
AVALIA(P 0 );
// seleciona os sobreviventes entre os indivduos de P (t) e P 0
P (t + 1) := SOBREVIVENTES(P (t),P 0 );
FIM
Analisando o Quadro 4.1, observa-se que o mesmo se assemelha com o AG tpico,

exceto pela incluso do procedimento SISTEMA_FUZZY(). Esta exceo ser detalhada
na prxima seo.
Como o algoritmo proposto contribuir para a seleo dos indivduos mais adaptados
do AE, os operadores genticos dependero do AE utilizado.
Assumindo as metas de otimizao multi-objetivo assinalada por Deb (2001), no que

diz respeito diversidade, o algoritmo, aps ordenar os indivduos por ordem crescente
61
de acordo com a defuzzicao, utilizar um epsilon () que ter a nalidade de ltrar

valores muito prximos, ou seja, se a diferena entre dois indivduos for menor que ,
ento apenas o indivduo que apresentar maior valor ser selecionado. Assim, espera-se,
mapear melhor o espao de busca, pois valores muito prximos, tendem, no garantir boa
diversidade.
4.1 Sistema Fuzzy Proposto
Conforme mencionado anteriormente, o sistema Fuzzy proposto visa substituir a fron-

teira de Pareto para os problemas multi-objetivo.
Para cada indivduo ser calculado seus tness. Com estes valores, o sistema fuzzy
ser capaz de ordenar as melhores solues em ordem crescente, como ocorre no NSGA-II,
por exemplo. Mas a diferena que com a inferncia fuzzy torna-se mais fcil visualizar
quais so as melhores solues e, por intermdio de um nico parmetro (defuzzicao),
obtem-se toda a aptido do indivduo. Assim, possvel, aps a defuzzicao, trabalhar
o AE como se fosse um mono-objetivo, ou seja, a ordenao realizar-se- em relao a
um nico valor para cada indivduo da populao. Isto se torna importante, pois no
h a necessidade de dividir a populao em fronteiras e, para cada fronteira, atravs da
distncia da multido1 se obtem seus melhores indivduos, sendo esta a forma como o
NSGA-II trabalha. Tal estratgia, como j citado2 , pode se tornar inapropriada para
problemas com mais de trs objetivos.
Assim, a operao do sistema fuzzy formulado pode ser resumido em cinco passos
principais conforme explicitado a seguir:
1. Normalizao dos tness dos indivduos no universo de discurso min(0 ) e o max (1 ).
2. Gerao dos quatro conjuntos fuzzy conforme citado anteriormente.
3. Obteno do valor do grau de pertinncia de cada tness.
1 Ver seo 3.4.2.

2 Ver Deb et al. (2006).
62
4. Aplicao das regras fuzzy (Inferncia).
5. Aquisio do valor de defuzzicao.
O Passo 1 responsvel em normalizar os tness para o domnio [0, 1], tendo como
propsito converter os mesmos para uma mesma base de comparao.
A Gerao dos quatro conjuntos fuzzy (Passo 2) se refere aos procedimentos que visam
ajustar as funes de pertinncia dos mesmos.
A seguir, no Passo 3, ser obtido o grau de pertinncia de cada tness.
O Passo 4 consiste de detectar quais termos das funes fuzzy foram ativados pelos
tness. O tness que possuir o grau de pertinncia diferente de zero implicar na ativao
das regras fuzzy. Tendo as funes de ativao de cada tness, verica-se ento quais das
regras Fuzzy foram ativadas.
Aps computada a regio fuzzy advinda da contribuio de cada regra ativada (Passo
5) ocorrer-se- ento a defuzzicao. Com este valor se tem a importncia de cada
indivduo perante toda a aplicao, pois, obtem-se o valor de defuzzicao em relao a
todos os objetivos do problema investigado. Tal valor ser denominado neste trabalho de
Autoridade de Aptido , tendo como propsito quanticar o nvel de dominncia de um
indivduo perante os demais.
Visto que a utilizao do uso da fronteira de Pareto em problemas multi-objetivo

contendo mais que trs objetivos pode se tornar inapropriado, ser mostrado a seguir,
para ns ilustrativos, o uso do algoritmo proposto em um problema hipottico com trs
objetivos.
O grco da Figura 4.1 uma representao dos quatro conjuntos fuzzy j citados.
Cada funo triangular do grco representa, respectivamente, os conjuntos fuzzy { muito
boa (1), boa (2), ruim (3), muito ruim (4)}.
Como exemplo demonstrativo, considera-se um tness (normalizado) sendo represen-

tado por f1 = 0.6, f2 = 0.1 e f3 = 0.7. A Figura 4.2 ilustra os conjuntos fuzzy ativados
com os valores de cada tness.
A inferncia dar-se- utilizando as regras fuzzy conforme o Quadro 4.2 e utilizando

63
Figura 4.1: Uma representao dos conjuntos fuzzy.
Figura 4.2: Funes fuzzy ativadas pelos tness.
para tanto o operador de implicao Mandani (Seo 3.5.4). A Figura 4.3 ilustra todo o
Quadro 4.2 Exemplo das regras fuzzy
R1: se F1 = 3 e F2 = 1 e F3 = 3 ento R = 3
R2: se F1 = 3 e F2 = 1 e F3 = 4 ento R = 4
R3: se F1 = 2 e F2 = 1 e F3 = 3 ento R = 3
R4: se F1 = 2 e F2 = 1 e F3 = 4 ento R = 3
R5: se F1 = 1 e F2 = 1 e F3 = 1 ento R = 1
R6: se F1 = 1 e F2 = 2 e F3 = 1 ento R = 2
R7: se F1 = 2 e F2 = 3 e F3 = 4 ento R = 3
R8: se F1 = 2 e F2 = 3 e F3 = 1 ento R = 3
R9: se F1 = 4 e F2 = 4 e F3 = 1 ento R = 4
processo de inferncia fuzzy utilizando o conjunto de regras fuzzy especicados no Quadro

4.2 e tendo como entrada os valores dos tness j citados. A Figura 4.4 evidencia a regio
resultante advinda da agregao das regies fuzzy implicadas a partir das regras ativadas
(Figura 4.3).
Para obter a Autoridade de Aptido, considerando as regras ativadas na Figura 4.3,

basta defuzzicar a regio fuzzy representada na Figura 4.4 conforme os mtodos descritos
na Seo 3.5.5. Assim, por intemdio do valor defuzzicado ento possvel ordenar os
indivduos por ordem de "autoridade".
64
Figura 4.3: Processo da Inferncia fuzzy
Figura 4.4: Regio fuzzy de sada
Em relao diversidade para os problemas multi-objetivo, a Tabela 4.1 ilustra o

comportamento do algoritmo no tratamento da mesma, sendo o valor adotado para foi
de 0.03. Pode-se concluir que somente sero selecionados os indivduos que no forem
similar. Ento, considerando os valores apresentados na Tabela 4.1, conclui-se assim que
sero selecionados somente os indivduos do seguinte conjunto {1, 4, 5, 6, 8 e 9}.
65
Tabela 4.1: Valores hipotticos de Autoridade de Aptido.

Indivduos Autoridade Similar Selecionado
1 0.555
2 0.554
3 0.552
4 0.489
5 0.455
6 0.345
7 0.342
8 0.333
9 0.288
Neste captulo foi possvel descrever de forma resumida o mtodo proposto e propor-
cionar o cenrio de aplicao para este algoritmo. Deve ser ressaltado que a aplicabilidade
do algoritmo proposto no se resume apenas no problema de predio de estrutura terci-
ria. A escolha de tal problema est em virtude da grande relevncia que o mesmo assume
na literatura correlata.
Sendo o NSGA-II o AEMO mais utilizado na literatura, observa-se que o mesmo utiliza
a fronteira de Pareto, a qual pode se tornar inapropriada para problemas com mais de trs
objetivos. Neste caso, o sistema fuzzy desenvolvido pode ser uma alternativa promissora
utilizao de fronteira de Pareto, substituindo as mesmas em tais situaes.
Os resultados da aplicao do algoritmo proposto no problema de predio de estrutura

terciria de protenas ser apresentado na prxima seo.
66
67
Captulo 5
Resultados da Aplicao do Algoritmo

Proposto na Predio de Estrutura
Terciria de Protenas
O algoritmo hbrido multi-objetivo proposto no captulo anterior ser utilizado no

presente captulo para predizer a estrutura terciria de protenas. Neste caso, o algoritmo
proposto utiliza a modelagem por homologia, pois para predizer a estrutura terciria da
protena, o mesmo necessita ter um conhecimento prvio (treinamento) de uma protena
similar protena que se deseja predizer.
Esta abordagem torna-se relevante uma vez que nos banco de dados de protenas, tal
como o PDB, j h um nmero considervel de protenas em que pode ser homloga (si-
milar) protena que se deseja conhecer sua estrutura terciria. Em relao ao sistema
fuzzy, o ajuste dos termos das funes de pertinncia foi efetuado de forma automtica
a partir do uso da tcnica ANFIS, sendo a mesma baseada no mtodo de Takagi-Sugeno
(Seo 3.5.6). Os detalhes envolvidos com a tcnica ANFIS so destacados no Apndice
A. Torna-se importante destacar que, em virtude de ser possvel obter informaes quan-
titativas sobre o relacionamento entrada/sada do processo, o sistema fuzzy pode ento
ser sintonizado automaticamente pela aplicao da tcnica ANFIS, melhorando assim o
desempenho do mesmo.
68
Em razo do mtodo proposto ser um evolutivo Fuzzy, a funo de avaliao utilizada

pelo algoritmo evolutivo ser detalhada na Seo 5.1.
A Seo 5.2 elucida o processo de treinamento do sistema fuzzy. J a Seo 5.3

abordar quais foram as protenas escolhidas para a comprovao do algoritmo proposto,
sendo que os resultados providos pelo mesmo sero apresentados na Seo 5.4.
5.1 Funo de Avaliao
A funo de avaliao consiste das funes de energia que foram discutidas na Seo
2.8.
Em virtude de no haver uma funo de avaliao para o DEP se torna possvel

modelar sua prpria funo de avaliao. Sendo assim, tais funes de energia foram
separadas para dois casos de testes: um para o problema com trs objetivos e a outra
para o problema com quatro objetivos. Para uma melhor compreenso, a Tabela 5.1
ilustra o relacionamento entre funo energia e seu smbolo que a representar a partir
deste ponto.
Tabela 5.1: Funes de Energia e seu smbolo para representar na Funo de Avaliao.
Funo Energia Smbolo
Comprimento de Ligao Ebonds
ngulo de Torso Etors
Urey-Bradley Eurey
Imprpria Eimpro
Van der Waals Evdw
Eletrosttica ou de Carga Echarge
Os trs tness utilizados no AE com trs objetivos esto representados a seguir.
A primeira funo objetivo do AE com trs objetivos denotada por F1 obj3 , composta
somente pelo potencial de energia de Van der Waals, ou seja:
F1 obj3 = Evdw (5.1)

69
O somatrio das energias, o qual constitudo por Comprimento de Ligao, ngulo

de Torso, Urey-Bradley e Imprpria se referem segunda funo objetivo do AE com
trs objetivos, sendo ento denotada por F2 obj3 , ou seja:
F2 obj3 = Ebonds + Etors + Eurey + Eimpro (5.2)
Finalmente, a terceira funo objetivo do mesmo AE se caracteriza somente pela

energia Eletrosttica e sua representao dada por F3 obj3 , ou seja:
F3 obj3 = Echarge (5.3)
Tendo a funo de avaliao do AE com trs objetivos descrita acima, a seguir ser
apresentado os quatro tness (objetivos) utilizados no AE com quatro funes objetivos.
denotado por F1 obj4 a primeira funo objetivo do AE com quatro objetivos, sendo
a mesma composta somente pelo potencial de energia Van der Waals, ou seja:
F1 obj4 = Evdw (5.4)
A segunda funo objetivo do AE com quatro objetivos composta pela energia Com-
primento de Ligao e denotada por F2 obj4 , ou seja:
F2 obj4 = Ebonds (5.5)
J a terceira funo objetivo deste mesmo AE composta pela energia Eletrosttica,

sendo ento denotada por F3 obj4 , ou seja:
F3 obj4 = Echarge (5.6)
A quarta e ltima funo objetivo do AE com quatro objetivos composta pelo so-
matrio das energias: ngulo de Torso, Urey-Bradley e Imprpria, o qual denotado
70
por F4 obj4 , ou seja:

F4 obj4 = Etors + Eurey + Eimpro (5.7)
5.2 Processo de Treinamento do Algoritmo Proposto
O processo de treinamento do algoritmo fuzzy proposto consiste do ajuste das funes

de pertinncia e do clculo do valor de defuzzicao dos quatro conjuntos Fuzzy proposto
e consistiu em duas etapas, conforme apresentado a seguir.
5.2.1 Primeira Etapa
A primeira etapa consistiu da gerao de padres de treinamento entrada/sada vi-

sando o ajuste das quatro funes de pertinncia (Muito Boa, Boa, Ruim e Muito Ruim)
de forma automtica. Neste caso, utilizou-se a tcnica ANFIS1 para ajustar de forma
automtica tais funes de pertinncia.
Para calcular a sada desejada do ANFIS, h a necessidade de se conhecer o valor de

cada uma das energias apresentadas na Tabela 5.1 advindas de uma protena determinada
no PDB. A representao de suas respectivas energias determinadas no PDB de forma
similar a Tabela 5.1, tendo apenas o acrscimo, ao seu nal, da palavara D et. Toma-
se como exemplo o potencial de Van der Waals, sendo que de acordo com a Tabela 5.1
sua representao Evdw , ento a representao deste potencial determinado no PDB
denotado por EvdwD et .
A sada desejada para a tcnica ANFIS foi obtida de duas maneiras, sendo elas uma
para o caso com trs objetivos e uma outra para o caso com quatro objetivos. A seguir,
apresentada cada uma de tais sadas.
A sada desejada do ANFIS com trs objetivos denotada por Dobj3 , sendo composta
pelos tness do AE com trs funes objetivos apresentadas na Seo 5.1 e os valores
de energia (representados na Tabela 5.1) da protena determinda no PDB. Em relao
segunda funo objetivo, sendo constituda de um somatrio de energias, houve ento a
1 Maiores detalhes sobre a tcnica ANFIS apresentada no Apndice A.

71
necessidade de se obter um termo onde tambm houvesse o somatrio das mesmas energias
apresentadas neste tness. Sendo assim, tal somatrio representado por Soma1D et e
constitudo pelas energias: Comprimento de Ligao, ngulo de Torso, Urey-Bradley
e Imprpria da protina determinada no PDB. A seguir, apresentada a sada desejada
para a tcnica ANFIS no caso com trs funes objetivos, ou seja:
Dobj3 = (F1 obj3 EvdwD et ) + (F2 obj3 Soma1D et) + (F3 obj3 EchargeD et ) (5.8)
nalidade de tal sada obter o quo distante est a protena que se deseja predizer
em relao protena determinada no PDB. Para um melhor entendimento, toma-se a
exemplo, o tness F3 obj3 composto somente pela energia eletrosttica. O mesmo ser
subtrado com a energia eletrosttica da protena determinada no PDB (EchargeD et ) e o
valor desta subtrao a sua contribuio para a sada desejada. O mesmo procedimento
ocorre com os outros termos desta sada.
J para a sada desejada da tcnica ANFIS com quatro objetivos, denotada por Dobj4 ,
a sua composio a mesma que a sada desejada com trs objetivos (Dobj3 ). A diferena
ento a quantidade de termos, pois uma trata com trs e a outra com quatro termos. A
sada desejada com quatro tness composta pelas funes objetivos do AE com quatro
objetivos apresentadas na Seo 5.1 e os valores de energia (representados na Tabela 5.1)
da protena determinada no PDB. Como ocorrido na sada anterior, houve a necessidade
de um termo onde representasse o somatrio das energias determinadas no PDB. Neste
caso, o somatrio denotado por Soma2D et sendo constitudo pelas energias: ngulo de
Torso, Urey-Bradley e Imprpria da protina determinada. Assim, apresentada a sada
desejada para a tcnica ANFIS para o caso com quatro funes objetivos, ou seja:
Dobj4 = (F1 obj4 EvdwD et )+(F2 obj4 EbondsD et )+(F3 obj4 EchargeD et )+(F4 obj4 Soma2D et)
(5.9)
A sada com quatro termos possui a mesma nalidade que a sada desejada com trs
objetivos conforme j foi elucidado.
Para a executar a tcnica ANFIS no Matlab, necessrio determinar alguns par-

72
metros, os quais so detalhados no Apndice A. Foi possvel obter os valores destes

parmetros aps a realizao de testes e anlises com valores empricos dos referidos pa-
rmetros, assim ento, possvel informar quais parmetros e seus respectivos valores,
ou seja: o parmetro nmero de pocas teve como valor 8, j o parmetro tolerncia de
erros teve como valor 0.006 e, nalmente, o algoritmo hbrido foi o utilizado no parmetro
mtodo de otimizao.
Finalizada a execuo da tcnica ANFIS para os dois casos, torna-se ento possvel
vericar as informaes geradas, tais como o nmero de regras obtidas em cada um dos
conjuntos de teste, alm de ilustrar o ajuste das funes de pertinncia. O nmero de
regras de cada um dos conjuntos de teste ilustrado na Tabela 5.2. J o ajuste das
funes de pertinncia apresentado na Figura 5.1.
Tabela 5.2: Quantidade de Regras Fuzzy para cada treinamento.

Nmero Objetivos Quantidade de Regras
3 64
4 256
Figura 5.1: Representao dos quatro conjuntos Fuzzy proposto ajustado pelo ANFIS.
importante ressaltar dois aspectos vericados nas simulaes realizadas neste tra-
balho que so referentes a Figura 5.1, pois se torna importante um bom entendimento da
mesma para a compreenso desta dissertao, ou seja:
1. Utilizao da funo Triangular evidenciou um bom desempenho computacional,

73
pois alm de se conseguir um bom mapeamento uma funo bem mais simples
quando comparada com uma funo Gaussiana, por exemplo.
2. Aplicao deste mesmo processo de ajuste das funes de pertinncia ocorreu nos
dois casos, ou seja, tanto com trs quanto com quatro termos. Uma justicativa
plausvel se deve ao fato da normalizao do universo de discurso conforme apresen-
tado na Seo 4.1, ressaltando ainda que a diferena entre os dois casos, em suma,
a decomposio do segundo termo da Dobj3 resultando no segundo termo da Dobj4 ,
ou seja, no apresenta uma mudana a ponto de justicar um ajuste diferente entre
os dois casos.
5.2.2 Segunda Etapa
Esta fase se constituiu aps o ajuste do ANFIS, pois h a possibilidade de gerar a

defuzzicao de forma direta visando obter automaticamente a Autoridade de aptido,
ou seja, a importncia do indivduo, possibilitando ento uma avaliao do mesmo
perante todos os outros indivduos. Portanto, uma seleo dos indivduos para a prxima
gerao.
Por intermdio do toolbox Fuzzy do Matlab, torna-se possvel gerar um arquivo texto
contendo as entradas do sistema Fuzzy e seu valor defuzzicado. Com tal arquivo, torna-se
ento, tambm possvel, obter uma matriz que pode ser integrada diretamente ao restante
do processo.
Tendo como objetivo uma justicativa plausvel ao emprego de um sistema Fuzzy,

analisou-se alguns relacionamentos entre as entradas com sua respectiva sada em cada
um dos casos.
Para o primeiro caso, ou seja, com trs funes objetivos (trs entradas) foram ana-
lisados dois relacionamentos de entrada com a sua respectiva sada (Dobj3 ), os quais so
representados, respectivamente, pelas Figuras 5.2 e 5.3, as quais sero discutidas a seguir.
A Figura 5.2 ilustra o relacionamento entre a primeira entrada (F1 obj3 ) com a segunda
entrada (F2 obj3 ) e sua respectiva sada. notvel a visualizao de uma superfcie no
linear, demonstrando ento o comportamento no-linear entre as entradas e sua respectiva
74
sada.
Figura 5.2: Superfcie entre os tness F1 obj3 e F3 obj3 para o caso com trs objetivos.
J a Figura 5.3 evidencia o interelacionamento entre a segunda e a terceira entrada,

ou seja, respectivamente F2 obj3 e F3 obj3 . Como na situao anterior, tambm possvel
visualizar uma superfcie no linear.
Figura 5.3: Superfcie entre os tness F2 obj3 e F3 obj3 para o caso com trs objetivos.
Para o segundo caso, ou seja, com quatro entradas, foram realizadas trs relaciona-
mentos os quais esto apresentados, respectivamente, nas Figuras 5.4, 5.5 e 5.6, e sero
detalhadas a seguir.
75
O primeiro relacionamento consiste nas entradas: primeira (F1 obj2 ) e segunda (F2 obj4 ).
A sada, neste caso, a sada desejada j apresentada para o caso contendo quatro ob-
jetivos que foi denotada por Dobj4 . Em tal relacionamento, tambm observvel uma
superfcie no linear.
Figura 5.4: Superfcie entre os tness F1 obj4 e F2 obj4 para o caso com quatro objetivos.
O segundo relacionamento evidencia o comportamento entre as funes objetivos

F2 obj4 e F3 obj4 , ou seja, respectivamente segunda e terceira entrada para o caso com
quatro entradas. Mais que notvel, outra vez, uma superfcie no linear obtida, de-
monstrando parte da complexidade envolvida no relacionamento entrada/sada.
76
Por m, o relacionamento entre as entradas do segundo caso composto por: terceira
(F3 obj4 ) e quarta (F4 obj4 ) entrada. A superfcie de sada uma superfcie no linear.
Assim, tendo apresentado alguns dos possveis relacionamentos entre as entradas e a

sada nos dois casos, torna-se notvel, em todos os casos de relacionamentos, a evidncia
de uma superfcie bem no linear. Tal evidncia corrobora a empregabilidade, ento, da
lgica Fuzzy, como uma ferramenta especialista no mapeamento de sistemas no-lineares
justicando tambm a sua aplicabilidade neste tipo de problema.
5.3 Protenas Alvo
A protena utilizada para o processo de treinamento foi a 1CRN. Para o processo de

predio (validao), foram utilizadas as protenas 1JXT e 1AB1. A Tabela 5.3 representa
a sequncia de aminocidos de cada uma das protenas para evidenciar sua similaridade.
Tabela 5.3: Estrutura primria das protenas preditas e a utilizada no treinamento.

Protena Estrutura Primria
1AB1 TTCCPSIVARSNFNVCRLPGTSEAICATYTGCIIIPGATCPGDYAN
1JXT TTCCPSIVARSNFNVCRLPGTPEALCATYTGCIIIPGATCPGDYAN
1CRN TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
77
Sendo as protenas 1AB1 e 1JXT similares a 1CRN, h a necessidade, ento, de apre-

sentar quais resduos se diferem da protena 1CRN. Estes resduos esto ilustrados na
Tabela 5.3 e foram escritos em negrito com a nalidade de, mesmo que visualmente,
diferenci-los dos demais. Nota-se, ento, um alto grau de similaridade entre as protenas
1AB1 e 1JXT com a protena 1CRN.
5.4 Resultados
Foram executados com as protenas 1JXT e 1AB1 dois casos de testes: primeiro com
trs objetivos e um outro com quatro objetivos. Nestes dois casos, foram utilizados o
AEMO implementado em de Lima (2006)2 , sendo o mesmo referenciado a partir daqui
somente de AEMO, e o algoritmo proposto nesta dissertao.
Em cada execuo, todos realizados na mesma mquina, foram consideradas 100 gera-
es e 200 indivduos tanto para o AEMO quanto para o algoritmo proposto. Os resultados
representam os melhores indivduos de cada caso de execuo.
Os parmetros utilizados para o clculo das energias foram os mesmos utilizados em

de Lima (2006), exceto a constante eltrica cujo valor foi modicado para 1.
Para avaliar o resultado do processo de predio da estrutura terciria foi utilizado

o critrio de matriz de distncia (DME )3 entre suas coordenadas, pois DM E verica
a similariade do enovelamento entre as estruturas real e predita. Seja X a matriz das
distncias da estrutura conhecida, onde Xi,j a distncia do tomo i ao tomo j na
estrutura, e Y a matriz das distncias da estrutura predita, onde Yi,j a distncia do
tomo i ao tomo j na estrutura predita. DM E denido como a mdia da diferena
das matrizes de distncia X e Y , ou seja:
v
u Pn1 Pn
u i=1 j=i+1 (Xi,j Yi,j )2
DM E = t n(n1)
(5.10)
2
onde n o nmero total de tomos da estrutura. Portanto, quanto mais baixo for o valor
2 Verso em 22/01/2007.
3 DM E , do ingls Distance Matrix Error.
78
do DM E mais exata a predio da estrutura terciria da protena.
Os valores do clculo do DM E para as protenas 1AB1 e 1JXT em relao s suas

respectivas protenas reais so apresentadas a seguir.
A Tabela 5.4 ilustra, respectivamente, o valor do DM E do AEMO e do algoritmo

proposto para o caso de execuo contendo trs objetivos. Em tal tabela, nota-se que
mesmo no caso com trs objetivos o algoritmo proposto conseguiu um bom desempenho.
Esta informao torna-se relevante uma vez que com at trs objetivos, conforme relata a
literatura, as fronteiras de Pareto conseguem obter resultados satisfatrios. Tendo ento o
algoritmo proposto tambm obtido bons resultados, evidencia-se portanto uma estratgia
alternativa s fronteiras de Pareto.
Tabela 5.4: DM E entre as protenas no teste com trs objetivos.

Algoritmo 1JXT 1AB1
AEMO 6.41 15.88
Proposto 12.25 8.03
J os valores do DM E para o segundo caso, ou seja, comparado AEMO e o algoritmo

proposto com quatro objetivos, so apresentados na Tabela 5.5. possvel notar em
tal tabela que o DM E apresentado pelo algoritmo proposto menor do que o AEMO,
ou seja, conseguiu predizer melhor as protenas 1JXT e 1AB1. Sendo assim, torna-se
possvel comprovar o relato da literatura onde se constata que tais fronteiras (acima de
trs objetivos) pode no conseguir alcanar um bom mapeamento, obtendo portanto,
resultados insatisfatrios.
Tabela 5.5: DM E entre as protenas no teste com quatro objetivos.

Algoritmo 1JXT 1AB1
AEMO 18.65 14.68
Proposto 8.65 13.13
Vale ressaltar que o algoritmo proposto conseguiu generalizar o comportamento do

processo, pois o sistema Fuzzy desenvolvido, conforme apresentado na Seo 5.2, foi trei-
79
nado com as informaes da protena 1CRN e foi capaz de predizer a estrutura terciria
de duas outras protenas: a 1JXT e a 1AB1. Mesmo que as protenas sejam similares e
possuem estruturas bem parecidas, todas elas apresentam caractersticas nicas, as quais
foram possveis de se mapear.
Um aspecto importante se deve aos valores do DME das protenas 1JXT e 1AB1.
Observando as Tabelas 5.4 e 5.5, para o algoritmo proposto, evidencia a situao onde
para o caso de teste com a protena 1JXT foi apresentado um valor de DME maior
considerando trs objetivos, constratando com o seu caso de quatro objetivos. Entretanto,
para a protena 1AB1 se verica o inverso. Este fato, deve-se primeira fase do processo
de treinamento do algoritmo proposto, uma vez que esta etapa consiste da gerao de
padres de treinamento, havendo assim um melhor mapeamento de tais padres em cada
uma das protenas.
Alm dos valores do DM E , foi tambm avaliado o custo (esforo) computacional.

Torna-se relevante apresentar uma comparao do custo computacional, conforme relatado
pela literatura, quando se est investigando a aplicabilidade de diferentes algoritmos,
sendo tambm este um dos objetivos do trabalho proposto. Tal custo evidencia o tempo
em que foi utilizado para executar o algoritmo por completo, ou seja, o tempo em que
o computador levou para executar (processar) o algoritmo desde o seu incio at o seu
trmino. Neste trabalho adotou-se a unidade segundos para medir o custo computacional.
Os valores do esforo computacional obtidos pelo AEMO e pelo algoritmo proposto esto
apresentados a seguir.
A Tabela 5.6 ilustra o custo computacional com trs objetivos do AEMO e do algoritmo
proposto.
Tabela 5.6: Custo computacional entre as protenas no teste com trs objetivos.
Algoritmo 1JXT 1AB1
AEMO 907.40 855.88
Proposto 778.69 758.24
J para o caso de teste com quatro objetivos, os valores do custo computacional

referentes ao AEMO e ao algoritmo proposto esto apresentados na Tabela 5.7.
80
Tabela 5.7: Custo computacional entre as protenas no teste com quatro objetivos.
Algoritmo 1JXT 1AB1
AEMO 806.32 934.20
Proposto 869.94 909.44
Observando as Tabelas 5.6 e 5.7, nota-se, mesmo com trs objetivos, o custo compu-
tacional do algoritmo proposto foi menor em todos os casos, exceto em um nico caso
contendo quatro objetivos. Uma justicativa plausvel para o bom desempenho do al-
goritmo proposto se deve ao fato da funo de pertinncia do sistema Fuzzy ser uma
funo Triangular, j que tal funo possui como caracterstica, a simplicidade de exe-
cuo quando comparada com o clculo da distncia de multido, conforme apresentada
na Seo 3.4.2, a qual empregada pelo AEMO para diversicar os indivduos da tal
fronteira. J uma razo relacionada nica exceo mostrada, pode ser atribudo ao fato
de que, neste caso, o algoritmo proposto conseguiu uma varredura mais detalhada no
espao de busca. Um fator que contribui para tal justicativa o fato de ser esse mesmo
caso onde conseguiu obter uma melhor predio, considerando somente, a situao com
quatro objetivos.
Um aspecto relevante a ser apresentado se deve ao fato onde h o emprego de tcnicas

na qual se exige um processo de treinamento. Nesta situao, no h necessidade de
adicionar ao valor do custo computacional do algoritmo, o esforo (tempo) decorrido do
processo de treinamento.
Finalmente, a seguir, torna-se possvel uma comparao visual das protenas j citadas
na sua forma nativa e predita em todos os casos de testes realizados.
A Figura 5.7 representa a estrutura predita pelo AEMO e pelo algoritmo proposto,
ambos referentes ao caso com trs objetivos da protena 1JXT, juntamente com a estrutura
terciria nativa da referida protena. possvel notar na Figura 5.7(a) uma melhor
predio da estrutura terciria quando a mesma comparada com a predio realizada
pelo algoritmo proposto (Figura 5.7(c)), resultado este j esperado conforme a Tabela
5.4, pois o AEMO apresentou um valor de DM E menor. possvel tambm observar
que ambas as estruturas preditas pelos algoritmos apresentam algumas partes similares
81
estrutura nativa da protena (Figura 5.7(b)), evidenciando assim, que ambos algoritmos
apresentaram resultados relevantes.
(a) Estrutura Predita pelo AEMO. (b) Estrutura Na-

tiva.
(c) Estrutura Predita pelo algoritmo pro-

posto.
Figura 5.7: Estruturas tercirias da protena 1JXT com trs objetivos.
J a Figura 5.8 ilustra a estrutura predita pelas abordagens AEMO e pelo algoritmo
proposto para o mesmo caso de teste, ou seja, com trs objetivos. Mas, neste caso, a
estrutura referente protena 1AB1. Assim sendo, a Figura 5.8(a) representa a estrutura
terciria da protena 1AB1 predita pelo AEMO. A estrutura desta mesma protena predita
pelo algoritmo proposto ca evidenciado na Figura 5.8(c) e a sua estrutura nativa
apresentado na Figura 5.8(b). possvel observar que a melhor predio da estrutura
pertence quem obteve um valor de DM E menor e, conforme apresentado na Tabela 5.4,
o algoritmo proposto apresenta um valor de DM E menor. A mesma relevncia atribuda
ao resultado da predio da protena 1JXT se pode atribuir ao resultado da protena
1AB1, pois, tambm, se conseguiu partes similares da protena 1AB1 preditas por ambos
82
algoritmos quando a mesma comparada sua estrutura nativa.

tiva.

posto.
Figura 5.8: Estruturas tercirias da protena 1AB1 com trs objetivos.
Em seguida, a predio realizada no caso de teste com quatro objetivos da protena

1JXT apresentada na Figura 5.9. Torna-se, ento, possvel visualizar a Figura 5.9(a)
como sendo a estrutura predita pelo AEMO, a Figura 5.9(c) representando a estrutura
predita pelo algoritmo proposto e nalmente sua estrutura nativa na Figura 5.9(b). O
algoritmo proposto apresenta uma estrutura mais prxima da estrutura nativa quando a
mesma comparada com a estrutura do AEMO. A justicativa para a predio recorre
novamente ao valor do DM E (Tabela 5.5).
Por m, apresentada na Figura 5.10 a predio realizada pelo AEMO e pelo algoritmo
proposto no caso com quatro objetivos para a protena 1AB1. Observando a Figura
5.10(a) possvel visualizar a predio da estrutura realizada pelo AEMO. J a Figura
83

tiva.

posto.
Figura 5.9: Estruturas tercirias da protena 1JXT com quatro objetivos.
5.10(b) ilustra a estrutura nativa da protena 1AB1 e a predio da estrutura realizada

pelo algoritmo proposto sendo apresentado na Figura 5.10(c). Assim, observa-se que a
estrutura predita pelo algoritmo proposto possui uma maior similaridade com a estrutura
nativa em relao estrutura predita pelo AEMO.
84

tiva.

posto.
Figura 5.10: Estruturas tercirias da protena 1AB1 com quatro objetivos.

85
Captulo 6
Concluses e Trabalhos Futuros
Este trabalho investigou o uso da lgica Fuzzy ao invs da fronteira de Pareto nos
algoritmos evolutivos aplicados em problemas de otimizao multi-objetivo, sem que haja
mudanas signicativas na estrutura dos algoritmos evolutivos. Na literatura, h inves-
tigaes onde se evidencia a no utilizao da fronteira de Pareto para problemas acima
de trs objetivos. Muitos desses estudos no usufruem dos algoritmos evolutivos, devido
limitao da tal fronteira tomando como exemplo Farina e Amato (2003).
Torna-se possvel tratar a Determinao da Estrutura da Protena (DEP) como um

problema de otimizao multi-objetivo com trs, quatro ou at mais objetivos, possuindo
o mesmo uma elevada relevncia, sendo este ento o caso escolhido para evidenciar uma
comparao entre o algoritmo proposto e um outro algoritmo aplicado ao DEP.
Os Algoritmos Evolutivos aplicados em problemas Multi-Objetivo so conhecidos como

AEMO. Dentre os AEMOs, o mais utilizado na literatura o NSGA-II e este utiliza a
fronteira de Pareto. Sendo assim, o NSGA-II vem sendo aplicado ao DEP e de Lima
(2006) apresentou resultados satisfatrios ao DEP, tornando-se portanto um relevante
caso para teste de desempenho ao algoritmo proposto.
O DEP um problema de extrema complexidade e por isso existem diversas aborda-

gens (mtodos de otimizao) para trat-lo, entre elas: threading, homologia e Ab initio.
Para o algoritmo proposto foi elaborado a abordagem por homologia.
Por ser uma abordagem por homologia h, ento, a necessidade de obter informaes de
86
alguma protena. Como no PDB j existe um nmero razovel de protenas determinadas,

neste trabalho buscou-se explorar esse contexto. Assim, por intermdio de um sistema
Fuzzy ajustado com as informaes de uma protena conhecida do PDB, a nalidade
do algoritmo proposto est em predizer a estrutura terciria de uma protena que tenha
similaridade com tal protena.
Os resultados foram satisfatrios mesmo para os problemas com trs objetivos, onde
se evidenciou um esforo computacional menor em todos os casos analisados. J com
quatro objetivos, o custo computacional do algoritmo proposto foi maior somente em um
dos testes (
= 1min), mas todas as estruturas preditas pelo mesmo apresentaram melhores
resultados.
Em se tratando de resultados, torna-se importante observar as duas Tabelas (5.4 e 5.5)

referentes aos valores de DM E para os dois casos de testes realizados, onde possvel
notar um fato interessante ocorrido com a protena 1JXT. Esta protena, no primeiro caso,
apresentou para o algoritmo proposto um DM E superior em relao ao AEMO, mas, j
no segundo caso ocorreu o inverso. Fica ento evidenciado a necessidade em analisar o
DEP tendo uma quantidade maior do que trs ou at mesmo quatro objetivos, pois tal
problema exige um mapeamento mais apropriado, caracterizando ento a importncia de
se investigar tcnicas computacionais alternativas fronteira de Pareto.
Alm da possibilidade de substituir a fronteira de Pareto, o algoritmo proposto buscou

efetuar a substituio da referida fronteira sem causar mudanas drsticas ao AEMO.
Este objetivo fora totalmente atingindo, uma vez que no ocorreu quaisquer mudanas no
AEMO apresentado em de Lima (2006), exceto na seleo dos indivduos para a prxima
gerao.
Portanto, a abordagem proposta no se esgota a possiblidade de se investigar outras

possveis ou at mesmo melhores solues para o DEP. Mesmo para as protenas similares
onde houve o treinamento, h ainda a necessidade de propor melhores abordagens para
predizer mais precisamente suas protenas similares.
Em relao aos trabalhos futuros, em primeira instncia, realizar-se- a investigao

do algoritmo proposto contendo cinco e seis objetivos, ou seja, cada uma das funes
de energia ser um objetivo especco. Aps essa anlise, pesquisar-se- quais poderiam
87
ser outras informaes pertinentes na contribuio da estrutura terciria da protena.

Em seqncia, iniciar-se- a busca de um modelo computacional que possa representar o
processo de folding, permitindo-se obter uma predio mais exata da protena.
A possibilidade de investigar as regras Fuzzy que tenha maior signicncia uma outra
possibilidade, pois assim se consegue mapear as informaes mais revelantes, como o j
citado em Alcal et al. (2006).
Uma outra investigao ser treinar o sistema Fuzzy com duas ou mais protenas
similares e, em seguida, analisar as informaes em comum. O objetivo , alm de se
encontrar padres similares entre as protenas, a tentativa de predizer a estrutura de
protenas que sejam similares quelas que participaram do processo de treinamento. Com
isso, espera-se alavancar um nmero maior de protenas para predizer (no necessitando
um alto grau de similaridade), alm da possibilidade de entender todo o processo de
enovelamento das protenas.
Como o emprego da abordagem proposta no se limita somente ao problema de pre-

dio de estrutura terciria de protenas, a mesma pode ser tambm investigada para
aplicao em outros tipos de problemas que se encontram utilizando a fronteira de Pa-
reto, mas tendo resultados insatisfatrios.
88
89
Referncias Bibliogrcas
Aarts, E. e J. Korst (1989). Simulated Annealing and Boltzmann Machines: A Stochastic

Approach to Combinatorial Optimization and Neural Computing. John Wiley and Sons.
Alcal, R., J. Alcal-Fdez, M. J. Gacto, e F. Herrera (2004). Ten years of genetic fuzzy
systems: current framework and new trends. In Fuzzy Sets and Systems Vol. 141, pp.
531.
Alcal, R., J. Alcal-Fdez, M. J. Gacto, e F. Herrera (2006). Rule base reduction and
genetic tuning of fuzzy systems based on the linguistic 3-tuples representation. In Soft
Computing - A Fusion of Foundations, Methodologies and Applications Vol. 11, pp.
401419.
Bajic, V. B., V. Brusic, J. Li, S. K. Ng, e L. Wong (2003). From informatics to bioinforma-
tics. In Proceedings of the rst Asia-Pacic bioinformatics conference on Bioinformatics
Vol. 19, pp. 312.
Barton, G., P. Cohen, e D. Bradford (1993). Conservation analysis and structure pre-
diction of the protein serine/threonine phosphatases. Eur. J. Biochem Vol. 220, pp.
225237.
Battistella, E. e A. Cechin (2004). The protein folding problem solved by a fuzzy inference
system extracted from an articial neural network. In Ibero-American Conference on
Articial Intelligence (IBERAMIA) Vol. 3315, pp. 474483.
Baxevanis, A. e B. Ouellette (2001). Bioinformatics - A practical guide to the analysis of

genes and proteins. Lawrence Erlbaum Associates Publishers.
90
Bck, T., D. Fogel, e Z. Michalewicz (1997). Handbook of Evolutionary Computation.

Institute of Physics Publishing and Oxford University Press.
Bergeron, B. (2003). Bioinformatics computing. Prentice Hall.
Bonissone, P., R. Subbu, e K. Aggour (2002). Evolutionary optimization of fuzzy decision

systems for automated insurance underwriting. In Fuzzy Systems Vol.2, pp. 10031008.
Branden, C. e J. Tooze (1991). Introduction to Protein Structure. Garland Publishing.
Bryson, K., M. Luck, M. Joy, e D. T. Jones (2000). Applying agents to bioinformatics in

geneweaver. In International Workshop on Cooperative Information Agents Vol. 1860,
pp. 6071.
Cheng-Jian, L. e X. Yong-Ji (2005). A hybrid evolutionary learning algorithm for tsk-

type fuzzy model design. In Mathematical and Computer Modelling Vol. 43, No. 5, pp.
563581.
Chou, S. M., T. S. Lee, Y. E. Shao, e I. F. Chen (2004). Mining the breast cancer pattern
using articial neural networks and multivariate adaptive regression splines. In Expert
Systems with Applications Vol. 27, pp. 133142.
Coello, C. e G. Pulido (2001). Multiobjective optimization using a micro-genetic algo-

rithm. In L. Spector, E. Goodman, A. Wu, W. Langdon, H. Voigt, M. Gen, S. Sen,
M. Dorigo, S. Pezeshk, M. Garzon, e E. Burke (Eds.), Proceedings of the Genetic and
Evolutionary Computation Conference (GECCO 2001), pp. 274281. Morgan Kauf-
mann Publishers.
Cohen, B., S. Presnell, e F. Cohen (1993). Origins of structural diversity within sequen-
tially identical hexapeptides. Protein Science Vol. 2, pp. 21342145.
Cohen, J. (2004). Bioinformatics an introduction for computer scientists. ACM Comput.

Surv. Vol. 36 (no. 2), pp. 122158.
Copeland, R. (1993). Methods for Protein Analysis - A pratical guide to laboratory pro-
tocols. M. Chapman e Hall.
91
Corne, D., N. Jerram, J. Knowles, e M. Oates (2001). Pesa-ii: Region-based selection in

evolutionary multiobjective optimization. In L. Spector, E. Goodman, A. Wu, W. Lang-
don, H. Voigt, M. Gen, S. Sen, M. Dorigo, S. Pezeshk, M. Garzon, e E. Burke (Eds.),
Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2001),
pp. 283290. Morgan Kaufmann Publishers.
Corne, D., J. Knowles, e M. Oates (2000). The pareto envelope-based selection algorithm
for multiobjective optimization. In K. Deb, X. Y. G. Rudolph, E. Lutton, J. J. Merelo,
e H. P. Schwefel (Eds.), Proceedings of the Parallel Problem Solving from Nature VI
Conference, pp. 839848. Springer. Lecture Notes in Computer Science No. 1917.
Cui, Y., R. Chen, e W. Wong (1998). Protein folding simulation with genetic algorithm
and supersecondary structure constraints. Proteins Vol. 31, pp. 247257.
Cutello, V., G. Narzisi, e G. Nicosia (2005). A multi-objective evolutionary approach to

the protein structure predicition problem. J. R. Soc. Interface Vol. 83, pp. 113.
Darwin, C. (1859). On the Origin of Species By Means of Natural Selection.
de Lima, T. W. (2006). Algoritmos Evolutivos para Predio de Estruturas de Protenas.

Dissertao de Mestrado, Instituto de Cincias Matemticas e de Computao - ICMC-
USP.
de Moura, L. (2002). Um Algoritmo Gentico para Otmizao Multi-Objetivo Fuzzy.

Dissertao de Mestrado, Universidade Estadual de Campinas - Unicamp.
Deb, K. (2001). Multi-Objective Optimization using Evolutionary Algorithms. John Wiley

and Sons.
Deb, K., S. Agrawal, A. Pratab, e T. Meyarivan (2000). A Fast Elitist Non-Dominated

Sorting Genetic Algorithm for Multi-Objective Optimization: NSGA-II. KanGAL re-
port 200001, Indian Institute of Technology, Kanpur, India.
Deb, K., S. Chaudhuri, e K. Miettien (2006). Towards estimating nadir objective vector
using evolutionary approaches. In GECCO '06: Proceedings of the 8th annual conference
on Genetic and evolutionary computation.
92
Doolittle, R. (1986). Of URFs and ORFs: A Primer on How to Analyze Derived Amino
Acid Sequences. University Science Books.
Doostfatemeh, M. e S. Kremer (2005). Biological sequence prediction using general fuzzy

automata. In Proceedings of the 2005 IEEE Symposium on Computational Intelligence
in Bioinformatics and Computational Biology, pp. 18.
Encyclopdia Britannica, P. S. (2007). Vilfredo pareto.
Eshelman, L. e J. Schaer (1993). Real-coded genetic algorithms and interval schemata.

In Foundations of Genetic Algorithms Vol. 2, pp. 187202.
Ezziane, Z. (2006). Applications of articial intelligence in bioinformatics: A review. In

Expert System with Applications Vol. 30, pp. 210.
Farina, M. e P. Amato (2003). Fuzzy Optimality and Evolutionary Multiobjective Op-

timization. In Second International Conference, EMO 2003, Proceedings, pp. 5873.
Springer Berlin / Heidelberg.
Fogel, D. (1994). An introduction to simulated evolutionary computation. IEEE Tran-

sactions on Neural Networks Vol. 5, pp. 314.
Fogel, G. e D. Corne (2003). Evolutionary Computation in Bioinformatics. Morgan

Kaufmann Publishers.
Fonseca, C. e P. Fleming (1993). Genetic Algorithms for Multiobjective Optimization:

Formulation, Discussion and Generalization. In S. Forrest (Ed.), Proceedings of the
Fifth International Conference on Genetic Algorithms, San Mateo, California, pp. 416
423. University of Illinois at Urbana-Champaign: Morgan Kauman Publishers.
Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization, and Machine Lear-

ning. Reading, MA: Addison-Wesley Publishing Company, Inc.
Gonzlez, J., R. Ignacio, H. Pomares, L. Herrera, A. Guilln, e R. F. (2006). Improving the

accuracy while preserving the interpretability of fuzzy function approximators by means
of multi-objective evolutionary algorithms. In International Journal of Approximate
Reasoning, Vol. 43, pp. 5975.
93
Guseld, D. (2004). Introduction to the ieee/acm transactions on computational bio-

logy and bioinformatics. In IEEE/ACM Transactions on Computational Biology and
Bioinformatics Vol. 1, pp. 23.
Haiming, L. e G. Gary (2003). Rank-density-based multiobjective genetic algorithm and

benchmark test function study. In IEEE Transactions on Evolutionary Computation
Vol.7, pp. 325343.
Hajela, P. e C. Y. Lin (1992). Genetic search strategies in multicriterion optimal design.

Structural Optimization Vol. 4, pp. 99107.
Handl, J., K. Douglas, e K. Joshua (2006). Multiobjective optimization in bioinforma-

tics and computational biology. In IEEE Transaction on Computational Biology and
Bioinformatics, pp. 128.
Haykin, S. (1999). Neural Networks - A Comprehensive Foundation. Prentice Hall.
Hilbert, M., G. Bhm, e R. Jaenicke (1993). Structural relationships of homologous

proteins as a fundamental principle in homology modeling. Proteins Vol. 17, pp. 138
151.
Holland, J. (1975). Adaptation in natural and articial systems. University of Michigan

Press.
Holland, J. (1992). Adaptation in natural and articial systems. MIT Press.
Horn, J., N. Nafpliotis, e D. Goldberg (1994). A Niched Pareto Genetic Algorithm for
Multiobjective Optimization. In Proceedings of the First IEEE Conference on Evoluti-
onary Computation, IEEE World Congress on Computational Intelligence, Volume Vol.
1, Piscataway, New Jersey, pp. 8287. IEEE Service Center.
Inbar, Y., H. Benyamini, R. Nussinov, e H. Wolfson (2003). Protein structure prediction

via combinatorial assembly of sub-structural units. Bioinformatics Vol. 19, pp. 158168.
Inbar, Y., H. Wolfson, e R. Nussinov (2005). Multiple docking for protein structure
prediction. The International Journal of Robotics Research Vol. 24 , pp. 131150.
94
Jimnez, F., J. Cadenas, G. Snchez, A. Gmez-Skarmeta, e V. J. (2006). Multi-objective

evolutionary computation and fuzzy optimization. In International Journal of Appro-
ximate Reasoning Vol., pp. 5975.
Kabsch, W. e C. Sander (1983). Dictionary of protein secondary structure: pattern

recognition of hydrogen bonded and geometrical features. Biopolymers Vol. 22, pp.
25772637.
Karplus, M. e E. Shakhnovich (1992). Protein Folding, Chapter Protein Folding: Theorical

Studies of Thermodynamics and Dynamics. W. H. Freeman and Company.
Khimasia, M. e P. Coveney (1997). Protein structure prediction as a hard optimization

problem: the genetic algorithm approach. In Molecular Simulation Vol. 19.
Kita, H., Y. Yabumoto, N. Mori, e Y. Nishikawa (1996). Multi-Objective Optimization

by Means of the Thermodynamical Genetic Algorithm. In H.-M. Voigt, W. Ebeling,
I. Rechenberg, e H.-P. Schwefel (Eds.), Parallel Problem Solving from NaturePPSN
IV, Lecture Notes in Computer Science, Berlin, Germany, pp. 504512. Springer-Verlag.
Kleeman, M. e G. Lamont (2005). Solving the aircraft engine maintenance scheduling pro-
blem using a multi-objective evolutionary algorithm. In Evolutionary Multi-Criterion
Optimization Lecture Note in Computer Science Vol. 3410, pp. 782796. Springer-Verlag
Berlin, Heidelberg Platz.
Knowles, J. e D. Corne (1999). The Pareto Archived Evolution Strategy: A New Ba-
seline Algorithm for Multiobjective Optimisation. In 1999 Congress on Evolutionary
Computation, Washington, D.C., pp. 98105. IEEE Service Center.
Koppen, M., R. Vicente-Garcia, e N. B. (2005). Fuzzy-pareto-dominance and its appli-

cation in evolutionary multi-objective optimization. In Evolutionary Multi-Criterion
Optimization Vol. 3410, pp. 399412. Springer-Verlag Berlin Heidelberg.
Laumanns, M., G. Rudolph, e H.-P. Schwefel (1998). A Spatial Predator-Prey Approach

to Multi-Objective Optimization: A Preliminary Study. In Parallel Problem Solving
From Nature - PPSN V Vol. 1498, Amsterdam, Holland, pp. 241249. Springer-Verlag.
95
Leach, A. R. (2001). Molecular Modelling - Principles and Applications. Perason.
Lodish, H., A. Berk, P. Matsudaira, C. A. Kaiser, M. Krieger, e M. Scott (2004). Biologia

Celular e Molecular. Artmed.
Markowetz, F., L. Edler, e M. Vingron (2003). Support vector machines for protein fold
class prediction. In Biometrical Journal Vol. 45 no. 3, pp. 377389.
Michalewicz, Z. (1996). Genetic algorithms + Data Structures = Evolution Programs.

Springer-Verlag New York, Inc.
Michalewicz, Z. e M. Schoenauer (1996). Evolutionary algorithms for constrained para-

meter optimization problems. Evolutionary Computation Vol. 4, pp. 132.
Morse, P. M. (1929). Diatomic molecules according to the wave mechanics. ii. vibrational
levels. Phys. Rev. Vol. 34 (no. 1), pp. 5764.
Pedrycz, W. e F. Gomide (1998). An Introduction to Fuzzy Sets - Analysis and Design.

MIT Press.
Peitsch, M. (2002). About the use of protein models. Bioinformatics Vol. 18, pp. 934938.
Pendharkar, P. C., J. A. Rodger, G. J. Yaverbaum, N. Herman, e M. Benner (1999).

Association, statistical, mathematical and neural approaches for mining breast cancer
patterns. In Expert Systems with Applications, pp. 223232.
Petsko, G. e D. Ringe (2004). Proteins Structure and Function. New Science Press Ltd.
Ponder, J. (2001). Tinker software tools for molecular design. washington university, saint
louis.
Ramachandran, G. e V. Sasiskharan (1968). Conformation of polypeptides and proteins.

Protein Chem. Vol. 23, 283437.
Ripon, K., S. Sam, e K. Man (2007). A real-coding jumping gene genetic algorithm (rjgga)
for multiobjective optimization. In Information Sciences Vol. 177 no. 2, pp. 632654.
Sciences.
96
Rudolph, G. (2001). Evolutionary Search under Partially Ordered Fitness Sets. In Proce-
edings of the International NAISO Congress on Information Science Innovations (ISI
2001), pp. 818822. ICSC Academic Press: Millet/Sliedrecht.
Schaer, J. (1985). Multiple objective optimization with vector evaluated genetic algo-
rithms. In Genetic Algorithms and their Applications: Proceedings of the First Inter-
national Conference on Genetic Algorithms, pp. 93100. Lawrence Erlbaum.
Schulz, G. e R. Schirmer (1979). Principles of Protein Structure. Springer-Verlag.
Silva Junior, C. e S. Sasson (2003). Biologia. Saraiva.
Srinivas, N. e K. Deb (1994). Multiobjective Optimization Using Nondominated Sorting

in Genetic Algorithms. Evolutionary Computation Vol. 2 (no. 3), pp. 221248.
Takagi, T. e M. Sugeno (1985). Fuzzy identication of systems and its applications to

modeling and control. In IEEE Transactions on Systems, Man, and Cybernetics. Vol.
SMC-15, pp. 116132.
Tan, A. C. e D. Gilbert (2003). An empirical comparison of supervised machine learning

techniques in bioinformatics. In Proceedings of the rst Asia-Pacic bioinformatics
conference on Bioinformatics, pp. 219222.
Ticona, W. G. C. (2003). Aplicao de Algoritmos Genticos Multiobjetivos para Alimento

de Seqncias Biolgicas. Dissertao de Mestrado, Instituto de Cincias Matemticas
e de Computao - ICMC-USP.
Tsunoda, D. F. (2004). Abordagens Evolucionrias Para a Descoberta de Padres e Clas-

sicao de Protenas. Tese de Doutorado, Centro Federal de Educao Tecnolgica do
Paran.
Veldhuizen, D. (1999). Multiobjective Evolutionary Algorithms: Classications, Analyses,

and New Innovations. Tese de Doutorado, Department of Electrical and Computer
Engineering. Graduate School of Engineering. Air Force Institute of Technology, Wright-
Patterson AFB, Ohio.
97
Voget, S. e M. Kolonko (1998). Multidimensional optimization with a fuzzy genetic algo-

rithm. In Journal of Heuristics Vol. 4, pp. 221244.
Vullo, A. (2002). On the role of machine learning in protein structure determination.

AIIA.
Wangshu, Y., S. Chen, e Z. Chen (2006). Sdmoga: A new multi-objective genetic al-
gorithm based on objective space divided. In The 13th International Conference on
Neural Information Processing (ICONIP) Vol. 3, pp. 754762.
Wiebringhaus, T., C. Igel, e J. Gebert (2004). Protein fold class prediction using neural
networks with tailored early-stopping. In Proceedings of the 2004 IEEE International
Joint Conference on Neural Networks, pp. 16931697.
Wilson, I., D. Haft, E. Getzo, J. Tainer, R. Lerner, e S. Brenner (1985). Identical short
peptide sequences in unrelated proteins can have dierent conformations: A testing
ground for theories of immune recognition. Proc. Natl. Acad. Sci. Vol. 82, pp. 5255
5259.
Zadeh (1973). Outline of a new approach to the analysis of complex systems and decision
processes. In IEEE Transactions on Systems Vol. SMC-3, pp. 2844.
Zadeh (1992). Fuzzy logic, neural networks and soft computing. In Proceedings of the 2nd
International Conference on Fuzzy Logic and Neural Networks, pp. 1314.
Zitzler, E., K. Deb, e L. Thiele (2000). Comparison of Multiobjective Evolutionary Algo-

rithms: Empirical Results. Evolutionary Computation Vol. 8 (No. 2), pp. 173195.
Zitzler, E., M. Laumanns, e L. Thiele (2001). SPEA2: Improving the Strength Pareto Evo-
lutionary Algorithm. Technical Report no. 103, Computer Engineering and Networks
Laboratory (TIK), Swiss Federal Institute of Technology (ETH) Zurich, Gloriastrasse
35, CH-8092 Zurich, Switzerland.
Zitzler, E. e L. Thiele (1998). An Evolutionary Algorithm for Multiobjective Optimization:

The Strength Pareto Approach. Technical Report no. 43, Computer Engineering and
Communication Networks Lab (TIK), Swiss Federal Institute of Technology (ETH),
Zurich, Switzerland.
98
99
Apndice A
Toolbox Fuzzy Logic
Esta dissertao utilizou o toolbox Fuzzy Logic do Matlab. Tal toolbox consiste de
uma coleo de funes construdas sobre o ambiente do Matlab, permitindo assim uma
maneira fcil de criar e editar sistemas de inferncria Fuzzy dentro do framework do
Matlab, alm da possibilidade de programas escritos em linguagem C executar funes
construdas dentro do Matlab.
Para se utilizar um sistema de inferncia Fuzzy, este no necessita j estar modelado

completamente. Mesmo possuindo somente um conjunto de dados quantitativos possvel
criar um sistema de inferncia Fuzzy. Uma possvel abordagem para criar tal sistema de
inferncia denominada ANFIS (Adaptive Neuro-Fuzzy Inference System ). O ANFIS ser
detalhado na Seo A.2.
O ambiente do Matlab, alm de gerar um sistema Fuzzy, se permite visualizar e, at

mesmo, ajustar (renar) um sistema Fuzzy. Tendo ento esta necessidade, se pode
utilizar a ferramenta do Matlab conhecida como toolbox Fuzzy Logic. A Seo A.1 ser
responsvel pela explanao deste toolbox.
importante ressaltar que a compilao deste apndice todo baseado no guia de

usurio (user's guide ) do Matlab, o mesmo apresenta de forma bem didtica todos os
principais aspectos envolvidos com o toolbox fuzzy logic.
100
A.1 Toolbox Fuzzy Logic do Matlab
O Toolbox Fuzzy Logic do Matlab consiste de seis componentes. Alm do editor

ANFIS, o qual ser detalhado na Seo A.2, possui ainda os editores: de regras (Rule
Editor ), o editor das funes de pertinncia (Membership Function Editor ) e o editor de
Sistema de Inferncia Fuzzy (FIS)1 . Acrescenta-se ainda neste Toolbox os visualizadores de
regras (Rule Viewer ) e superfcie (Surface Viewer ). A Figura A.1 evidencia a visualizao
de um esquema para uma melhor compreenso referentes aos componentes constituintes
do Toolbox Fuzzy Logic do Matlab. Neste esquema, somente adiciona-se o editor ANFIS.
A seguir ser discutido, brevemente, cada um destes componentes.
Figura A.1: Esquema dos componentes constituntes do Toolbox Fuzzy Logic do Matlab.
O primeiro componente a ser abordado o editor FIS. nalidade deste editor ilustrar
as informaes, de forma resumida, referente a um sitema de inferncia Fuzzy, por exem-
1 do ingls, Fuzzy Inference System.

101
plo, um sistema Fuzzy construdo a partir da tcnica ANFIS. Ou seja, o ANFIS ajusta as
funes de pertinncia e, tambm, cria as regras de tal sistema e, ento, utilizando este
editor se consegue visualizar o sistema gerado a partir da tcnica ANFIS. Para se obter
a tela do editor FIS, basta digitar o comando fuzzy na janela de comando no Matlab.
Aps a execuo deste comando, torna-se possvel visualizar a ilustrao da Figura A.2,
a qual consiste na tela inicial deste editor.
Figura A.2: Tela inicial do editor FIS.
Para se obter a visualizao de um sistema de inferncia Fuzzy, basta abrir o arquivo

FIS do sistema Fuzzy. O arquivo FIS contm todas as informaes de um sistema Fuzzy,
sendo que o editor FIS apenas mostra o contedo deste arquivo de uma maneira mais
interativa.
Torna-se possvel, atravs do editor de funes de pertinncia, gerenciar as funes

de pertinncia do sitema Fuzzy, ou seja, permite editar e visualizar todas as funes de
pertinncia. A Figura A.3 exibe a tela inicial deste editor.
102
Figura A.3: Tela inicial do editor das funes de pertinncia.
J o editor de regras tem como nalidade proporcionar um fcil ambiente para tra-
balhar com as regras do sistema Fuzzy, permitindo construir, modicar, deletar e ignorar
regras. Assim sendo, a Figura A.4 ilustra a tela do editor contendo as regras do sistema
Fuzzy proposto com quatro entradas.
Para visualizar as regras do sistema Fuzzy, recorre-se ao componente do toolbox Fuzzy

Logic conhecido como visualizador de regras. Assim sendo, a Figura A.5 permite visualizar
as regras, as quais foram determinadas no editor de regras Fuzzy descrito anteriormente.
Por m, o toolbox Fuzzy Logic do Matlab possui o componente para visualizar as
superfcies. Este visualizador tem como objetivo criar uma curva tridimensional para
representar o mapeamento das entradas do sistema Fuzzy. Para os sistemas com mais de
trs entradas e uma sada, como apresentado nesta dissertao, por exemplo, o visualizador
consegue gerar uma superfcie de sada tridimensional, pois os monitores dos computadores
so incapazes de plotar uma superfcie com cinco dimenses. Portanto, o visualizador
103
Figura A.4: Editor de regras ilustrando regras do sistema proposto com quatro entradas.
permite que selecione duas das entradas e as demais sero consideradas como constante.
Para ilustrar a tela desse visualizador, esta ser apresentada juntamente com uma das
superfcies j demonstratada neste trabalho. Assim, a Figura A.6 evidencia o referido
visualizador.
A.2 Tcnica ANFIS
Torna-se possvel, mesmo contendo somente dados quantitativos, modelar um sistema

de inferncia Fuzzy. O ANFIS consiste de uma das possveis tcnicas para tal procedi-
mento, alm de que bem simples sua utilizao. Assim sendo, investigar sua aplicabili-
dade evidencia uma tarefa extremamente relevante quando seus dados so disponibilizados
da forma quantitativa e houver a necessidade de se gerar um sistema de inferncia Fuzzy.
Com um conjunto de dados quantitativos contendo as entradas e sua respectiva sada

104
Figura A.5: Visualizao das regras do sistema proposto com quatro entradas.
desejada, possvel obter um sistema de inferncia Fuzzy j ajustado com suas funes
de pertinncia e regras. Sendo assim, pode-se armar que as regras e as funes de
pertinncia foram geradas de forma automtica.
Para se utilizar a tcnica ANFIS no Matlab h duas maneiras: Primeira, atravs

de uma interface grca conhecida como editor GUI2 e, a segunda, atravs de linha de
comando. Ressalta-se que a primeira possibilidade uma maneira interativa, porm para
se conseguir exibilidade h a necessidade de utilizar o ANFIS por linha de comando.
Portanto, decidir qual das abordagens utilizar depender, antes de tudo, da experincia
e necessidade do usurio.
A seguir, ser detalhada tais possibilidades para se trabalhar com o ANFIS. A Seo
A.2.1 ilustra o editor GUI do ANFIS e, conseqentemente, a Seo A.2.2 abordar o
ANFIS por linha de comando.
2 do ingls, Graphical User Interface

105
Figura A.6: Visualizador de superfcies.
A.2.1 Editor GUI ANFIS
Para iniciar o editor GUI do ANFIS basta digitar ansedit na janela de comandos
do Matlab. A Figura A.7 ilustra a tela inicial do referido editor.
Nota-se a partir da Figura A.7, a interatividade obtida pelo editor GUI. As etapas de
todo o processo da tcnica ANFIS esto agrupadas de maneira cronolgica de execuo.
Visualmente, nota-se uma separao decorrida de agrupamento de campos limitados entre
retngulos.
O primeiro retngulo consiste no carregamento (Load ) dos dados (Data ). Os dados

podem ser ento: Treinamento (Training ), Teste (Testing ) e Checagem (Checking ). Estes
tipos de dados podem ser carregados a partir do disco ou at mesmo da Workspace.
O segundo retngulo, denotado por Generate FIS, consiste na etapa de gerao do

sistema de inferncia. Sendo assim, possvel nesta etapa informar dois parmetros es-
106
Figura A.7: Tela inicial do editor GUI ANFIS.
senciais para o decorrer da tcnica, sendo eles: funo de pertinncia e o tipo de sada.
Para a funo de pertinncia torna-se possvel selecionar qual funo utilizar, tendo como
algumas possibilidade escolher, por exemplo, se ser funo Triangular (trimf) ou Gaus-
siana (gaussmf). J o tipo de sada, uma vez que a tcnica ANFIS baseia na metodologia
Takagi-Sugeno, apresenta duas opes: a primeira denotada por constante (constant ) e
a segunda por linear. A Figura A.8 ilustra a tela onde se pode determinar esses dois
parmetros.
Para efetuar a gerao do sistema de inferncia Fuzzy h a necessidade, ainda, de

informar qual ser o mtodo de otimizao (Optim. Method ), tolerncia de erros (Error
Tolerance ) e o nmero de pocas (Epochs ). A determinao desses parmetros ca na
responsabilidade do terceiro retngulo (Train FIS ). Com relao ao mtodo de otimi-
zao, tem-se como opo para o treinamento o algoritmo Backpropagation e um misto
(combinao) entre estimao de mnimos quadrados com o Backpropagation, tambm
107
Figura A.8: Editor para determinar parmetros essenciais.
conhecido como mtodo hbrido (hybrid ). J informando a tolerncia de erros e o nmero

de pocas, consegue-se determinar os critrios de parada para o treinamento.
Finalmente, no quarto retngulo (Test FIS ), consegue-se executar o procedimento de

validao do sistema de inferncia Fuzzy.
A estrutura e os parmetros de ajuste do toolbox ANFIS baseia em uma estrutura

similar a de uma rede neural utilizada para associar as entradas/sadas mapeando assim
as funes de pertinncia. Durante o processo de aprendizagem, tais parmetros podem
ser alterados (ajustados) atravs do vetor gradiente, sendo esta a medida para avaliar o
quo bem est sendo o mapeamento das entradas/sadas do conjunto de parmetros. A
Figura A.9 evidencia um caso de exemplo da estrutura utilizada pelo ANFIS.
Observa-se na Figura A.9 a similaridade da estrutura do ANFIS com uma rede neural.
ilustrado nesta gura uma estrutura ANFIS contendo trs entradas e uma sada.
108
Figura A.9: Estrutura utilizada pelo ANFIS.
A.2.2 ANFIS por Linha de Comando
Entende-se ANFIS por linha de Comando a possibilidade de executar e parametrizar

a sua estruturab da mesma forma que o editor GUI permite. Contudo, tem-se aqui a
exibilidade de trabalhar diretamente com os comandos que so executados pelo editor.
A tcnica ANFIS tendo sido j detalhada na Seo A.2.1, torna-se relevante nesta seo
apenas abordar os comandos, os quais sero ilustrados a seguir. importante ressaltar
que tais comandos abordados sero somente os comandos da tcnica ANFIS.
O primeiro comando, o gens1, inicia o processo de treinamento gerando as funes de

pertinncia iniciais cobrindo todo o espao de busca. Este comando recebe como parme-
tro de entrada trs valores, sendo respectivamente: o arquivo com os dados quantitativos
de entrada e sua sada, o nmero de funes de pertinncia e, por ltimo, o tipo de funo
de pertinncia.
J o comando ans tem a nalidade de ajustar as funes de pertinncia geradas

109
inicialmente pelo comando gens1. A quantidade de parmetros constitui em seis e so,

respectivamente: os dados de entrada, a sada gerada pelo comando gens1, as opes
de treinamento (pocas, tolerncia, etc), tratamento das mensagens durante e aps o
processo de treinamento (este parmetro s existe por linha de comando) e nalmente,
determinar qual mtodo (algoritmo) de treinamento ser utilizado.
110

Algoritmo Híbrido Multi-Objetivo para Predição de Estrutura Terciária de Proteínas

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Algoritmo Híbrido Multi-Objetivo para Predição de Estrutura Terciária de Proteínas

Transféré par

Droits d'auteur :

Formats disponibles

Rodrigo Antonio Faccioli

Algoritmo Hbrido Multi-Objetivo Para

Dissertao apresentada Escola de Engenharia de

rea de Concentrao: Sistemas Dinmicos

Porque dele e por meio dele, e para ele, so todas as coisas.

Agradeo toda minha famlia pelo companheirismo, pacincia e interesse em sa-

Ao meu orientador prof. Dr. Ivan Nunes da Silva pelos ensinamentos no s em

Aos meus amigos do Laips onde tive a oportunidade de vivenciar o signicado da

Aos funcionrios desta instituio, mas em especial a secretaria da ps-graduao da

Faccioli, R. A. Algoritmo Hbrido Multi-Objetivo Para Predio de Estrutura Terci-

Muitos problemas de otimizao multi-objetivo utilizam os algoritmos evolutivos para

PalavrasChave: Bioinformtica, Algoritmos Evolutivos, Lgica Fuzzy, folding, Multi-

Faccioli, R. A. Multi-objective Approach To Protein Tertiary Structure Prediction. 2007.

Several multi-objective optimization problems utilize evolutionary algorithms to nd

Keywords: Bioinformatic, Evolutionary Algorithms, Fuzzy Logic, folding, Multiobjetive,

2.1 Estrutura bsica de um aminocido. . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Classicao dos vinte aminocidos padres encontrados em protenas. . . 12

2.3 Processo de formao de uma ligao peptdica. . . . . . . . . . . . . . . . 13

2.4 Representao dos tomos no mesmo plano (de Lima, 2006). . . . . . . . . 14

2.6 Mapa de Ramachandran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.7 Estrutura Hlice (Branden e Tooze, 1991). . . . . . . . . . . . . . . . . . 17

2.8 Estrutura Folhas (Branden e Tooze, 1991). . . . . . . . . . . . . . . . . . 17

2.9 Estrutura Voltas (Lodish et al., 2004). . . . . . . . . . . . . . . . . . . . . 18

2.10 Estrutura terciria de uma protena (PDB 1CCN). . . . . . . . . . . . . . 18

2.11 Grco da funo de energia potencial de comprimento de ligao. . . . . . 27

2.12 Grco da funo de energia potencial de torso. . . . . . . . . . . . . . . 29

2.13 Grco da funo de energia eletrosttica. . . . . . . . . . . . . . . . . . . 31

2.14 Grco da funo de van der Waals na forma padro. . . . . . . . . . . . . 32

3.1 Exemplo do multi-objetivo (Ticona, 2003). . . . . . . . . . . . . . . . . . . 37

3.2 Esquema do Modelo NSGA-II (Deb, 2001). . . . . . . . . . . . . . . . . . . 48

3.3 Clculo da distncia de multido no NSGA-II (Deb, 2001). . . . . . . . . . 49

3.4 Exemplo do sistema Fuzzy utilizado em Battistella e Cechin (2004) . . . . 51

4.1 Uma representao dos conjuntos fuzzy. . . . . . . . . . . . . . . . . . . . . 63

4.2 Funes fuzzy ativadas pelos tness. . . . . . . . . . . . . . . . . . . . . . 63

4.3 Processo da Inferncia fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.4 Regio fuzzy de sada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.7 Estruturas tercirias da protena 1JXT com trs objetivos. . . . . . . . . . 81

5.8 Estruturas tercirias da protena 1AB1 com trs objetivos. . . . . . . . . . 82

5.9 Estruturas tercirias da protena 1JXT com quatro objetivos. . . . . . . . 83

5.10 Estruturas tercirias da protena 1AB1 com quatro objetivos. . . . . . . . . 84

A.2 Tela inicial do editor FIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

A.3 Tela inicial do editor das funes de pertinncia. . . . . . . . . . . . . . . . 102

A.6 Visualizador de superfcies. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

A.7 Tela inicial do editor GUI ANFIS. . . . . . . . . . . . . . . . . . . . . . . . 106

A.8 Editor para determinar parmetros essenciais. . . . . . . . . . . . . . . . . 107

A.9 Estrutura utilizada pelo ANFIS. . . . . . . . . . . . . . . . . . . . . . . . . 108

2.1 Relao dos vinte aminocidos padres e respectivos mnemnicos. . . . . . 11

3.1 Alguns exemplos de modelos de AEMO. . . . . . . . . . . . . . . . . . . . 47

4.1 Valores hipotticos de Autoridade de Aptido. . . . . . . . . . . . . . . . . 65

5.1 Funes de Energia e seu smbolo para representar na Funo de Avaliao. 68

5.2 Quantidade de Regras Fuzzy para cada treinamento. . . . . . . . . . . . . 72

5.3 Estrutura primria das protenas preditas e a utilizada no treinamento. . . 76

5.4 DM E entre as protenas no teste com trs objetivos. . . . . . . . . . . . . 78

5.5 DM E entre as protenas no teste com quatro objetivos. . . . . . . . . . . . 78

5.6 Custo computacional entre as protenas no teste com trs objetivos. . . . . 79

5.7 Custo computacional entre as protenas no teste com quatro objetivos. . . 80

3.1 Pseudo-cdigo de um AG tpico. . . . . . . . . . . . . . . . . . . . . . . . . 40

Lista de Abreviaturas e Siglas

AEMO Algoritmos Evolutivo Multi-objetivo

DEP Determinao da Estrutura da Protena

GFA General Fuzzy Automata

HMM Hidden Markov Model

PDB Protein Data Bank

Aos meus amigos do Laips onde tive a oportunidade de vivenciar o signicado da

PalavrasChave: Bioinformtica, Algoritmos Evolutivos, Lgica Fuzzy, folding, Multi-

Several multi-objective optimization problems utilize evolutionary algorithms to nd

2.2 Classicao dos vinte aminocidos padres encontrados em protenas. . . 12

2.11 Grco da funo de energia potencial de comprimento de ligao. . . . . . 27

2.12 Grco da funo de energia potencial de torso. . . . . . . . . . . . . . . 29

2.13 Grco da funo de energia eletrosttica. . . . . . . . . . . . . . . . . . . 31

2.14 Grco da funo de van der Waals na forma padro. . . . . . . . . . . . . 32

4.2 Funes fuzzy ativadas pelos tness. . . . . . . . . . . . . . . . . . . . . . 63

Conforme relatos apresentados por Cohen (1994), a utilizao de ferramentas ecien-

Mais especicamente, as pesquisas na rea de bioinformtica esto pautadas no uso de

especicadas pela sua estrutura terciria (Ezziane, 2006).

de tcnicas de data mining mais sosticadas e mais inteligentes fundamental para o

Mais especicamente, a utilizao de sistemas inteligentes, notadamente aqueles ba-

Nessa combinao, as redes neurais articiais se preocupam principalmente com o ma-

O Captulo 4 referente metodologia proposta, alm de ser possvel vericar o cenrio

Figura 2.2: Classicao dos vinte aminocidos padres encontrados em protenas.

J a Figura 2.8 representa a estrutura Folhas a qual apresentada por echas em

Enm, a estrutura Voltas ilustrada na Figura 2.9. importante o formato U a qual