Académique Documents
Professionnel Documents
Culture Documents
estes valores que montam a sequência que será utilizada como vetor valor da função de perda associados a este vetor. Assim, o fitness de
de características para o método de classificação. uma dada solução s é definida pela equação:
2.5.4 Operador de reprodução. No GA e AE, o número de filhos 2.5.8 Busca local. Para refinar as soluções encontradas, uma
gerados em cada geração é definido pelo valor da população inicial busca local foi aplicada sempre que um indivíduo com melhor valor
vezes lambda. Ambos são parâmetros dos algoritmos. Já no GAVaPS, de fitness for encontrado, dentre todos os já encontrados, bem como
é igual ao produto de lambda vezes o tamanho da população atual. no melhor filho de uma população. A busca local implementada visa
Para cada par de filhos gerados, um par de pais é selecionado economizar tempo de processamento, já que o custo de se avaliar
nesta fase. Esta seleção pode ser feita por meio de torneio ou roleta o fitness de um indivíduo é alto. Assim, apenas cinco vizinhanças
no GA e apenas por torneio no GAVaPS. No torneio, dentre quatro aleatórias são exploradas em cada busca. Caso seja fitness seja melho-
candidatos, apenas dois são selecionados para serem os pais, os com rado, a solução é movida para a vizinhança de melhora e o processo
maiores valores de fitness. No método da roleta, considerando uma de se explorar outras cinco vizinhanças e aplicada novamente, caso
população de tamanho N , cada indivíduo i, com valor de fitness fi , não haja melhora o processo da busca se encerra.
recebe uma probabilidade pi de ser selecionado, tal que:
fi
pi = Í N
j=1 f j 3 EXPERIMENTOS E RESULTADOS
2.5.5 Operador de sobrevivência. Nos modelos baseados no GA Cada um dos três modelos (AG, AE e GAVaPS) foram implemen-
e no AE, existem duas formas de sobrevivência, uma onde ocorre tados, em Matlab, visando analisar o impacto da variação de seus
a concorrência entre pais e filhos, e outra onde somente os filhos parâmetros. O valor de fitness do AG e do AE é dado pelo valor
concorrem. Os indivíduos candidatos são ordenados de forma decres- da função de perda, enquanto no GAVaPS é proporcional também
cente, segundo seu valor de fitness. Um número de sobreviventes ao tamanho do vetor de características. O Algoritmo Genético foi
igual ao tamanho da população inicial é selecionado para ir para a testado segundo diferentes configurações dos seguintes parâmetros:
próxima geração. No GAVaPS, nesta fase os indivíduos com idade
igual ao seu tempo de vida são eliminados da população que irá para
a próxima geração, enquanto os demais somam mais um em sua
idade. • Probabilidade de Recombinação: indica qual a probabilidade
de ser feita uma recombinação ao selecionar dois indivíduos
2.5.6 Cálculo do tempo de vida. Para que o tamanho da popu- da população. Os valores testados foram 0.5, 0.7 e 0.9. A pro-
lação possa variar ao longo das gerações, o GAVaPS associa a cada babilidade de mutação é sempre o complemento da probabili-
indivíduo um valor de idade e um de tempo de vida. Quando a dade de recombinação.
idade chega ao tempo de vida, ele é removido de sua população. • Tipo de Reprodução: é referente à estratégia de reprodução
Sua idade é o número de gerações em que ele permaneceu em adotada, no caso, testa-se a reprodução com seleção por meio
uma população. Dois parâmetros devem ser definidos: MinLT o de “Torneio” e “Roleta”.
tempo de vida mínimo, MaxLT o tempo de vida máximo permitido • Tempo de processamento: Para cada combinação dos dois
e α = 21 (MaxLT − MinLT ). Considere fi o valor de fitness de um itens anteriores, os valores foram testados segundo três va-
indivíduo i, MinFit o menor valor de fitness de uma população na riações de tempo. Utilizou-se os tempos de 5 minutos, 10
geração д, MaxFit o maior valor e AvgFit a média dos valores de minutos e 20 minutos.
fitness. O tempo de vida de i é dado por:
f i −MinF it
MinLT + α AvдF it −MinF it
Cada combinação destes valores, identificados na coluna “Teste”,
seAvдFit ⩾ f
i
f i −AvдF it
foi testada em 5 execuções. A Tabela 1 e a Tabela 2 apresentam as
1
2 (MinLT + MaxLT ) + α Max F it −AvдF it médias, na coluna “Mean”, e o desvios padrões dos valores obtidos
seAvдFit ≤ fi
nas execuções de cada instância de teste, na coluna “STD”. O tipo
de reprodução é mostrado na coluna “Reproduction”, o tempo de
Este método utilizado é conhecido como alocação bi-linear, uma execução na coluna “Time” e a probabilidade de recombinação está
das três formas de cálculo de tempo de vida apresentados em Arabas na coluna “CrossType”.
et al. [1994]. A Tabela 3 contém os dados dos testes realizados com o Algo-
2.5.7 Populações em ilhas. No GAVaPS desenvolvido neste tra- ritmo Evolutivo. A coluna “Disp” indica se houve competição entre
balho, foi utilizando um modelo em ilhas [Whitley et al. 1997]. Onde os pais e os filhos durante a aplicação do operador de sobrevivên-
são definidos os parâmetros de intervalo de migração e tamanho cia. “Lambda” contém o valor que determina o número de filhos a
da migração. O primeiro regula de quantas em quantas gerações serem gerados, “Pop” é o tamanho da população, “Reproduction” é o
ocorrerá o intercâmbio de indivíduos, enquanto o segundo indica tipo de seleção de pais utilizado pelo operador de reprodução. Na
quantos dos melhores indivíduos de uma ilha serão copiados e acres- coluna “Time” está o tempo de execução, enquanto “Gen” informa
centados a outra. Além destes dois parâmetros, há o número de ilhas o número de gerações. Em “Best” está o menor valor da função de
utilizado. Ao migrar, as cópias dos indivíduos têm seu tempo de vida perda encontrado em um indivíduo.
recalculados e sua idade reiniciada.
Teste CrossType Reproduction Time Mean STD Teste CrossType Reproduction Time Mean STD
1 0.9 Tournament 5 0.175 0.011 50 0.7 Tournament 10 0.173 0.006
2 0.9 Tournament 10 0.176 0.005 51 0.7 Tournament 20 0.168 0.006
3 0.9 Tournament 20 0.166 0.005 52 0.7 Tournament 5 0.193 0.009
4 0.9 Tournament 5 0.194 0.005 53 0.7 Tournament 10 0.194 0.016
5 0.9 Tournament 10 0.193 0.018 54 0.7 Tournament 20 0.191 0.009
6 0.9 Tournament 20 0.211 0.017 55 0.7 Roulette Whell 5 0.178 0.006
7 0.9 Roulette Whell 5 0.181 0.011 56 0.7 Roulette Whell 10 0.171 0.010
8 0.9 Roulette Whell 10 0.168 0.006 57 0.7 Roulette Whell 20 0.171 0.012
9 0.9 Roulette Whell 20 0.169 0.009 58 0.7 Roulette Whell 5 0.191 0.009
10 0.9 Roulette Whell 5 0.194 0.013 59 0.7 Roulette Whell 10 0.204 0.006
11 0.9 Roulette Whell 10 0.195 0.007 60 0.7 Roulette Whell 20 0.200 0.020
12 0.9 Roulette Whell 20 0.205 0.014 61 0.5 Tournament 5 0.174 0.003
13 0.7 Tournament 5 0.176 0.005 62 0.5 Tournament 10 0.171 0.010
14 0.7 Tournament 10 0.178 0.009 63 0.5 Tournament 20 0.166 0.011
15 0.7 Tournament 20 0.173 0.010 64 0.5 Tournament 5 0.195 0.016
16 0.7 Tournament 5 0.196 0.013 65 0.5 Tournament 10 0.198 0.017
17 0.7 Tournament 10 0.201 0.011 66 0.5 Tournament 20 0.191 0.015
18 0.7 Tournament 20 0.205 0.011 67 0.5 Roulette Whell 5 0.175 0.015
19 0.7 Roulette Whell 5 0.174 0.005 Tabela 2. Resultados do Algoritmo Genético - Parte II
20 0.7 Roulette Whell 10 0.176 0.013
21 0.7 Roulette Whell 20 0.169 0.009
22 0.7 Roulette Whell 5 0.198 0.012
23 0.7 Roulette Whell 10 0.199 0.009
24 0.7 Roulette Whell 20 0.183 0.006 Teste Best Disp Lambda Pop Reproduction Time Gen
25 0.5 Tournament 5 0.181 0.005 1 0.17 0 1 10 Tournament 60 64
26 0.5 Tournament 10 0.173 0.006 2 0.17 0 3 10 Tournament 60 23
27 0.5 Tournament 20 0.170 0.011 3 0.17 0 7 10 Tournament 63 10
28 0.5 Tournament 5 0.200 0.023 4 0.173 0 1 30 Tournament 60 21
29 0.5 Tournament 10 0.195 0.009 5 0.18 0 3 30 Tournament 61 7
30 0.5 Tournament 20 0.204 0.003 6 0.165 0 7 30 Tournament 60 3
31 0.5 Roulette Whell 5 0.176 0.009 7 0.203 1 1 10 Tournament 60 66
32 0.5 Roulette Whell 10 0.174 0.005 8 0.178 1 3 10 Tournament 60 22
33 0.5 Roulette Whell 20 0.173 0.009 9 0.168 1 7 10 Tournament 60 9
34 0.5 Roulette Whell 5 0.204 0.009 10 0.19 1 1 30 Tournament 61 21
35 0.5 Roulette Whell 11 0.193 0.010 11 0.18 1 3 30 Tournament 66 8
36 0.5 Roulette Whell 20 0.204 0.018 12 0.18 1 7 30 Tournament 60 3
37 0.9 Tournament 5 0.174 0.005 13 0.1725 0 1 10 Roulette Whell 61 70
38 0.9 Tournament 10 0.179 0.009 14 0.18 0 3 10 Roulette Whell 62 23
39 0.9 Tournament 20 0.170 0.007 15 0.17 0 7 10 Roulette Whell 66 10
40 0.9 Tournament 5 0.189 0.012 16 0.1675 0 1 30 Roulette Whell 61 22
41 0.9 Tournament 10 0.194 0.008 17 0.17 0 3 30 Roulette Whell 62 7
42 0.9 Tournament 20 0.196 0.019 18 0.175 0 7 30 Roulette Whell 62 3
43 0.9 Roulette Whell 5 0.178 0.003 19 0.1775 1 1 10 Roulette Whell 60 64
44 0.9 Roulette Whell 11 0.175 0.007 20 0.19 1 3 10 Roulette Whell 61 21
45 0.9 Roulette Whell 20 0.169 0.011 21 0.1875 1 7 10 Roulette Whell 65 10
46 0.9 Roulette Whell 5 0.200 0.006 22 0.1925 1 1 30 Roulette Whell 61 21
47 0.9 Roulette Whell 10 0.199 0.013 23 0.1825 1 3 30 Roulette Whell 63 7
48 0.9 Roulette Whell 20 0.198 0.018 24 0.185 1 7 30 Roulette Whell 64 3
49 0.7 Tournament 5 0.181 0.011 Tabela 3. Resultados do Algoritmo Evolutivo
Tabela 1. Resultados do Algoritmo Genético - Parte I
Tabela 7 Tabela 9
Tabela 11
25 - SantaLucia d
S 26 - Sarai f
lexibility
0.5 1
2 2
0 0 -0.5
0 50 100 150 200 250
-1
0 50 100 150 200 250
-2 -2 1
27 - Stability
2
28 - Stacking e
nergy
0.5 0 29 - Sugimoto d
G 30 - Sugimoto d
H
0 -1 0 0
-0.5 -2 -1 -1
1 1 -0.5 -1
0 0
-1 -1 -1
0 50 100 150 200 250
-2
0 50 100 150 200 250
2 0 -2
0 50 100 150 200 250
-2
0 50 100 150 200 250
-0.5 -2
9 - DNA denaturation 10 - Bending stiffness 0 50 100 150 200 250 0 50 100 150 200 250
2 0
0 -1
-2 -2
0 100 200 300 0 100 200 300
11 - Protein DNA twist 12 - Stabilising energy of Z-DNA Fig. 5. Perfis das propriedades de dinucleotídeos. De 25 a 36.
2 1
0 0
-2 -1
0 100 200 300 0 100 200 300 0.8
37 - Slide
0.6
38 - Rise
0.6 0.4
0.4 0.2
0.2 0
0 -0.2
-0.2 -0.4
-0.6
-0.6
-0.8
-0.8 -1
-1 -1.2
0 50 100 150 200 250 0 50 100 150 200 250
13 - Aida B
A t ransition 14 - Breslauer d
G
1 0
0 -0.5
-1
0 50 100
15 - Breslauer
150
H
200 250
-1
0 50 100
16 - Breslauer
150
S
200 250
Fig. 6. Perfis das propriedades de dinucleotídeos. De 37 a 38.
d d
1 1
0 0
-1 -1
0 50 100 150 200 250 0 50 100 150 200 250
1 - Bendability (DNAse) 2 - Bendability (consensus)
17 - Electron i
nteraction 18 - Hartman t
rans f ree e nergy 0.2 0.5
0 2
0 0
-1 0
-0.2 -0.5
-2 -2 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
19 - Helix-Coil ransition 20 - Ivanov A t ransition 3 - Trinucleotide GC Content 4 - Nucleosome positioning
t B 1 0.05
0 1
0 0
-0.5 0
-1 -0.05
-1 -1 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
5 - Consensus r
oll 6 - Consensus-Rigid
21 - Lisser B
Z t ransition 22 - Polar i
nteraction 0.5 0.5
2 0
0 0
0 -1
-0.5 -0.5
-2 -2 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
7 - Dnase I 8 - Dnase I-Rigid
23 - SantaLucia d
G 24 - SantaLucia d
H 0.5 0.5
0 1
0 0
-1 0
-0.5 -0.5
-2 -1 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
9 - MW-Daltons 10 - MW-kg
2 20
0 0
-2 -20
0 50 100 150 200 250 0 50 100 150 200 250
11 - Nucleosome 12 - Nucleosome-Rigid
0.5 0.5
-0.5
0
-0.5
0 50 100 150 200 250 0 50 100 150 200 250
REFERÊNCIAS
Jaroslaw Arabas, Zbigniew Michalewicz, and Jan Mulawka. 1994. GAVaPS-a genetic
algorithm with varying population size. In Evolutionary Computation, 1994. IEEE
World Congress on Computational Intelligence., Proceedings of the First IEEE Conference
on. IEEE, 73–78.
Leo Breiman. 1996. Bagging predictors. Machine learning 24, 2 (1996), 123–140.
Peter Büchlmann and Bin Yu. 2002. Analyzing bagging. Annals of Statistics (2002),
927–961.
Sávio G Carvalho, Renata Guerra-Sá, and Luiz H de C Merschmann. 2015. The impact
of sequence length and number of sequences on promoter prediction performance.
BMC bioinformatics 16, 19 (2015), S5.
Wei Chen, Tian-Yu Lei, Dian-Chuan Jin, Hao Lin, and Kuo-Chen Chou. 2014. PseKNC: a
flexible web server for generating pseudo K-tuple nucleotide composition. Analytical
biochemistry 456 (2014), 53–60.
Felipe de Mendiburu. 2017. agricolae: Statistical Procedures for Agricultural Research.
https://CRAN.R-project.org/package=agricolae R package version 1.2-6.
Yanglan Gan, Jihong Guan, and Shuigeng Zhou. 2012. A comparison study on feature
selection of DNA structural properties for promoter prediction. BMC bioinformatics
13, 1 (2012), 4.
David E. Goldberg. 1989. Genetic Algorithms in Search, Optimization and Machine
Learning (1st ed.). Addison-Wesley Longman Publishing Co., Inc., Boston, MA,
USA.
Jiawei Han, Jian Pei, and Micheline Kamber. 2011. Data mining: concepts and techniques.
Elsevier.
John H Holland. 1975. Adaptation in natural and artificial systems. An introductory
analysis with application to biology, control, and artificial intelligence. Ann Arbor,
MI: University of Michigan Press (1975).
William H Kruskal and W Allen Wallis. 1952. Use of ranks in one-criterion variance
analysis. Journal of the American statistical Association 47, 260 (1952), 583–621.
Ramzan Kh Umarov and Victor V Solovyev. 2017. Recognition of prokaryotic and
eukaryotic promoters using convolutional deep learning neural networks. PloS one
12, 2 (2017), e0171410.
Darrell Whitley, Soraya Rana, and Robert B Heckendorn. 1997. Island model genetic
algorithms and linearly separable problems. In AISB International Workshop on
Evolutionary Computing. Springer, 109–125.