Vous êtes sur la page 1sur 9

Seleção de atributos para o problema de classificação de regiões

promotoras utilizando estratégias evolutivas


LAURO ÂNGELO GONÇALVES DE MORAES, Universidade Federal de Ouro Preto
Foi realizado um estudo da resolução do problema de seleção de atributos Neste trabalho foram desenvolvidas duas técnicas de seleção de
para a classificação de regiões promotoras em DNA. Para tanto, foram testa- atributos para o problema de classificação de regiões promotores em
das algumas abordagens populacionais, baseadas em Algoritmos Genéticos DNA. A primeira utiliza um Algoritmo Genético (AG), enquanto a
(AG). Além disso, técnicas evolutivas foram implementadas para calibrar segunda a utiliza um Algoritmo Evolutivo (AE) inspirado no GAVaPS-
automaticamente alguns dos parâmetros dos AGs. Testes foram realizados a [Arabas et al. 1994]. Utilizando estes algoritmos, foi verificado
utilizando diversas combinações de parâmetros para o AG convencional,
quais dentre 50 diferentes propriedades físico-químicas de interações
enquanto a versão evolutiva deste auto-adapta estes valores sem necessidade
de serem configurados apriori. Os testes foram realizados utilizando uma entre nucleotídeos são as mais promissoras para definir vetores de
base de dados contendo fragmentos de regiões de DNA da planta Arabidopsis. características a serem utilizadas pelo método de classificação, no
caso, o bagged tree, baseado em árvores de decisão [Breiman 1996].
Additional Key Words and Phrases: Computação evolutiva, classificação de Para gerar o valor da função de perda, cada solução foi avaliada pelo
regiões promotoras, bioinformática, mineração de dados método de validação cruzada com 10 partições.
ACM Reference format: Neste trabalho é apresentado um método de seleção de atributos
Lauro Ângelo Gonçalves de Moraes. 2018. Seleção de atributos para o pro- baseado em um algoritmo evolutivo para o problema de classificação
blema de classificação de regiões promotoras utilizando estratégias evoluti- de regiões promotores em DNA. É verificado quais dentre 50 diferen-
vas. 1, 1, Article 1 (July 2018), 9 pages. tes propriedades físico-químicas de interações entre nucleotídeos
https://doi.org/0000001.0000001_2 são as mais promissoras para definir vetores de características a
serem utilizadas pelo método de classificação bagged tree, baseado
em árvores de decisão [Breiman 1996], ou seja, através da avaliação
1 INTRODUÇÃO cruzada com 10 partições disjuntas [Han et al. 2011], quais mini-
Segundo Gan et al. [2012], o problema de classificação de regiões mizam a função de fitness, que considera tanto os tamanhos dos
promotoras tem grande importância para a anotação funcional genô- vetores de características quanto seus valores de função de perda
mica. Estas regiões indicam o início do processo de transcrição ge- (loss function).
nética, onde o RNA mensageiro se acopla à fita de DNA e transcreve
os nucleotídeos da sequência subsequente. O TSS (transcription 2 METODOLOGIA
start site) é a posição exata onde este processo se inicia. Como meio 2.1 Bases de dados
de referência posicional, a região que antecede o TSS é chamada
Para este trabalho, fora utilizada uma base de dados contendo re-
de upstream, enquanto a que se situa após o TSS é chamada de
giões do DNA da planta Arabidopsis. Tal base de possui ao todo 1497
downstream.
amostras de regiões promotoras e 2879 de regiões não-promotoras.
Agrupamentos de k nucleotídeos vizinhos definem o que é cha-
Cada amostra possui 251 nucleotídeos, sendo 200 localizados ups-
mado de k-mer, uma unidade utilizada para representar pequenas
tream e 50 downstream. No entanto, por para reduzir os tempos de
cadeias contíguas de DNA. Esta forma de representação é utilizada
processamento durante os testes neste trabalho, os tamanhos foram
em alguns trabalhos, principalmente os 2-mer e os 3-mer, ou seja,
reduzidos para 40 nucleotídeos upstream e 30 downstream.
as cadeias de dinucleotídeos e de trinucleotídeos, respectivamente.
Esta base de dados foi obtida a partir do trabalho de Umarov and
A partir de análises destas unidades é possível criar descritores
Solovyev [2017].
que são utilizados em vetores de características para problemas de
classificação envolvendo sequências de DNA e RNA [Chen et al.
2014].
2.2 Representação dos perfis estruturais para a tarefa de
Para realizar a tarefa de classificação, é necessário definir boas classificação
representações para os vetores de características. Uma boa escolha A fim de representar os perfis estruturais das propriedades físico-
de atributos influencia tanto o desempenho em eficácia quanto em químicas, as cadeias de DNA são analisadas utilizando uma janela
eficiência dos classificadores [Han et al. 2011]. deslizante que mapeia quais são o k-mer encontrados. A partir deste
Como mostrado em Gan et al. [2012], vetores de características mapeamento é possível associar um valor de propriedade a cada
numéricos são gerados a partir perfis estruturais das propriedades um dos k-mer, segundo os valores presentes no trabalho de Chen
físico-químicas relativas aos diferentes 2-mer e 3-mer. Em tal estudo, et al. [2014]. Esta metodologia fora utilizada em diversos trabalhos
são analisadas 13 propriedades, ao todo. da literatura permitiu a obtenção de bons resultados, como os vistos
em Carvalho et al. [2015], que a aplicou junto ao genoma humano.
© 2018 Association for Computing Machinery. A Figura 1 mostra um exemplo ilustrativo de como se dá a con-
This is the author’s version of the work. It is posted here for your personal use. Not versão de uma sequência de nucleotídeos para um perfil estrutural
for redistribution. The definitive Version of Record was published in , https://doi.org/
0000001.0000001_2. de uma propriedade de dinucleotídeos. A janela deslizante mapeia
cada um dos grupos de 2-mer e associa a eles um valor real. São

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


1:2 • Moraes,L. Â. G.

estes valores que montam a sequência que será utilizada como vetor valor da função de perda associados a este vetor. Assim, o fitness de
de características para o método de classificação. uma dada solução s é definida pela equação:

f itness(s) = loss(s)2 × lenдht(s)

onde loss(s) é o valor da função de perda obtida pela 10-validação-


cruzada, utilizando a o vetor de tamanho lenдht(s) da solução s.

2.5 Seleção de atributos por meio de algoritmo


evolucionário
Holland [1975] propôs métodos que simulam o processo natural de
evolução. Seguindo estas ideias, Goldberg [1989] definiu uma classe
de técnicas de busca de propósito geral denominada de Algoritmos
Genéticos (AG).
Fig. 1. Exemplo de conversão de uma sequência de DNA para o perfil estru- Este tipo de modelo, em sua forma padrão, utiliza elementos
tural de uma propriedade de dinucleotídeo. chamados cromossomos, representando soluções candidatas, que
formam populações de tamanho fixo. Estas populações de cromosso-
mos evoluem ao longo de iterações, chamadas de gerações,utilizando
Para cada uma das propriedades consideradas é feita a caracteriza- operadores genéticos de reprodução, recombinação e mutação.
ção de seu relativo perfil estrutural, ou seja, o mapeamento de seus Cada cromossomo possui um conjunto de genes, que são, em
valores, e então eles são concatenados sequencialmente, formando o geral, as varáveis de decisão do problema. No algoritmo original,
vetor de características final que será utilizado como base de treina- sua representação é feita por meio de um vetor binário. Além dos
mento no método de classificação. Assim, todos os valores de todas a genes, a cada solução candidata, há associado um valor de fitness
propriedades consideradas estão no mesmo vetor de características. que reflete o quão boa ela é em relação à sua população, ou seja, o
No Apêndice deste trabalho são mostrados gráficos das médias quão bem adaptada ela é.
dos valores de cada posição de k-mer das amostras utilizadas. Cada Os operadores definem como a busca é feita no espaço de soluções.
gráfico é relativo a uma das 50 propriedades utilizadas. É possível O operador de reprodução copia soluções candidatas de uma geração
notar que próximo à região onde está o TSS os valores oscilam bas- atual para a futura de acordo com uma probabilidade proporcional
tante nas regiões promotoras, o que não é percebido nas regiões ao seus valores de fitness, utilizando originalmente uma estratégia
não-promotoras. Entretanto, vale lembra que estes são os valores chamada de roleta. Já o operador de recombinação cruza os genes de
médios de todas as amostras. Considerando cada amostra separada- dois cromossomos, também selecionados a partir de seus valores de
mente percebe-se muito ruído em relação às curvas apresentadas. fitness, de forma que a cada recombinação entre duas soluções can-
didatas, chamadas de pais, duas novas são geradas, as ditas soluções
2.3 Método de classificação filhas. Por fim, o operador de mutação aplica uma alteração aleatória
Neste trabalho, o método TreeBagger do MATLAB fora utilizado em um cromossomo, permitindo uma perturbação nas soluções já
como método de classificação. Ele gera diversas árvores de decisão existentes.
e combina seus resultados para evitar o overffiting e melhorar seu Já em Arabas et al. [1994], foi proposto um modelo de AG com
poder de generalização. Durante a criação das árvores de decisão, tamanho variável de população chamado GAVaPS (Genetic Algorithm
cada split de um nó é feito utilizando um subconjunto determinado with Varying Population Size), onde os indivíduos da população
aleatoriamente [Breiman 1996]. Este tipo de split permite obter bons possuem um valor de idade, sendo que aqueles mais bem adaptados
resultados ao utilizar vetores com alta dimensionalidade [Büchl- possuem um tempo de vida maior do que aqueles com baixos valores
mann and Yu 2002]. de fitness. O tempo de vida máximo e mínimo são definidos pelo
usuário, antes de sua execução. Neste modelo, tanto os pais quanto os
2.4 Métrica de avaliação filhos são alocados na mesma população em cada geração, sendo que
A técnica de 10-validação-cruzada [Han et al. 2011], gera 10 partições a pressão seletiva se dá principalmente pelo tempo de vida atribuída
disjuntas da base de treinamento original. A cada iteração, 1 das aos indivíduos. Aqueles que possuem sua idade igual ao seu tempo
partições é usada como base de teste o restante como de treinamento. de vida morrem, ou seja, são eliminados da população. O cálculo
Este processo se repete até que todas as partições tenham sido usadas do tempo de vida de um indivíduo pode ser feito utilizando uma
como partição de teste pelo menos, e no máximo, uma vez. de três equações: alocação proporcional, alocação linear e alocação
A cada uma das 10 iterações, a função de perda é calculada pela bi-linear .
função de classificação e armazenada. Ao final, a média aritmética A seleção para a reprodução no modelo original se dá de forma
dos valores armazenados das funções de perda é calculada e retor- uniforme, onde dois pais são selecionados aleatoriamente, sem crité-
nada como valor de perda da solução. rios baseados no fitness, como na roleta. Assim, todos os indivíduos
A função a ser minimizada neste problema envolve o tamanho têm a mesma probabilidade de serem selecionados [Arabas et al.
do vetor de características utilizado por uma solução, bem como o 1994].

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


Seleção de atributos para o problema de classificação de regiões promotoras utilizando estratégias evolutivas • 1:3

Baseado nestes modelos, um Algoritmo Genético foi desenvolvido


neste trabalho visando resolver a tarefa de seleção de atributos para
a classificação de regiões promotoras. Os atributos em questão, são
os valores de diversas propriedades físico-químicas de dinucleotí-
deos e trinucleotídeos e o fitness é proporcional ao quadrado da
função de perda, que o classificador obtém para aquele conjunto de
propriedades consideradas, vezes o tamanho do vetor de caracte-
rísticas. A partir do modelo do AG, algumas estratégias evolutivas
foram aplicadas, gerando um Algoritmo Evolutivo (AE), onde vários
dos parâmetros que regulam o comportamento dos operadores se
auto-adaptam ao longo das iterações. Por fim, um modelo baseado
no GAVaPS e no AE, onde a população também evolui ao longo das
iterações.
A seguir, são descritas algumas das principais características dos
algoritmos desenvolvidos, como a representação das soluções, a
mecânica dos operadores e a auto-adaptação dos parâmetros.

2.5.1 Soluções e indivíduos. As soluções candidatas carregam


informações relativas às variáveis do problema, no caso, quais propri- Fig. 2. Exemplo de recombinação uniforme (acima) e recombinação por
edades físico-químicas serão consideradas durante a formação dos corte em 2 pontos (abaixo).
vetores de características dados como entrado para o classificador.
Foram criados um vetor binário de 38 posições para as proprieda-
des de dinucleotídeos e um vetor binário de 12 posições para as de Na Figura 2 é mostrado dois exemplos de recombinação, as cores
trinucleotídeos, estes são os genes do cromossomo. servem para mostrar a origem de cada gene presente nos cromosso-
Cada sequência da base de dados possui 71 nucleotídeos, assim, mos. O primeiro é referente ao tipo uniforme. Nele é possível ver
cada propriedade de dinucleotídeos gera um conjunto de 70 valores que na posição 1 ambos os filhos escolheram o bit do Pai B. Já na
reais, pois uma janela deslizante de tamanho 2 é aplicada sobre a posição 2, o Filho A escolheu o bit do Pai A e o Filho B escolheu
sequência, enquanto as propriedades de trinucleotídeos, como uma o do Pai B, enquanto na posição 3 esta escolha foi invertida. Já na
janela de tamanho 3, geram 69 valores reais. Estes valores, são então posição 4, como ambos têm o mesmo valor, manteve-se os mesmos
concatenados formando o vetor de características final. bits. A escolha do bit entre um pai ou outro é determinada por uma
O conceito de indivíduo, aplicado no Algoritmo Evolutivo e no probabilidade igual para cada pai, ou seja, 50%.
GAVaPS deste trabalho, é mais amplo que o de solução, pois ele Já no segundo exemplo da Figura 2, é mostrada uma recombinação
carrega, além de uma solução candidata, os parâmetros que serão de corte em 2 pontos. Os índices de corte selecionados foram os
auto-adaptados ao longo da evolução. Estes parâmetros afetam dire- das posições 4 e 7, assim, a primeira partição vai da posição 1 à 7, a
tamente como os operadores genéticos serão aplicados à solução que segunda da 5 à 7, e a terceira, da posição 8 à última do vetor, no caso,
ele carrega. Tais parâmetros, sofrem também a ação dos operadores a 10. Desta forma, o Filho A herda os genes presentes na primeira e
genéticos durante as iterações. na terceira partição do Pai A, e do Pai B ele herda a segunda partição.
Os parâmetros auto-adaptáveis são: a probabilidade de se operar a Já o Filho B herda apenas a segunda partição do Pai A e as outras
recombinação (a mutação é sempre a probabilidade complementar); duas são advindas do Pai B.
a intensidade de mutação para determinar se um gene vai sofrer ou A probabilidade de ocorrer uma recombinação é de 70% no AG.
não a mutação (podendo haver um único valor de probabilidade Já no AE e no GAVaPS os indivíduos da população inicial recebem
para todos os genes ou um para cada gene); o valor da variância a um valor de probabilidade aleatório. Durante o processo de reprodu-
ser aplicada na distribuição normal de média zero (sigma), o qual ção a média aritmética das probabilidades dos dois pais é utilizada
determina a alteração do valor de um gene em uma mutação. Cada para determinar se haverá a recombinação, ou a mutação no caso
gene possui um valor de sigma, logo as mutações podem gerar passos da probabilidade complementar. Os dois filhos gerados possuem
mais largos em um gene do que em outro. valores de probabilidade de recombinação determinados por uma
recombinação real entre os valores dos pais.
2.5.2 Operadores de recombinação. Neste trabalho, duas estraté- 2.5.3 Operador de mutação. Os genes possuem um valor de pro-
gias de recombinação foram implementadas. Na primeira, os vetores babilidade que determina se ele sofrerá a mutação, ou seja, seu bit
dos progenitores são percorridos, e, onde os bits não são iguais, cada será invertido. Outro valor associado ao gene é um desvio padrão
filho seleciona o bit de um dos pais de acordo com um probabilidade sigma, usado para recalcular a probabilidade de mutação do gene.
fixa de 0.5. Na outra forma de recombinação, são selecionados k Ao ocorrer a mutação, uma função de distribuição normal com mé-
posições distintas, sendo k um valor aleatório entre 2 e 5, do vetor de dia igual ao valor da probabilidade e desvio padrão igual a sigma é
genes. Há então, uma permutação alternada das cadeias contíguas utilizada para redefinir a probabilidade de mutação do gene. Caso o
contidas entre as posições selecionadas para se gerar os dois filhos. valor extrapole os limites entre 0 e 1, eles são corrigidos.

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


1:4 • Moraes,L. Â. G.

2.5.4 Operador de reprodução. No GA e AE, o número de filhos 2.5.8 Busca local. Para refinar as soluções encontradas, uma
gerados em cada geração é definido pelo valor da população inicial busca local foi aplicada sempre que um indivíduo com melhor valor
vezes lambda. Ambos são parâmetros dos algoritmos. Já no GAVaPS, de fitness for encontrado, dentre todos os já encontrados, bem como
é igual ao produto de lambda vezes o tamanho da população atual. no melhor filho de uma população. A busca local implementada visa
Para cada par de filhos gerados, um par de pais é selecionado economizar tempo de processamento, já que o custo de se avaliar
nesta fase. Esta seleção pode ser feita por meio de torneio ou roleta o fitness de um indivíduo é alto. Assim, apenas cinco vizinhanças
no GA e apenas por torneio no GAVaPS. No torneio, dentre quatro aleatórias são exploradas em cada busca. Caso seja fitness seja melho-
candidatos, apenas dois são selecionados para serem os pais, os com rado, a solução é movida para a vizinhança de melhora e o processo
maiores valores de fitness. No método da roleta, considerando uma de se explorar outras cinco vizinhanças e aplicada novamente, caso
população de tamanho N , cada indivíduo i, com valor de fitness fi , não haja melhora o processo da busca se encerra.
recebe uma probabilidade pi de ser selecionado, tal que:

fi
pi = Í N
j=1 f j 3 EXPERIMENTOS E RESULTADOS
2.5.5 Operador de sobrevivência. Nos modelos baseados no GA Cada um dos três modelos (AG, AE e GAVaPS) foram implemen-
e no AE, existem duas formas de sobrevivência, uma onde ocorre tados, em Matlab, visando analisar o impacto da variação de seus
a concorrência entre pais e filhos, e outra onde somente os filhos parâmetros. O valor de fitness do AG e do AE é dado pelo valor
concorrem. Os indivíduos candidatos são ordenados de forma decres- da função de perda, enquanto no GAVaPS é proporcional também
cente, segundo seu valor de fitness. Um número de sobreviventes ao tamanho do vetor de características. O Algoritmo Genético foi
igual ao tamanho da população inicial é selecionado para ir para a testado segundo diferentes configurações dos seguintes parâmetros:
próxima geração. No GAVaPS, nesta fase os indivíduos com idade
igual ao seu tempo de vida são eliminados da população que irá para
a próxima geração, enquanto os demais somam mais um em sua
idade. • Probabilidade de Recombinação: indica qual a probabilidade
de ser feita uma recombinação ao selecionar dois indivíduos
2.5.6 Cálculo do tempo de vida. Para que o tamanho da popu- da população. Os valores testados foram 0.5, 0.7 e 0.9. A pro-
lação possa variar ao longo das gerações, o GAVaPS associa a cada babilidade de mutação é sempre o complemento da probabili-
indivíduo um valor de idade e um de tempo de vida. Quando a dade de recombinação.
idade chega ao tempo de vida, ele é removido de sua população. • Tipo de Reprodução: é referente à estratégia de reprodução
Sua idade é o número de gerações em que ele permaneceu em adotada, no caso, testa-se a reprodução com seleção por meio
uma população. Dois parâmetros devem ser definidos: MinLT o de “Torneio” e “Roleta”.
tempo de vida mínimo, MaxLT o tempo de vida máximo permitido • Tempo de processamento: Para cada combinação dos dois
e α = 21 (MaxLT − MinLT ). Considere fi o valor de fitness de um itens anteriores, os valores foram testados segundo três va-
indivíduo i, MinFit o menor valor de fitness de uma população na riações de tempo. Utilizou-se os tempos de 5 minutos, 10
geração д, MaxFit o maior valor e AvgFit a média dos valores de minutos e 20 minutos.
fitness. O tempo de vida de i é dado por:

f i −MinF it


 MinLT + α AvдF it −MinF it
 Cada combinação destes valores, identificados na coluna “Teste”,
seAvдFit ⩾ f

i


f i −AvдF it
foi testada em 5 execuções. A Tabela 1 e a Tabela 2 apresentam as
1
2 (MinLT + MaxLT ) + α Max F it −AvдF it médias, na coluna “Mean”, e o desvios padrões dos valores obtidos




seAvдFit ≤ fi
 nas execuções de cada instância de teste, na coluna “STD”. O tipo

de reprodução é mostrado na coluna “Reproduction”, o tempo de
Este método utilizado é conhecido como alocação bi-linear, uma execução na coluna “Time” e a probabilidade de recombinação está
das três formas de cálculo de tempo de vida apresentados em Arabas na coluna “CrossType”.
et al. [1994]. A Tabela 3 contém os dados dos testes realizados com o Algo-
2.5.7 Populações em ilhas. No GAVaPS desenvolvido neste tra- ritmo Evolutivo. A coluna “Disp” indica se houve competição entre
balho, foi utilizando um modelo em ilhas [Whitley et al. 1997]. Onde os pais e os filhos durante a aplicação do operador de sobrevivên-
são definidos os parâmetros de intervalo de migração e tamanho cia. “Lambda” contém o valor que determina o número de filhos a
da migração. O primeiro regula de quantas em quantas gerações serem gerados, “Pop” é o tamanho da população, “Reproduction” é o
ocorrerá o intercâmbio de indivíduos, enquanto o segundo indica tipo de seleção de pais utilizado pelo operador de reprodução. Na
quantos dos melhores indivíduos de uma ilha serão copiados e acres- coluna “Time” está o tempo de execução, enquanto “Gen” informa
centados a outra. Além destes dois parâmetros, há o número de ilhas o número de gerações. Em “Best” está o menor valor da função de
utilizado. Ao migrar, as cópias dos indivíduos têm seu tempo de vida perda encontrado em um indivíduo.
recalculados e sua idade reiniciada.

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


Seleção de atributos para o problema de classificação de regiões promotoras utilizando estratégias evolutivas • 1:5

Teste CrossType Reproduction Time Mean STD Teste CrossType Reproduction Time Mean STD
1 0.9 Tournament 5 0.175 0.011 50 0.7 Tournament 10 0.173 0.006
2 0.9 Tournament 10 0.176 0.005 51 0.7 Tournament 20 0.168 0.006
3 0.9 Tournament 20 0.166 0.005 52 0.7 Tournament 5 0.193 0.009
4 0.9 Tournament 5 0.194 0.005 53 0.7 Tournament 10 0.194 0.016
5 0.9 Tournament 10 0.193 0.018 54 0.7 Tournament 20 0.191 0.009
6 0.9 Tournament 20 0.211 0.017 55 0.7 Roulette Whell 5 0.178 0.006
7 0.9 Roulette Whell 5 0.181 0.011 56 0.7 Roulette Whell 10 0.171 0.010
8 0.9 Roulette Whell 10 0.168 0.006 57 0.7 Roulette Whell 20 0.171 0.012
9 0.9 Roulette Whell 20 0.169 0.009 58 0.7 Roulette Whell 5 0.191 0.009
10 0.9 Roulette Whell 5 0.194 0.013 59 0.7 Roulette Whell 10 0.204 0.006
11 0.9 Roulette Whell 10 0.195 0.007 60 0.7 Roulette Whell 20 0.200 0.020
12 0.9 Roulette Whell 20 0.205 0.014 61 0.5 Tournament 5 0.174 0.003
13 0.7 Tournament 5 0.176 0.005 62 0.5 Tournament 10 0.171 0.010
14 0.7 Tournament 10 0.178 0.009 63 0.5 Tournament 20 0.166 0.011
15 0.7 Tournament 20 0.173 0.010 64 0.5 Tournament 5 0.195 0.016
16 0.7 Tournament 5 0.196 0.013 65 0.5 Tournament 10 0.198 0.017
17 0.7 Tournament 10 0.201 0.011 66 0.5 Tournament 20 0.191 0.015
18 0.7 Tournament 20 0.205 0.011 67 0.5 Roulette Whell 5 0.175 0.015
19 0.7 Roulette Whell 5 0.174 0.005 Tabela 2. Resultados do Algoritmo Genético - Parte II
20 0.7 Roulette Whell 10 0.176 0.013
21 0.7 Roulette Whell 20 0.169 0.009
22 0.7 Roulette Whell 5 0.198 0.012
23 0.7 Roulette Whell 10 0.199 0.009
24 0.7 Roulette Whell 20 0.183 0.006 Teste Best Disp Lambda Pop Reproduction Time Gen
25 0.5 Tournament 5 0.181 0.005 1 0.17 0 1 10 Tournament 60 64
26 0.5 Tournament 10 0.173 0.006 2 0.17 0 3 10 Tournament 60 23
27 0.5 Tournament 20 0.170 0.011 3 0.17 0 7 10 Tournament 63 10
28 0.5 Tournament 5 0.200 0.023 4 0.173 0 1 30 Tournament 60 21
29 0.5 Tournament 10 0.195 0.009 5 0.18 0 3 30 Tournament 61 7
30 0.5 Tournament 20 0.204 0.003 6 0.165 0 7 30 Tournament 60 3
31 0.5 Roulette Whell 5 0.176 0.009 7 0.203 1 1 10 Tournament 60 66
32 0.5 Roulette Whell 10 0.174 0.005 8 0.178 1 3 10 Tournament 60 22
33 0.5 Roulette Whell 20 0.173 0.009 9 0.168 1 7 10 Tournament 60 9
34 0.5 Roulette Whell 5 0.204 0.009 10 0.19 1 1 30 Tournament 61 21
35 0.5 Roulette Whell 11 0.193 0.010 11 0.18 1 3 30 Tournament 66 8
36 0.5 Roulette Whell 20 0.204 0.018 12 0.18 1 7 30 Tournament 60 3
37 0.9 Tournament 5 0.174 0.005 13 0.1725 0 1 10 Roulette Whell 61 70
38 0.9 Tournament 10 0.179 0.009 14 0.18 0 3 10 Roulette Whell 62 23
39 0.9 Tournament 20 0.170 0.007 15 0.17 0 7 10 Roulette Whell 66 10
40 0.9 Tournament 5 0.189 0.012 16 0.1675 0 1 30 Roulette Whell 61 22
41 0.9 Tournament 10 0.194 0.008 17 0.17 0 3 30 Roulette Whell 62 7
42 0.9 Tournament 20 0.196 0.019 18 0.175 0 7 30 Roulette Whell 62 3
43 0.9 Roulette Whell 5 0.178 0.003 19 0.1775 1 1 10 Roulette Whell 60 64
44 0.9 Roulette Whell 11 0.175 0.007 20 0.19 1 3 10 Roulette Whell 61 21
45 0.9 Roulette Whell 20 0.169 0.011 21 0.1875 1 7 10 Roulette Whell 65 10
46 0.9 Roulette Whell 5 0.200 0.006 22 0.1925 1 1 30 Roulette Whell 61 21
47 0.9 Roulette Whell 10 0.199 0.013 23 0.1825 1 3 30 Roulette Whell 63 7
48 0.9 Roulette Whell 20 0.198 0.018 24 0.185 1 7 30 Roulette Whell 64 3
49 0.7 Tournament 5 0.181 0.011 Tabela 3. Resultados do Algoritmo Evolutivo
Tabela 1. Resultados do Algoritmo Genético - Parte I

Os testes realizados sobre o modelo GAVaPS combinaram dife-


rentes valores para os seguintes parâmetros: tamanho da população
inicial “iniPop”; percentual (“lambda”) da população de uma geração

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


1:6 • Moraes,L. Â. G.

que definirá o número de filhos gerados; o número de ilhas (“nIs- Tabela 5


lands”) utilizados e o intervalo de migração (“period”). O tamanho
da migração foi fixado em 10% da população da ilha de origem e o trt means M
destino de uma migração é determinado aleatoriamente, desde que C001 88 a
não seja a própria ilha. C002 77 ab
Na Tabela 4, são mostrados os 24 diferentes tipos de configurações C017 75.5 abc
utilizados para testar o modelo GAVaPS evolutivo implementado, C014 70.75 abcd
a coluna “ID” identifica a combinação de parâmetros, enquanto na C006 61.375 abcde
coluna “Configuração” são mostrados os valores dos parâmetros. O C019 60.375 abcde
primeiro da tupla e é o tamanho da população inicial (iniPop), o se- C007 55.5 abcdef
gundo é o lambda, que regula o número de filhos gerados. O terceiro C011 52.75 abcdef
parâmetros é o número de ilhas utilizado, enquanto o quarto valor C015 48.5 bcdefg
é referente ao intervalo de gerações em que ocorrerá a migração C003 47 bcdefg
entre as ilhas. C024 47 bcdefg
C010 46.5 bcdefg
C005 45 bcdefg
ID Configuração ID Configuração ID Configuração
C004 44.875 bcdefg
C001 (10, 0.3, 1, 3) C009 (10, 0.6, 2, 3) C017 (20, 0.3, 4, 3)
C013 42.25 bcdefg
C002 (10, 0.3, 1, 6) C010 (10, 0.6, 2, 6) C018 (20, 0.3, 4, 6)
C003 (10, 0.3, 2, 3) C011 (10, 0.6, 4, 3) C019 (20, 0.6, 1, 3) C012 39.625 cdefg
C004 (10, 0.3, 2, 6) C012 (10, 0.6, 4, 6) C020 (20, 0.6, 1, 6) C009 39.5 cdefg
C005 (10, 0.3, 4, 3) C013 (20, 0.3, 1, 3) C021 (20, 0.6, 2, 3) C022 38.375 defg
C006 (10, 0.3, 4, 6) C014 (20, 0.3, 1, 6) C022 (20, 0.6, 2, 6) C016 38.125 defg
C007 (10, 0.6, 1, 3) C015 (20, 0.3, 2, 3) C023 (20, 0.6, 4, 3) C020 37.875 defg
C008 (10, 0.6, 1, 6) C016 (20, 0.3, 2, 6) C024 (20, 0.6, 4, 6) C008 36.875 defg
C021 32.375 efg
Tabela 4. Configurações dos experimentos do modelo GAVaPS evolutivo.
C018 23.125 fg
C023 15.75 g
Tabela 6. Avaliação dos valores de fitness pelo teste de Kruskal.
Para avaliar o impacto das configurações de parâmetros, uma
análise estatística utilizando o teste de Kruskal-Wallis [Kruskal and
Wallis 1952] foi feita usando a plataforma estatística R [de Mendi- 4 CONSIDERAÇÕES FINAIS
buru 2017]. Os resultados são relativos aos testes que foram execu-
Estes modelos serviram como estudo de técnicas de computação
tados por trinta minutos. Na Tabela 6 são mostrados os ranks e os
evolutiva aplicados ao problema de classificação de regiões promo-
grupos gerados para a valor de fitness. Já na Tabela 10 a análise é
toras em DNA. Neste trabalho, apenas regiões de planta Arabidopsis
feita sobre o valor da função de perda. Por fim, a Tabela 8 é relativa
foram utilizados, assim, em trabalhos futuros é possível avaliar o
ao número de avaliações de funções objetivos feitas pelo algoritmo.
comportamento destes modelos na tarefa de selecionar as proprie-
O identificador da combinação está na coluna “trt”, e é referente
dades que melhor se adequem à tarefa de classificar outros tipos de
aos parâmetros mostrados na Tabela 4. A coluna “means” mostra
organismos.
a médias dos ranks gerados pelo algoritmo de Kruskal-Wallis para
Para avaliar o fitness de cada indivíduo, levando em consideração
cada combinação. Na coluna “M” são mostrados os grupos a que as
o tamanho dos vetores de características e o valor da função de
combinações pertencem, segundo o algoritmo de análise estatística.
perda, uma combinação entre estes dois objetivos transformou este
Assim, aqueles que possuem alguma letra em comum possuem seme-
problema em mono-objetivo, entretanto, é pertinente implementar
lhança estatística. Os melhores posicionados no rank são colocados
um modelo multi-objetivo para comparar com a abordagem utilizada
nas últimas linhas de cada tabela.
neste trabalho. Visando melhorar a capacidade preditiva do modelo,
Apesar de algumas combinações ficarem mais bem colocadas nos
é possível também testar o uso de outros métodos de classificação,
ranks pelo teste de Kruskal-Wallis, não houve diferença estatística
como redes neurais e SVM.
significativa de fato entre os grupos dos testes relativos ao fitness e à
Os resultados obtidos nos testes deste trabalho foram comparáveis
função de perda, o que permite escolher qualquer combinação de pa-
aos encontrados na literatura, como os mostrados em Umarov and
râmetros. Entretanto, em relação ao número de avaliações realizadas
Solovyev [2017], de onde foi obtida a base de dados.
é possível perceber que há diferença estatística significativa, como
mostrado na Tabela 12. Considerando estas três análises e é difícil
escolher uma configuração que seja melhor que as outras, podemos
escolher de acordo com algum critério específico, mas lembrando
que pode não haver uma diferença substancial do ponto de vista
estatístico.

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


Seleção de atributos para o problema de classificação de regiões promotoras utilizando estratégias evolutivas • 1:7

Tabela 7 Tabela 9

trt means M id trt means M


C023 82.25 a C008 91.5 a
C006 78.875 ab C007 79.75 ab
C010 62.875 abc C020 79.75 ab
C018 60.875 abc C009 74.25 abc
C017 59.75 abc C014 70.75 abcd
C002 58.375 abc C019 63.125 abcde
C016 57.75 abc C004 62.875 abcde
C005 56.75 abc C021 59.75 bcdef
C011 56.125 abc C022 59.375 bcdef
C007 52.75 abc C003 51.125 bcdefg
C021 52.375 abc C013 50.125 bcdefg
C024 51.5 abc C010 48.5 cdefgh
C009 45.375 abc C015 44.625 cdefgh
C004 44.875 abc C016 43 defghi
C008 44 bc C023 40.125 efghi
C022 39.625 c C002 39 efghi
C013 38.75 c C024 36.375 efghi
C012 37.125 c C001 35.5 efghi
C015 36.75 c C018 32.875 fghi
C014 32.875 c C012 27.5 ghi
C001 32.5 c C005 20.25 hi
C020 29.375 c C017 19.875 hi
C003 27.125 c C006 19.75 hi
C019 25.375 c C011 14.25 i
Tabela 8. Avaliação do número do valor da função de perda pelo teste de Tabela 10. Avaliação do número de avaliações de funções objetivo pelo teste
Kruskal. de Kruskal.

Tabela 11

Critério testado p-value


Número de avaliações 0.0002736969
Fitness 0.06206249
Loss function 0.2503
Tabela 12. P-values dos testes realizados.

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


1:8 • Moraes,L. Â. G.

25 - SantaLucia d
S 26 - Sarai f
lexibility
0.5 1

1 - Base stacking 2 - Protein induced deformability 0 0

2 2
0 0 -0.5
0 50 100 150 200 250
-1
0 50 100 150 200 250
-2 -2 1
27 - Stability
2
28 - Stacking e
nergy

0 100 200 300 0 100 200 300 0 0

3 - B-DNA twist 4 - Dinucleotide GC Content -1


0 50 100 150 200 250
-2
0 50 100 150 200 250

0.5 0 29 - Sugimoto d
G 30 - Sugimoto d
H

0 -1 0 0

-0.5 -2 -1 -1

0 100 200 300 0 100 200 300 -2


0 50 100 150 200 250
-2
0 50 100 150 200 250
31 - Sugimoto S 32 - Watson-Crick nteraction
5 - A-philicity 6 - Propeller twist 0
d
0
i

1 1 -0.5 -1

0 0
-1 -1 -1
0 50 100 150 200 250
-2
0 50 100 150 200 250

0 100 200 300 0 100 200 300 2


33 - Twist
2
34 - Tilt

7 - Duplex stability:(freeenergy) 8 - Duplex tability(disruptenergy) 0 0

2 0 -2
0 50 100 150 200 250
-2
0 50 100 150 200 250

1 -0.5 35 - Roll 36 - Shift


0 -1 0.5 2

0 100 200 300 0 100 200 300 0 0

-0.5 -2

9 - DNA denaturation 10 - Bending stiffness 0 50 100 150 200 250 0 50 100 150 200 250

2 0
0 -1
-2 -2
0 100 200 300 0 100 200 300
11 - Protein DNA twist 12 - Stabilising energy of Z-DNA Fig. 5. Perfis das propriedades de dinucleotídeos. De 25 a 36.
2 1
0 0
-2 -1
0 100 200 300 0 100 200 300 0.8
37 - Slide
0.6
38 - Rise

0.6 0.4

0.4 0.2

0.2 0

0 -0.2

-0.2 -0.4

Fig. 3. Perfis das propriedades de dinucleotídeos. De 1 a 12. -0.4

-0.6
-0.6

-0.8

-0.8 -1

-1 -1.2
0 50 100 150 200 250 0 50 100 150 200 250

13 - Aida B
A t ransition 14 - Breslauer d
G
1 0

0 -0.5

-1
0 50 100
15 - Breslauer
150
H
200 250
-1
0 50 100
16 - Breslauer
150
S
200 250
Fig. 6. Perfis das propriedades de dinucleotídeos. De 37 a 38.
d d
1 1

0 0

-1 -1
0 50 100 150 200 250 0 50 100 150 200 250
1 - Bendability (DNAse) 2 - Bendability (consensus)
17 - Electron i
nteraction 18 - Hartman t
rans f ree e nergy 0.2 0.5
0 2

0 0
-1 0

-0.2 -0.5
-2 -2 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
19 - Helix-Coil ransition 20 - Ivanov A t ransition 3 - Trinucleotide GC Content 4 - Nucleosome positioning
t B 1 0.05
0 1

0 0
-0.5 0

-1 -0.05
-1 -1 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
5 - Consensus r
oll 6 - Consensus-Rigid
21 - Lisser B
Z t ransition 22 - Polar i
nteraction 0.5 0.5
2 0

0 0
0 -1

-0.5 -0.5
-2 -2 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
7 - Dnase I 8 - Dnase I-Rigid
23 - SantaLucia d
G 24 - SantaLucia d
H 0.5 0.5
0 1

0 0
-1 0

-0.5 -0.5
-2 -1 0 50 100 150 200 250 0 50 100 150 200 250
0 50 100 150 200 250 0 50 100 150 200 250
9 - MW-Daltons 10 - MW-kg
2 20

0 0

-2 -20
0 50 100 150 200 250 0 50 100 150 200 250

11 - Nucleosome 12 - Nucleosome-Rigid
0.5 0.5

Fig. 4. Perfis das propriedades de dinucleotídeos. De 13 a 24. 0

-0.5
0

-0.5
0 50 100 150 200 250 0 50 100 150 200 250

A PERFIS ESTRUTURAIS DAS PROPRIEDADES


Fig. 7. Perfis das propriedades de trinucleotídeos. De 1 a 12.
FÍSICO-QUÍMICAS
A seguir são mostrados gráficos dos 50 perfis de propriedades físico-
químicas utilizados neste trabalho. Inicialmente estão apresentadas
38 propriedades de dinucleotídeos, nas Figuras 3, 4, 5 e 6. Por último,
12 de trinucleotídeos, na Figura 7.
O eixo X representa a posição ordinal do nucleotídeo na sequência
e o eixo Y o valor médio encontrado nas amostras para o nucleotídeo
em uma dada posição, relativo àquela propriedade.
As regiões promotoras estão representadas em azul, enquanto as
regiões não-promotoras estão em vermelho.
É possível perceber que em todas as propriedades há uma grande
variação nas intensidades das curvas promotoras quando próximo
da posição 200, ou seja, do TSS. Já nas regiões não-promotoras, as
intensidades se mostram mais uniformes.

, Vol. 1, No. 1, Article 1. Publication date: July 2018.


Seleção de atributos para o problema de classificação de regiões promotoras utilizando estratégias evolutivas • 1:9

REFERÊNCIAS
Jaroslaw Arabas, Zbigniew Michalewicz, and Jan Mulawka. 1994. GAVaPS-a genetic
algorithm with varying population size. In Evolutionary Computation, 1994. IEEE
World Congress on Computational Intelligence., Proceedings of the First IEEE Conference
on. IEEE, 73–78.
Leo Breiman. 1996. Bagging predictors. Machine learning 24, 2 (1996), 123–140.
Peter Büchlmann and Bin Yu. 2002. Analyzing bagging. Annals of Statistics (2002),
927–961.
Sávio G Carvalho, Renata Guerra-Sá, and Luiz H de C Merschmann. 2015. The impact
of sequence length and number of sequences on promoter prediction performance.
BMC bioinformatics 16, 19 (2015), S5.
Wei Chen, Tian-Yu Lei, Dian-Chuan Jin, Hao Lin, and Kuo-Chen Chou. 2014. PseKNC: a
flexible web server for generating pseudo K-tuple nucleotide composition. Analytical
biochemistry 456 (2014), 53–60.
Felipe de Mendiburu. 2017. agricolae: Statistical Procedures for Agricultural Research.
https://CRAN.R-project.org/package=agricolae R package version 1.2-6.
Yanglan Gan, Jihong Guan, and Shuigeng Zhou. 2012. A comparison study on feature
selection of DNA structural properties for promoter prediction. BMC bioinformatics
13, 1 (2012), 4.
David E. Goldberg. 1989. Genetic Algorithms in Search, Optimization and Machine
Learning (1st ed.). Addison-Wesley Longman Publishing Co., Inc., Boston, MA,
USA.
Jiawei Han, Jian Pei, and Micheline Kamber. 2011. Data mining: concepts and techniques.
Elsevier.
John H Holland. 1975. Adaptation in natural and artificial systems. An introductory
analysis with application to biology, control, and artificial intelligence. Ann Arbor,
MI: University of Michigan Press (1975).
William H Kruskal and W Allen Wallis. 1952. Use of ranks in one-criterion variance
analysis. Journal of the American statistical Association 47, 260 (1952), 583–621.
Ramzan Kh Umarov and Victor V Solovyev. 2017. Recognition of prokaryotic and
eukaryotic promoters using convolutional deep learning neural networks. PloS one
12, 2 (2017), e0171410.
Darrell Whitley, Soraya Rana, and Robert B Heckendorn. 1997. Island model genetic
algorithms and linearly separable problems. In AISB International Workshop on
Evolutionary Computing. Springer, 109–125.

Received Junho 2017

, Vol. 1, No. 1, Article 1. Publication date: July 2018.

Vous aimerez peut-être aussi