Manual Prático - Teórico Bioinfo PDF

Manual Prático – Teórico: Sequenciamento...
Manual Prático – Teórico:

Sequenciamento, Montagem e
Anotação de Genomas
Bacterianos
2 Vasco Azevedo et al.
Vasco Ariston de Carvalho Azevedo

Professor do curso de Pós-Graduação em Genética da Universidade Federal de Minas Gerais
Maria Paula Schneider

Professora do curso de Pós-Graduação em Genética da Universidade Federal do Pará
Artur Luiz da Costa da Silva

Professor do curso de Pós-Graduação em Genética da Universidade Federal do Pará
Anderson Miyoshi
Professor do curso de Pós-Graduação em Genética da Universidade Federal de Minas Gerais
Aluízio Borém
Professor de Pós-Graduação em Genética e Melhoramento da Universidade Federal de Viçosa
Organizadores
Manual Prático – Teórico:

Sequenciamento, Montagem e
Anotação de Genomas
Bacterianos
Belo Horizonte, MG
Manual Prático – Teórico: Sequenciamento... 3
2011
 2011 by Vasco Ariston de Carvalho Azevedo e outros
Todos os direitos reservados. Nenhuma parte desta publicação pode ser re-
produzida sem a autorização escrita e prévia dos detentores do copyright.
Impresso no Brasil
Ficha catalográfica preparada pela Seção de Catalogação e Classificação da

Biblioteca Central da UFV
Azevedo, Vasco, 1956-
B731b Manual Prático – Teórico: Sequenciamento, Montagem e
2011 Anotação de Genomas Bacterianos /Vasco Azevedo e outros.
115p. : il.
1. Biotecnologia. 2. Engenharia genética. 3. Clonagem. 4. Di-
versidade biológica. 5. Genética molecular.
CDD. 19. ed. 620.82
CDD. 20. ed. 620.82
Revisão linguística
Edir Barbosa – Editora UFV
Diagramação
José Roberto da Silva Lana
Organizador para Correspondência

Prof. Vasco Ariston de Carvalho Azevedo
Departamento de Biologia Geral - ICB
Universidade Federal de Minas Gerais
31270-010 Belo Horizonte, MG
Tels. (31) 3409-2610
Fax (31) 3409-2610
E-mail: vascoariston@gmail.com
Autores Contribuintes
Adriana Ribeiro Carneiro: Biomédica, M.Sc. e doutoranda na Universidade
Federal do Pará. E-mail: carneiroar@gmail.com
Anderson Rodrigues dos Santos: Cientista da Computação, M.Sc. e doutoran-
do na Universidade Federal de Minas Gerais. E-mail: ander-
son2010@gmail.com
Ariel Amadio: M.Sc., Ph.D. e professor do Institute of Microbiology and
Agricultural Zoology, Argentina. E-mail: aamadio@rafaela.inta.gov.ar
Henrique Velloso Ferreira Melo: Doutorando na Universidade Federal de
Minas Gerais. E-mail: hvmelo@gmail.com
José Miguel Ortega: Professor Associado da Universidade Federal de Minas
Gerais. E-mail: miguel@icb.ufmg.br
Louise Teixeira Cerdeira: Cientista da Computação, M.Sc. e doutoranda na
Universidade Federal do Pará. E-mail: lcerdeira@gmail.com
Maria Silvanira Ribeiro Barbosa: Bióloga e Técnica do Laboratório de Poli-
morfismo de DNA da Universidade Federal do Pará. E-mail: nirabarbo-
sa@gmail.com
Rafael Lucas Muniz Guedes: Doutorando na Universidade Federal de Minas
Gerais. E-mail: rafaelmguedes@yahoo.com.br
Rodrigo Santos de Oliveira: Biólogo. E-mail: rodrigodeolivei-
ra01@gmail.com
Rommel Thiago Jucá Ramos: Analista de Sistemas, M.Sc. e doutorando na
Universidade Federal do Pará. E-mail: rommelthiago@gmail.com
Sintia Silva de Almeida: Bióloga, M.Sc. e doutoranda na Universidade Fede-
ral de Minas Gerais. E-mail: sintiaalmeida@gmail.com
Vinícius A. C. Abreu: Cientista da Computação e doutorando na Universida-
de Federal de Minas Gerais. E-mail: vini.abreu@gmail.com
Vivian D’Afonseca: Bióloga, M.Sc. e doutoranda na Universidade Federal de
Minas Gerais. E-mail: vivian.dsf@gmail.com
Sumário
APRESENTAÇÃO.........................................................................................9
CONSTRUÇÃO DAS BIBLIOTECAS MATE-PAIRED PARA
SEQUENCIAMENTO SOLID....................................................................13
INTRODUÇÃO AO LINUX .......................................................................17
DISTRIBUIÇÕES DO LINUX ...............................................................................18
COMO SE CONECTAR A PARTIR DO WINDOWS .................................................18
COMANDOS LINUX ..........................................................................................20
CONSULTANDO O NCBI ..................................................................................33
MYSQL – BANCO DE DADOS PARA ORGANIZAR E
INTERPRETAR SEUS DADOS .................................................................39
MONTAGEM, GERAÇÃO DE SCAFFOLDS E FINALIZAÇÃO DE
GENOMAS PROCARIOTOS IN SILICO ................................................ 59
ANALISANDO A QUALIDADE DO SEQÜENCIAMENTO .................................61
MONTAGEM DE GENOMAS PROCARIOTOS ........................................................62
GERAÇÃO DE SCAFFOLD .................................................................................66
UTILIZAÇÃO DE LEITURAS CURTAS PARA ELIMINAÇÃO DE GAPS ......................67
SOLID RUN ANALYSIS ...........................................................................75
PREDIÇÃO GÊNICA ................................................................................83
FGENESB – SUÍTE DE PROGRAMAS PARA PREDIÇÃO GÊNICA E BUSCA DE
OPERON BACTERIANO .....................................................................................83
PREDIÇÃO DE DNA REPETITIVO .......................................................................87
PREDIÇÃO DE RRNA .......................................................................................87
PREDIÇÃO DE TRNA .......................................................................................88
ANOTAÇÃO FUNCIONAL DE GENOMAS REALIZADA
COMPUTACIONALMENTE ....................................................................91
ANOTAÇÃO GENÔMICA – CURADORIA MANUAL .......................111
ARTEMIS: DNA SEQUENCE VIEW AND ANNOTATION TOOL ....................111
ANÁLISES COMPARATIVAS IN SILICO ............................................119

ACT: ARTEMIS COMPARISON TOOL .........................................................119
IDENTIFICAÇÃO IN SILICO DE PROTEÍNAS TRANSMEMBRANAS
OU SECRETADAS ....................................................................................125
APLICAÇÕES .............................................................................................126
PROGRAMAS PARA PREDIÇÃO DE PROTEÍNAS TRANSMEMBRANA ..............126
PREDIÇÃO DE PROTEÍNAS SECRETADAS ....................................................130
PREDIÇÃO DE EPÍTOPOS .....................................................................139
NETMHC SERVER 3.2 ..........................................................................139
NET MHCII 2.2 .......................................................................................140
BEPIPRED 1.0 ........................................................................................142
SUBMISSÃO DE UM GENOMA PROCARIOTO AO NCBI:
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION ..145
Apresentação
A palavra GENOMA foi inventada em 1920 pelo Dr. H.
Winkler, que fundiu a palavra “GENes e cromossOMAs”. O termo
GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi
proposta a criação de uma nova disciplina e de uma nova revista
científica. Muitas definições foram propostas para a Genômica, como:
Coleção de genes de um organismo; Casamento entre a biologia
celular e molecular com a genética clássica e a adoção da ciência da
computação; Biologia molecular em grande escala; Rol de tecnologias
capazes de decodificar a sequência de DNA de qualquer organismo;
uma nova ciência que estuda todo o genoma, integrando disciplinas
tradicionais como citologia, genética mendeliana, quantitativa, de
populações e molecular com novas tecnologias derivadas da
informática e de sistemas robóticos automatizados.
As técnicas de sequenciamento de DNA, que surgiram no fi-
nal da década de 1970, foram também um marco importante da Ge-
nômica. O desenvolvimento dessas técnicas está em constante evolu-
ção. Hoje, elas são mais acuradas e menos dispendiosas para atender à
demanda de projetos no campo da genômica. Durante essas três déca-
das, houve espantoso crescimento na capacidade, velocidade da gera-
ção e depósito de dados genômicos. As técnicas evoluíram significati-
vamente desde a resolução de pequeno genoma de um vírus, bacterió-
fago (5.386 pb) até o sequenciamento do genoma humano completo
com aproximadamente 3 bilhões de pares de base. Além disso, rapi-
dez, custo, acurácia e aumento na quantidade de dados gerados foram
atributos que obtiveram melhorias nas plataformas de sequenciamen-
to. Como armazenar e tratar os dados gerados tornou-se questão cru-
cial imposta pela Genômica para a comunidade científica? Dessa for-
ma, a busca de soluções para o armazenamento e tratamento de dados
levou à necessidade de desenvolver softwares para identificação de
genes, predição de estruturas de proteínas, identificação de inibidores
de enzimas, construção de árvores filogenéticas, comparação de múl-
tiplos genomas, análise de expressão gênica, entre outras inúmeras

aplicações.
Novamente, um novo paradigma de fazer ciência surgiu
através da Genômica, sendo necessária a criação de novas disciplinas,
em que a mais importante foi a Bioinformática. Esta combina as
ferramentas e técnicas da matemática, ciência da computação e
biologia para compreender o significado biológico de uma variedade
de dados. Hoje, há relação de mutualismo entre essas duas ciências, e
uma precisa da outra para existir.
Mais de 85% de todos os projetos genoma realizados na Amé-
rica Latina estão sendo conduzidos no Brasil, onde aproximadamente
40 projetos de genomas estão em andamento em quase todo o territó-
rio nacional. Vale ressaltar, também, que o Brasil não ocupa lugar de
destaque apenas com relação à América Latina. No ranking de países
que desenvolvem pesquisas genômicas, o Brasil encontra-se em nono
lugar, juntamente com outras nações, como a Coreia, China e os paí-
ses da Europa.
Apesar de sermos reconhecidos mundialmente na área, há
pouco material em português, e os que existem na língua inglesa tra-
tam especificamente cada fase do processo e estão espalhados em
vários sites da WEB, dificultando o acesso à informação. Isso nos
leva a perder tempo enorme para conseguirmos ter eficiência no tra-
tamento dos dados genômicos gerados.
Este Manual representa um esforço conjunto entre professores
e pós-graduandos da Universidade Federal de Minas Gerais (UFMG),
Universidade Federal do Pará (UFPA) e Universidade Federal de
Viçosa (UFV), para a disseminação do conhecimento em análises de
Bioinformática. Ele é o produto de um projeto iniciado a partir do
projeto genoma de Corynebacterium pseudotuberculosis, linhagem
1002, através da Rede Genoma de Minas Gerais (RGMG), em 2006, e
culminou no sequenciamento de mais sete linhagens desse mesmo
organismo, utilizando as plataformas Next Generation Applied
Biosystems SOLiD e GE DIGE/Shimadzu, em uma parceria
envolvendo o Laboratório de Genética Celular e Molecular (LGCM)
do Instituto de Ciências Biológicas (ICB) da UFMG, a Rede Paraense
de Genômica e Proteômica da Fundação de Amparo à Pesquisa do
Estado do Pará (FAPESPA) e a Fundação de Amparo à Pesquisa do

Estado de Minas Gerais (FAPEMIG).
A associação do grupo do Pará com pesquisadores da rede
mineira foi decisiva para o sucesso alcançado até o momento.
Entretanto, as pesquisas desenvolvidas a partir do projeto genoma
produziram grande volume de dados, por isso foi implantado, por
meio da rede, um suporte de informática adequado para a extração e
armazenamento das informações geradas. Isso, no início, foi tarefa
difícil, porém muito gratificante, em que as horas de lazer foram
substituídas por muito trabalho e levaram à necessidade de criar
documentação sobre o trabalho realizado, e as experiências de cada
um, nas informações retiradas da literatura, foram, então, agrupadas
neste Manual.
Em termos de sua organização, este Manual está constituído
de Introdução básica ao conceito de construção de biblioteca mate-
paired para sequenciamento (capítulo 1). No capítulo 2, reunimos
alguns comandos básicos do Linux que julgamos serem os mais
relevantes para os objetivos do livro, em que apresentamos exemplos
de comandos mais utilizados. O capítulo 3 aborda brevemente sobre
alinhamento de sequências e busca de similaridades utilizando o
algoritmo Basic Local Alignment Search Tool (BLAST) do National
Center for Biotechnology Information (NCBI); nos exemplos são
abordados os tipos de BLAST e parâmetros mais comumente
utilizados; e o capítulo 4 continua com a utilização do banco de dados
MySQL para análise dos resultados de BLAST.
A montagem, geração de scaffolds e finalização de genomas
procariotos foram abordadas no capítulo 5. Neste capítulo são
apresentadas as plataformas de sequenciamento de alto desempenho e
de nova geração; são apresentadas duas estratégias para a montagem
de genomas obtidos pelo sequenciamento utilizando a plataforma
SOLiD, a primeira conhecida por reference assembly; e a segunda
abordagem é ab initio. Também, foi discutida a preparação dos dados
para a montagem, avaliação de qualidade, geração de contigs e
scaffolds e as ferramentas utilizadas em todos os passos.
O capítulo 6 é uma complementação do capítulo anterior,
onde são mostrados exemplos do tratamento das sequências obtidas
através da plataforma SOLiD, programas e scripts utilizados para a
transformação de color-space, em formato double-encoded, para

posterior conversão em nucleotídeos.
Nos capítulos 7, 10, 11 e 12 são destacadas diversas
ferramentas para predições e análises, desde a predição gênica e
localização subcelular de proteínas até ferramentas de
imunoinformática e análise comparativa entre genomas.
Os itens 8 e 9 apresentam duas abordagens distintas e, ao
mesmo tempo, complementares, acuradoria manual e a automática,
que de certa maneira se apresenta simples quando realizada de
maneira automática, mas completamente elaborada quando realizada
de forma manual.
Finalmente, o capítulo 13 traz um tutorial com informações
básicas de como se submete um genoma procarioto ao banco de dados
mais popular do mundo, o NCBI, sendo aqui mostrado desde o
tratamento, preparação dos dados e correção de erros até sua completa
submissão.
Ao final de cada capítulo pode ser encontrada uma
bibliografia básica recomendada e, quando utilizado, um conjunto de
sites de interesse geral.
Temos convicção de que este é o primeiro Manual de
referência para montagem, anotação de genomas, tratamento e análise
dos dados. A sua organização com breves descrições teóricas das
abordagens e ferramentas de bioinformática utilizadas e as dicas de
como utilizar cada uma delas fazem deste Manual instrumento
bastante prático. Esperamos, assim, cumprir nosso papel como
professores e pesquisadores, bem como ter o privilégio de participar
cada vez mais para o desenvolvimento das diversas metodologias aqui
apresentadas, dando suporte de informática adequado para a extração
e armazenamento das informações geradas.
Os organizadores.
Construção das Bibliotecas Mate-

Paried para Sequenciamento Solid
Maria Silvanira R. Barbosa 1
O protocolo para construção das bibliotecas genômicas tem

como base os manuais Applied Biosystems SOLiD 3 Plus System:
Library Preparation Guide, Templated Bead Preparation Guide e Ins-
trument Operation Guide.
Para a construção das bibliotecas são utilizados os reagentes
SOLiD LMP Library Enzyme Kit (Applied Biosystems), além dos
reagentes adicionais Solid library oligos Kit, Solid ePCR Kit, Solid
bead enrichmnt Kit, Solid bead deposition Kit, Solid buffer Kit, Solid
light source, Solid flowcell orings, Solid 3 Instrument buffer Kit, Solid
Slide Pack Kit, Solid workflow analysis reagent, Solid mate pared
library bead e buffer kit e Solid mate-paired library sequencing kit,
todos do mesmo fabricante.
A biblioteca mate-paired consiste de fragmentos de DNA lo-
calizados próximos um do outro no genoma, devido ao fato de terem
sido originados das duas extremidades do mesmo fragmento de DNA
genômico. Essa biblioteca pode apresentar tamanhos de insertos que
variam de 600 bp a 6 kb, e isso depende do tipo de fragmentação do
DNA realizada no sistema HydroShear® ou Covaris. Após esse pro-
cesso, os fragmentos passam por uma reação de reparo das extremida-
des (end repair) para, então, serem ligados a adaptadores (LMP CAP
adaptores), sendo em seguida feita a seleção do tamanho do fragmen-
to de interesse em gel de agarose 1%, na faixa exata de fragmentação.
1
Bióloga, técnica do Laboratório de Polimorfismo de DNA da Universidade Federal
do Pará. E-mail: nirabarbosa@gmail.com.
A próxima etapa consiste na circularização do inserto, a qual

ocorre através da adição do adaptador interno biotinilado complemen-
tar aos adaptadores LMP CAP da etapa anterior, sendo posteriormente
eliminados os fragmentos que não circularizaram, utilizando o kit
Plasmid-Safe™ ATP-Dependent DNase. No passo seguinte, esse
DNA passa por uma reação de Nick- Translation com a enzima DNA
polymerase I, para que o gap seja movido para uma extensão de 50 bp
(pares de bases). Ao final dessa reação, o DNA é digerido com as
enzimas T7 exonuclease e S1 nuclease, e os fragmentos gerados são
capturados com Dynabeads MyOne Streptavidin C1, que se ligam à
biotina do adaptador interno, resultando em DNA genômico mate-
paired ligado um ao outro, através do adaptador interno.
A amplificação da biblioteca envolve o PCR trial, PCR em
larga escala e purificação do DNA. Nessa etapa, os fragmentos captu-
rados são ligados aos adaptadores P1 e P2 complementares aos pri-
mers de amplificação da biblioteca e, posteriormente, purificados para
servirem de molde na PCR em emulsão (ePCR).
A ePCR ocorre em uma bolha de água, denominada microrre-
ator, e consiste em duas fases: aquosa e oleosa. Na primeira, contendo
todos os reagentes de uma PCR, as beads acopladas ao primer P1 são
utilizadas para a amplificação dos templates; na segunda, a mistura
do óleo de emulsão e dois estabilizadores irão isolar os microrreatores
da fase aquosa, quando misturadas no Ultra-turax® tube drive®. Pos-
teriormente, realiza-se a etapa de enriquecimento, em que beads de
poliestireno recobertas por adaptadores P2 se ligam às beads com
produtos de extensão completa após a ePCR, através da hibridização
por oligos. Por fim, realiza-se a reação de modificação 3’ do P2 com a
terminal transferase, a fim de criar afinidade do P2 com o “slide”,
requerida durante o sequenciamento. Após essa etapa, as beads são
submetidas ao sequenciamento exploratório e workflow analisys
(WFA), que irá avaliar a qualidade das “beads” geradas na biblioteca
para serem depositadas nos “slides”, bem como determinar a concen-
tração recomendada para a deposição final no slide, estimando a co-
bertura genômica antes da corrida de sequenciamento, visando maxi-
mizar os resultados finais.
Referências
1- SOLiD System Mate-Paired Libraries Detect and Define Large Genetic
Rearrangements. Disponível em:
<http://www3.appliedbiosystems.com/cms/groups/mcb_marketing/docume
nts/generaldocuments/cms_057555.pdf>.
2- Mate pair sequencing assay. Disponível em:
<http://www.illumina.com/technology/mate_pair_sequencing_assay.ilmn
3- Preparing 2–5kb Samples for Mate Pair Library Sequencing>.
http://grcf.jhmi.edu/hts/protocols/MatePair_2-
5kbSamplePrep_1005363_RevB.pdf
4- Mate pair
http://chip.dfci.harvard.edu/index2.php?option=com_content&do_pdf=1&
id=72
SOLiD System Barcoding
http://www3.appliedbiosystems.com/cms/groups/mcb_marketing/documen
ts/generaldocuments/cms_057554.pdf
5- SOLiD™ System Sequencing and 2 Base Encoding
http://www3.appliedbiosystems.com/cms/groups/mcb_marketing/documen
ts/generaldocuments/cms_057810.pdf
6- Mate pair
http://chip.dfci.harvard.edu/index.php?option=com_content&task=view&i
d=72&Itemid=114
Introdução ao Linux
Jose Miguel Ortega 2

Rafael Lucas Muniz Guedes 3
Vinícius A. C. Abreu 4
Alguns conceitos e definições se fazem importantes antes de

começarmos a entender o que é o Linux.
Sistema Operacional (SO): É o componente de software que
faz a interface básica entre os programas do usuário e o hardware,
gerenciando componentes de entrada e saída, recursos e periféricos.
Gerencia também outros subsistemas, como: segurança, privilégios,
comunicação e outros.
Kernel: É o componente central de qualquer SO, concentran-
do as principais funções e tarefas de processamento. Serve como pon-
te entre aplicativos e o processamento real de dados feito em nível do
hardware.
Shell: É um software que serve como interface para o usuário
de SO, permitindo o acesso aos serviços do kernel. Normalmente,
Shell é classificado em duas grandes classes: command-line interface
(CLI – Interface de Linha de Comando) e graphical user interface
(GUI – Interface Gráfica de Usuário). Em ambas as classes, o princi-
pal objetivo é invocar um programa ou um processo.
2
Professor Associado da Universidade Federal de Minas Gerais. E-mail:
miguel@icb.ufmg.br.
3
Doutorando na Universidade Federal de Minas Gerais. E-mail: rafaelmgue-
des@yahoo.com.br.
4
Cientista da Computação e doutorando na Universidade Federal de Minas Gerais.
E-mail: vini.abreu@gmail.com.
Linux: É um sistema operacional que foi desenvolvido pelo

finlandês Linus Torvalds. O seu código-fonte está disponível sob a
licença GPL para qualquer pessoa que utilizar, estudar, modificar e
distribuir de acordo com os termos da licença. Isso quer dizer que
você não precisa pagar nada para usar o Linux, e não é crime fazer
cópias para instalar em outros computadores.
Para rodar o Linux, os requisitos mínimos são um computador
386 SX com 2 MB de memória (para um kernel até a série 2.2.x) ou 4
MB (para kernels 2.4 e 2.6) e 100 MB disponíveis em seu disco rígido
para uma instalação básica e funcional.
O Linux apresenta pacotes de aplicativos para escritório (Li-
breOffice; BrOffice, por exemplo) ou de uso geral gratuitos, mas que
em nada ficam a dever aos seus concorrentes comercializados (projeto
GNU) e interfaces gráficas muito amigáveis, como o KDE e o
GNOME e o núcleo linux, conhecido por sua estabilidade e robustez.
Distribuições do Linux
Em Bioinformática é comum o uso de computadores que uti-
lizam sistemas operacionais baseados em Linux [1]. Os sistemas ope-
racionais relacionados a seguir são todos baseados nessa plataforma e
possuem acesso gratuito:
 CentOS (distribuição gratuita do RedHat Enterprise) [2]
 Fedora [3]
 Ubuntu [4]
A distribuição CentOS é indicada para servidores.
Como se conectar a partir de Windows

É possível acessar servidores através de uma máquina que
possui como sistema operacional o Windows.
 Para troca de arquivos: Secure Shell [5]
 Conexão direta SSH: Putty [6].

Em computadores Apple, o acesso pode ser feito, a partir do
terminal, assim:
ssh usuario@maquina.icb.ufmg.br
Acessando uma conta em um servidor usando o programa Putty

Abra o programa Putty.
Complete o campo Host Name com o IP do servidor e mude
Connection Type ou Protocol para a opção SSH.
Complete o campo Saved Sessions com o nome desejado.
Clique o botão Save.
Figura 1 - Tela inicial do programa Putty.
De agora em diante, com um duplo clique no nome escolhido

o terminal abrirá automaticamente.
Comandos Linux
Para trabalhar com Linux, alguns comandos de uso rotineiro
precisam ser aprendidos. Comandos são ordens passadas ao sistema
operacional para executar determinada tarefa. O sistema operacional
Linux permite, através de uma linha de comando Shell (CLI), a reali-
zação de inúmeras tarefas, seja de manipulação de arquivos, gerenci-
amento de usuários ou simplesmente a chamada de algum outro apli-
cativo. É importante frisar que sempre é usado um espaço depois do
comando para separá-lo de uma opção ou parâmetro que será passado
para o processamento.
Para exibir uma descrição de cada comando, abra um console
(Figura 2) ou xterm e digite o comando man ou --help.
Figura 2 - Terminal de linha de comando no Linux.
Nas versões personal computer PC do Linux, todas são

acompanhadas com as duas classes de interface, ou seja, linha de
comando e interface gráfica. Mas mesmo com a interface gráfica,

muitas das vezes nos deparamos com a necessidade de utilizar linha
de comando.
Nesta seção são descritos alguns comandos usados
diariamente pelos usuários de Linux. A ideia não é de que todos os
comandos sejam decorados, mas que sejam referência quando houver
alguma dúvida. Quanto aprender todos os comandos, isso será natural
e gradativo, de acordo com a necessidade de executar esses
comandos.
Como na subseção anterior, é preciso que alguns conceitos
sejam explicados para que se possam entender os comandos.
Diretório: É o local utilizado para armazenar arquivos para
melhor organização e localização. No Linux não podem existir dois
arquivos com o mesmo nome em um diretório, ou um subdiretório
com o mesmo nome de um arquivo em um mesmo diretório.
Os diretórios nos sistemas Linux/UNIX são especificados por
uma “/” e não uma “\”, como é feito no DOS.
Diretório Raíz: É o diretório principal do sistema. Dentro de-
le estão todos os diretórios do sistema. O diretório Raiz é representa-
do por uma “/”; assim, se você digitar o comando cd /, estará acessan-
do esse diretório. Nele estão localizados outros diretórios, como o
/bin, /sbin, /usr, /usr /local, /mnt, /tmp, /var, /home etc. Estes são
chamados de subdiretórios, pois estão dentro do diretório “/”.
Exemplos de uso dos comandos

Tabulador: É usado para nomes compridos. O tabulador
completa o nome que está sendo digitado desde que exista no diretó-
rio corrente. Recomenda-se fortemente usar o tabulador ao digitar
caminhos compridos, como:
 more /home/seqs/readme.txt
pois, se a máquina completa o nome, é porque o caminho está sendo
digitado corretamente. Use sempre!
Asterisco: utilizado para representar qualquer caractere, por exemplo:
 more *txt
Imprime na tela o conteúdo de readme.txt, assim como:

 more *dme*.
Documentação
 man - Formata e exibe uma página man (man page). O
comando man é usado para mostrar o manual de outros
comandos. Tente "man man" para ver a página do manual do
próprio man. Veja a seção "Man & Getting Help" para mais
informações.
 Help - Exibe informações sobre os comandos internos do
Bash. Ex.: ”help logout”.
 info - Exibe documentação no formato Info, sendo a
navegação pelo documento feito por meio de comandos
internos do Info. Ex.: ”info emacs”.
Data e Hora
 date - Exibe e edita a data e a hora atuais do sistema.
 cal - Exibe um simples calendário.
 hwclock - Consulta ou define o relógio do hardware
(Hardware Clock).
Informações do Sistema (Hardware e Processos)

 df – Mostra o espaço em disco do sistema de arquivos usado
por todas as partições. "df -h" é provavelmente o mais útil -
usa megabytes (M) e gigabytes (G) em vez de blocos para
relatar os tamanhos. (-h significa "human-readable").
 du – Exibe o tamanho de arquivos e, ou, diretórios. Se
nenhum arquivo ou diretório for passado como argumento,
será assumido o diretório atual. O uso da opção du -h tornará
a apresentação mais simples de ser interpretada. Para verificar
o tamanho dos subdiretórios em vez dos arquivos, utilize o
comando a seguir:
"du -k -h –max-depth=1"
 free – Este comando exibe a quantidade de memória livre e

usada no sistema. "free -m" fornece a informação usando
megabytes, que é provavelmente mais útil para computadores
atuais.
 arch – Exibe a arquitetura do computador. Equivale ao
comando ”uname -m”.
 lsdev – Lista o hardware instalado no computador,
especificando os endereços de E/S (Entrada/Saída), IRQ e
canais DMA que cada dispositivo está utilizando.
 lspci - Exibe informações sobre os barramentos PCI do
computador e sobre os dispositivos a ele conectados.
 lsusb - Lista informações sobre os barramentos USB do
computador e sobre os dispositivos a eles conectados.
 uname - Este comando exibe várias informações sobre o
sistema, incluindo o nome da máquina, nome e versão do
Kernel e alguns outros detalhes. É muito útil para verificar
qual é o Kernel usado por você.
o ”uname -a” para exibir todas as informações.
o ”uname -m” para exibir a arquitetura da máquina
(equivale ao ”arch”).
o ”uname -r” para exibir o release do sistema
operacional.
 lsb_release – Este comando fornece informações básicas do
sistema operacional (LSB –Linux Standard Base) e sua
distribuição.
 top - Este comando exibe em tempo real informações sobre
seu sistema Linux, processos em andamento e recursos do
sistema, incluídos CPU, memória RAM e uso do swap, além
do número total de tarefas sendo executadas. O ”top” também
nos permite a manipulação dos processos por meio de
comandos interativos. Veja a seguir alguns dos comandos
interativos mais importantes do ”top”.
”k” - Finaliza, ou seja, “mata” um processo.
”m” - Ativa/Desativa a exibição de informações da memória.
”M” - Ordena os processos pelo uso da memória residente.

”N” - Ordena os processos pelos seus PIDs.
”P” - Ordena os processos pelo uso da CPU (este é o padrão).
”ESPAÇO” - Atualiza imediatamente a visualização do
quadro de processos.
”h” - Exibe a ajuda dos comandos interativos do ”top”.
”q” - Abandona o comando ”top”.
 ps – Apresenta um quadro atual, porém estático dos processos
que estão sendo executados no sistema.
 kill – Finaliza, ou no popular, “mata” processos sendo
executados pelo seu PID, enviando-lhes um sinal.
 ”kill -9 1345” para finalizar o processo de PID número 1345.
Para saber qual PID de determinado processo que está sendo
executado pode ser utilizado o comando ps.
 killall – Finaliza processos pelo nome em vez do PID, como
faz o comando kill. Também, assim como o comando kill, o
killall envia um sinal para o processo.
Arquivos e Diretórios
 pwd - O comando pwd permite sabermos em qual diretório
estamos no momento, em que pwd significa "print working
directory".
 cd - Este comando nos permite deslocar na árvore de
diretórios do sistema. Quando abrimos um terminal ou seção
shell, entramos direto nosso diretório pessoal. Para movermos
pelo sistema de arquivos, devemos usar o cd.
o cd. - Muda-se do diretório corrente para um diretório
acima.
 cp – Copia arquivos e diretórios.
 mv - Este comando move arquivos e diretórios, sendo muito
usado também para renomear arquivo.
 ls - Comando utilizado para listar o conteúdo de um diretório.

Usado com certas opções, é possível ver o tamanho dos
arquivos, quando foram criados e as permissões de cada um.
 ls - l - Lista o diretório corrente com mais informações.
 man ls - Mostra o manual para o comando ls.
 q – Mostra o manual para o comando ls.
 ”ls -hal ~” para mostrar os arquivos que estão no diretório
pessoal, inclusive os ocultos (-a) em forma de listagem (-l) e
com as informações de tamanho mais amigável aos seres
humanos (-h).
 rm - Utilize este comando para remover (deletar) arquivos e,
opcionalmente, diretórios. Por padrão, o comando rm exibe
um prompt, em que o usuário deve confirmar a exclusão de
cada arquivo, digitando a letra “y” depois “Enter”.
 rmdir – Remove um diretório quando ele se encontra vazio.
 mkdir – Comando cuja finalidade é permitir a criação de um
ou mais diretórios.
 chmod – Altera as permissões de acesso de arquivos e
diretórios, não alterando esses atributos de links simbólicos
passados na linha de comando, mais, sim, as permissões dos
arquivos aos quais eles se referem.
 diff – Usado para comparar o conteúdo de dois arquivos,
exibindo a diferença entre eles.
”diff file foo” para ver a diferença entre o conteúdo do
arquivo “file” e o arquivo “foo”.
 find – Comando utilizado para procurar por arquivos na
árvore de diretórios. Se um caminho não for passado ao
comando find, a busca será feita no diretório corrente.
 locate – Pesquisa em uma base de dados de nomes de
arquivos por nomes que satisfaçam determinado padrão.
Sistema de Arquivos
 mount – Monta um sistema de arquivos, tornando-o disponível
para as operações de E/S (Entrada/Saída) em arquivos, ou exibe
uma lista dos sistemas de arquivos atualmente montados.
 umount – Desmonta um sistema de arquivos previamente
montado que não esteja em uso.
 fdisk – Gerencia, por meio de uma simples interface de texto
orientada por menus, as partições de um disco.
 badblocks – Procura por blocos ruins em um dispositivo,
geralmente uma partição de disco.
Usuários e Grupos
 useradd – Cria um novo usuário ou atualiza as informações-
padrão de um usuário no sistema Linux. O comando useradd
cria uma entrada para o usuário no arquivo “/etc/passwd” com
informações do seu login, o user identification (UID), group
identification (GID), shell e diretório pessoal; a senha
criptografada desse usuário é armazenada no arquivo
“/etc/shadow”.
 userdel – Usado para remover uma conta de usuário do
sistema, deletando todas as entradas deste usuário nos
arquivos /etc/passwd, /etc/shadow e /etc/group.
 usermod – Altera as informações de um usuário, editando
diretamente as informações dos arquivos /etc/passwd,
/etc/shadow e /etc/group.
 passwd – Altera a senha de um usuário exibindo um prompt
para que a nova senha seja fornecida e logo depois repetida
para confirmação. O usuário logado pode alterar a própria
senha digitando apenas ”passwd”.
 groupadd – Cria um novo grupo no sistema. Devem-se
remover os usuários do grupo, antes de apagar o grupo, pois o
Linux não faz nenhum tipo de verificação nesse sentido.
 groupdel – Exclui um grupo no sistema.
 groupmod – Altera as informações de um grupo do sistema.
Utilitários de Texto
 cat – Utilizado para concatenar arquivos exibindo o resultado
na tela, sendo também usado para exibir o conteúdo de
arquivos.
 less – Faz a paginação de saídas muito extensas exibindo uma
tela por vez.
 more – Semelhante ao comando less, também faz a paginação
de uma saída muito grande na tela, inclusive as teclas de
navegação e o redirecionamento com uso do “|” (pipe).
 more readme.txt - O Linux imprime na tela o conteúdo do
arquivo; nesse caso, readme.txt.
 head readme.txt - Imprime as primeiras linhas do arquivo.
 grep – Usado para procurar por linhas em um arquivo que
contenha expressões que satisfaçam determinado padrão de
busca.
 tail – Exibe as últimas linhas da saída de um arquivo. Por
padrão, se nenhum parâmetro diferente for passado ao
comando, serão exibidas as últimas 10 linhas do arquivo.
 tail readme.txt - Imprime as primeiras linhas do arquivo.
Monitoramento de Acesso
 w – Mostra quem está logado no sistema e o que está fazendo.
 Usuário do comando – Serão exibidas informações de todos
os usuários logados.
 who – Semelhante ao comando w, mostra quais usuários estão
logados no sistema.
 last – Mostra todas as informações referentes às entradas
(login) e saídas (logout) de usuários do sistema.
 lastlog – Exibe informações referentes ao último login de
cada usuário cadastrado no sistema.
Rede
 ifconfig – Permite configurar as interfaces de rede, sendo o
comando utilizado na inicialização do sistema para
configuração dessas interfaces. Caso nenhum argumento seja
passado junto com o comando, ele apenas irá exibir o estado
das interfaces atualmente definidas.
 ping – Envia requisições ICMP para determinado host. É
ferramenta largamente utilizada para testar a conectividade
entre uma máquina/rede local e máquinas/redes remotas.
 route – Permite exibir a tabela de roteamento (configuração
das rotas) IP do kernel, e o uso das opções add e del permite
também modificar essa tabela, inserindo ou deletando
registros.
 login - Permite ao usuário efetuar o logon (estabelecer uma
conexão) no sistema, bem como ser utilizado para efetuar o
logon com um usuário diferente do atual.
 logout – Finaliza um login shell no console ou terminal. No
modo gráfico, este comando encerra a sessão do usuário,
podendo fechar a janela do terminal, e em modo texto encerra
a sessão do usuário, levando-o de volta ao prompt de login do
sistema ”logout”. O mesmo resultado pode ser alcançado
executando o comando ”exit”.
 su – Permite alternar entre os usuários cadastrados do sistema,
alterando o ID de usuário e grupo do atual usuário para outro
usuário especificado.
 sudo – Permite ao usuário autorizado, conforme configurado
no arquivo “/etc/sudoers”, executar comandos como se fosse
o superusuário (root) ou outro usuário qualquer.
 uname – Exibe várias informações sobre o sistema.
 which – Exibe o caminho completo na hierarquia de diretórios
para os comandos do sistema.
”which firefox” – Exibe o diretório onde se encontra o
programa “firefox”.
 clear – Limpa a tela movendo o cursor para a primeira linha.

Não existem parâmetros passados juntos com este comando.
 halt, reboot, shutdown – Respectivamente, encerra,
reinicializa e encerra ou reinicializa o sistema.
Opções
O comportamento-padrão para um comando pode ser
modificado por adicionar uma opção para o comando. O comando ls,
por exemplo, tem a opção -s , de forma que "ls -s" incluirá o tamanho
dos arquivos na listagem realizada. Há também uma opção -h para que
esses dados estejam em um formato "legível para humanos". As
opções podem ser agrupadas, sendo possível, por exemplo, usar "ls -
sh", que funcionará exatamente da mesma forma que "ls -s -h". Muitas
opções têm versão longa, prefixadas por dois traços em vez de um;
assim, "ls --size --human-readable" é o mesmo comando dado
anteriormente.
Dicas e Truques
Teclas de controle e atalhos:
Ctrl + f = Move o cursor uma palavra para frente.
Ctrl + b = Move o cursor uma palavra para trás.
Ctrl + a + = Para ir ao início da linha de comando.
Ctrl + e = Para ir ao final da linha de comando.
Ctrl + t = Inverte o caractere sob o cursor com o anterior.
Ctrl + u - Limpa a linha de comando corrente.
Ctrl + y = Reinsere o último trecho de comando apagado.
Ctrl + r = Faz uma busca incremental no histórico de comandos
utilizados.
Ctrl + c = Termina a execução do comando corrente.
Ctrl + d = Encerra a entrada de dados pelo teclado, fazendo logout.
Ctrl + m = Equivalente à tecla Enter.
Ctrl + l = Limpa a tela, equivalente ao comando clear.
Ctrl + s = Inibe a exibição de informações na tela de saída.

Ctrl + q = Ativa a exibição de informações na tela de saída, inibida
pelo Ctrl + s.
Ctrl + z.
Põe o processo corrente em background (segundo plano).
Outros comandos importantes

SSH
O comando SSH permite a conexão com outro computador na
rede, de forma a executar comandos de uma unidade remota. Esse
comando é muito útil quando o usuário precisa acessar um servidor ou
uma estação remota.
sintaxe: ssh usuário@servidor -p <porta de acesso> (22 é a
porta padrão)
Editor de texto (vi)

O VI é um editor de texto padrão do Linux, muito útil para
edição de texto, onde você está acessando remotamente.
$ vi nome_do_arquivo
Uma vez carregado o vi, veja a seguir uma lista dos principais
comandos:
Para passar para o modo comando, pressione ESC.
Comandos básicos de inserção de texto

i Insere texto antes do cursor.
a Insere texto depois do cursor.
r Insere texto no início da linha onde se encontra o cursor.
A Insere texto no final da linha onde se encontra o cursor.
o Adiciona linha abaixo da linha atual.
O Adiciona linha acima da linha atual.
Ctrl + h Apaga o último caractere.
Comandos para salvar o texto

:wq Salva o arquivo e sai do editor.
:w nome_do_arquivo Salva o arquivo corrente com o nome
especificado.
:w! nome_do_arquivo Salva o arquivo corrente no arquivo
especificado.
:q Sai do editor.
:q! Sai do editor sem salvar as alterações realizadas.
Exemplo
Acesse o conteúdo disponível em:
<http://biodados.icb.ufmg.br/tutorial2011/Linux>, ou utilize arquivos
próprios para executar os comandos a seguir em um terminal Linux.
 mkdir treinamento.
 cd treinamento [copie todo o conteúdo do link acima para esta
pasta].
 Ls.
Veja o conteúdo do arquivo.

 more aldolase.cds.
Para editar um arquivo, utilize o editor de texto denominado vi.
 vi aldolase.cds.
Para entrar no modo de inserção, digite a letra “i”. Observe
que no canto inferior esquerdo da tela aparece a palavra INSERT.
Nesse momento, você é capaz de digitar livremente. Movimente o
cursor com as setas do teclado.
Troque o nome e descrição da sequência FASTA para apenas
>teste .
Para salvar a modificação, tecle ESC, em seguida dois pontos
(:) e, por fim, x! seguido de ENTER.
Veja como ficou o arquivo após a edição.
 more aldolase.seq.
Pratique com outras sequências presentes no mais conhecido

banco de dados biológico do mundo, o National Center for Biotechno-
logy Information, ou simplesmente NCBI [7]. Por exemplo, procure
por myoglobin no NCBI, utilizando o banco de dados proteico, deno-
minado Protein, como mostrado na Figura 3.
Figura 3 - Website do National Center for Biotechnology Information.
Escolha uma sequência proveniente do resultado da busca e,

então, selecione a opção Send to File e abra o arquivo.
Digite em seu terminal:
 vi mioglobina.pep
Selecione com o mouse o conteúdo da sequência e copie.
Clique no terminal com o botão direito do mouse, e a sequên-
cia será colada.
Salve o novo arquivo gerado como antes (ESC : x!).
OBS.: Consulte o Manual para mais informações sobre seus coman-
dos (man vi).
Consultando o NCBI
Uma consulta simples como a exemplificada na Figura 3 ge-
ralmente retorna quantidade numerosa de dados, o que pode ser um
complicador para obtenção dos dados desejados.
Para filtrar uma consulta, existem diferentes recursos que po-
dem ser adicionados que ajudam a limitar e direcionar o resultado.
Por exemplo, as consultas a seguir combinam palavras-chave contidas
entre colchetes e operadores lógicos (AND, OR e NOT) para direcio-
nar a busca.
 Einstein[Author] AND relativity theory[Title].
 PGM1[Gene Name] AND Homo sapiens[Organism] OR Mus
musculus NOT fragment.
GREP
Em termos simples, o global regular expression print (GREP)
é uma pequena família de comandos que pesquisa arquivos de entrada
para uma sequência de pesquisa e imprime as linhas que combinem
com ele. Embora isso possa não parecer um comando muito útil no
início, grep é considerado um dos comandos mais úteis em qualquer
sistema Unix.
No dia a dia da bioinformática, sempre nos deparamos com
arquivos enormes, como multifasta, resultados de microarray, entre
outros tipos de arquivos. O grep é um comando que, concatenado com
outros, pode auxiliar quanto a esse tipo de situação.
Exemplo 1
$ ls /home/nomeDoUsuário/arquivoMultiFasta.fasta
Como já sabemos, esse comando vai listar o arquivo caso ele
exista.
$ more /home/ nomeDoUsuário/arquivoMultiFasta.fasta (aperte

“q” para sair)
Imprime na tela o conteúdo do arquivo; como se pode ver, é
humanamente impossível.
$ cat /home/ nomeDoUsuário/arquivoMultiFasta.fasta | grep “>” |

more
O comando “|” concatena o cat + grep + more, imprimindo
na tela somente as linhas que começam com “>”. Em alguns multifas-
tas menores, já é possível compreender.
$ cat /home/ nomeDoUsuário/arquivoMultiFasta.fasta | grep “>”

–c
Com esse comando e o parâmetro “-c”, o grep consegue con-
tar quantos sinais > existem, sendo possível saber quantas proteínas
ou aminoácidos há no arquivo multifasta.
Exemplo 2
Observe o arquivo db.fasta:
 more db.fasta (aperte “q” para sair)
Para descobrir quantas sequências proteicas existem nesse ar-
quivo, poderíamos simplesmente contar, o que seria uma tarefa fácil
em arquivo pequeno como esse. Após a contagem, descobrimos que
existem 16 sequências. Mas se pensarmos em arquivo contendo todas
as proteínas humanas, essa tarefa já seria inviável. Para simplificar,
podemos utilizar o comando grep, que identifica rapidamente linhas
que possuem os caracteres especificados dentro de um arquivo. Como
cada sequência proteica apresentada em formato FASTA é precedida
do sinal de “maior que” (>), podemos simplesmente contar quantos
desses sinais existem.
 grep “>” db.fasta –c
A opção –c é utilizada para especificar que desejamos apenas a
contagem final. Caso essa opção fosse retirada, o usuário observaria
uma listagem das linhas que contêm o conteúdo especificado dentro
das aspas. Teste sem o –c.
Pronto, agora você já sabe contar rapidamente sequências em um ar-

quivo.
Banco de dados de sequências e busca de similaridade BLAST no

NCBI
Retorne à página do NCBI e procure pela ferramenta BLAST
[7, 8 e 9] (Basic Local Alignment Search Tool). Essa ferramenta é
muito utilizada em Bioinformática para pesquisa de similaridade entre
sequências biológicas, sejam elas de nucleotídeos ou de aminoácidos.
Clique em nucleotide BLAST
Altere a Database para Others (nucleotide collection nr/nt)
Altere o algoritmo em Program Selection para Somewhat si-
milar sequences (blastn)
O MEGABLAST é uma versão que deve ser usada para, por
exemplo, identificar uma sequência humana no próprio genoma hu-
mano e é muito mais rápido que o BLASTn tradicional. Mas para
iniciar a busca ele requer encontrar uma sequência idêntica maior que
o BLASTn exige.
A versão “descontínua” do MEGABLAST (discontiguos
MEGABLAST) utiliza uma janela de início de alinhamento degene-
rada na terceira posição para favorecer o início do alinhamento quan-
do códons variando na terceira base ocorrem (alinhamentos de se-
quências de organismos muito distantes).
Digite cinco (5) linhas de bases nucleotídicas (ACTG) aleató-
rias no formato fasta, como exemplificado a seguir.
>seunome
acgatcgatcgatcgatcgatcgtagctacgtacg...
Logo após, clique em Run BLAST. Vamos ver qual valor de
E-value você consegue obter? O que isso significa?
Funcionamento do BLAST e valor de e-value

O algoritmo do BLAST fragmenta sua sequência (denomina-
da query) em pedaços (ou seed) de tamanho W. Encontram na Data-
base os pareamentos PERFEITOS da seed. A seed não pode ser muito

pequena para não iniciar pesquisas demais e de pouca importância.
O algoritmo “caminha” para as extremidades tentando esten-
der o alinhamento o máximo possível; nesse processo podem ser inse-
ridos gaps, que são pequenas falhas nos alinhamentos.
A pontuação para cada passo do alinhamento é dada segundo
uma matriz de pontuação. Bases idênticas resultam em pontuação
positiva enquanto abrir gaps, estender gaps, e bases diferentes (mis-
matches) são penalizadas com pontuação negativa.
O algoritmo termina quando estender mais “não compensar”;
logo, determina a máxima subsequência-alvo (subject), que retorna o
maior escore dentro da Database. Assim, o programa visa detectar a
sequência mais similar, baseado em subsequência máxima (alinha-
mento local), o que é um grande facilitador para bioinformatas, por se
tratar de processo computacionalmente mais rápido.
A questão da homologia relaciona-se com o cálculo de E-
value: quantos alinhamentos iguais ou melhores que esses que você
observa poderiam ser obtidos sem nenhuma relação de homologia
entre as sequências aí alinhadas? Se for um número improvável, você
pode resolver desconsiderar a hipótese nula (não homologia), não
pode? Portanto, quanto MENOR, mais próximo de zero for o valor de
E-value obtido no experimento com bases aleatórias acima, melhor.
Distintos experimentos consideram diferentes valores, variando ge-
ralmente entre 1 x 10-5 e 1 x 10-15.
Formatando a Database para uso do BLAST em sua máquina

O BLAST necessita de databases formatadas. Para isso existe
o comando formatdb.
formatdb –i db.fasta –o T –p F
i: input
o: indexa os dados que aparecem no FASTA.
p: responde à seguinte pergunta: É proteína? Caso não: Falso; caso
sim, True.
O significado de alguns parâmetros BLAST

p: Programa: tblastn etc.
i: Entrada: query.
d: Database: tem que estar formatada.
e: E-value: o número de alinhamentos iguais ou melhores que podem
ser obtidos sem homologia.
F: Liga ou desliga o filtro de baixa complexidade.
b: O número de alinhamentos que serão reportados para cada query.
a: Número de processadores que serão utilizados.
m: É o formato do arquivo de saída.
o: É o nome que você quer para o arquivo de saída.
Referências
1- Linux: http://br-linux.org/
2- CentOS: http://www.centos.org/
3- Fedora: http://fedoraproject.org/pt/
4- Ubuntu: http://www.ubuntu-br.org/
5- SSH Secure Shell: http://cromatina.icb.ufmg.br/ssh/
6- Putty: http://www.putty.org/
7- NCBI: http://www.ncbi.nlm.nih.gov/
8- Tutorial em inglês para uso da ferramenta BLAST:
http://www.ncbi.nlm.nih.gov/books/NBK21097/
9- Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers and
David J. Lipmanl: Basic Local Alignment Search Tool. J. Mol. Bio
(1990) 215, 403-410.
10- SSH Secure Shell: http://cromatina.icb.ufmg.br/ssh/
11- Putty: http://www.putty.org/
12- NCBI: http://www.ncbi.nlm.nih.gov/
13- Tutorial em inglês para uso da ferramenta BLAST:
http://www.ncbi.nlm.nih.gov/books/NBK21097/
14- STEPHEN, F.; ALTSCHUL, Warren Gish; WEBB, Miller; EUGENE,

W. M.; DAVID, J. 1990. Lipmanl: basic local alignment search tool. J.
Mol. Biol., 215:403-410.
Mysql – Banco de Dados para

Organizar e Interpretar seus Dados
José Miguel Ortega 5

Henrique Velloso Ferreira Melo 6
Rommel Thiago Jucá Ramos 7
O volume de dados gerados em projetos de Bioinformática é

geralmente muito grande. Por isso é necessário o uso de ferramentas
não somente para armazená-los, mas também para inter-relacioná-los
e interpretá-los de forma automatizada e em larga escala. Essas ferra-
mentas são conhecidas como bancos de dados e possuem uma série de
funções que permitem acessar, correlacionar e visualizar os dados da
maneira mais relevante para o pesquisador.
Um sistema que gerencia bancos de dados é chamado de Sis-
tema Gerenciador de Banco de Dados (SGBD). Há vários SGBDs
disponíveis, cada qual direcionado a um tipo de expectativa do usuá-
rio e do volume de dados a tratar. O SGBD MySQL [1] é simples,
porém muito eficiente, além de ser distribuído gratuitamente. Por essa
razão, é um dos mais utilizados em projetos de Bioinformática.
Bancos de dados são estruturas de dados compostas basica-
mente por tabelas. Existem tabelas internas do sistema e tabelas cha-
madas de negócio. Usuários criam as tabelas de negócio para inter-
relacionar entidades. Tabelas são nada mais que planilhas eletrônicas:
5
Professor Associado da Universidade Federal de Minas Gerais. E-mail:
miguel@icb.ufmg.br
6
Doutorando na Universidade Federal de Minas Gerais. E-mail: hvmelo@gmail.com
7
Analista de Sistemas e mestrando na Universidade Federal do Pará. E-mail:
rommelthiago@gmail.com
possuem linhas e colunas. A sintaxe do MySQL permite escolher

colunas para pesquisar e comparar entradas (registros) das linhas
da(s) tabela(s) de negócio. Enquanto isso, as tabelas de sistema cui-
dam da indexação e dos relacionamentos entre campos de tabelas
distintas.
Inicialmente, veremos como poderíamos proceder para anali-
sar resultados de BLAST [2] sem o uso de MySQL. Vamos analisar
um megablast que utiliza 25 mil CDS humanos como query e 500 mil
transcritos de tumor de mama como database.
Este tutorial é feito para ser executado em Linux ou MacOS.
Se você só possui acesso à plataforma Windows, use o cygwin [3].
Preparação
Crie uma pasta local denominada 'mysql_aula'. Os arquivos deste
tutorial serão copiados para essa pasta, e a partir dela os
comandos serão executados.
Faça o download dos dois arquivos abaixo e copie-os para a pasta
mysql_aula, criada anteriormente:
 http://biodados.icb.ufmg.br/tutorial2011/MySQL/tumor.zi
p
 http://biodados.icb.ufmg.br/tutorial2011/MySQL/cds.zip
Descompacte os arquivos baixados utilizando o programa unzip:
 unzip tumor.zip
 unzip cds.zip
Agora você também terá no seu diretório os arquivos tumor.seq e
h.sapiens.nuc, que correspondem aos FASTAs de tumor de
mama e CDS humanos, respectivamente. Se desejar, você
pode apagar os arquivos .zip nesse ponto, no intuito de
economizar espaço em disco.
 rm *.zip
O arquivo tumor.seq precisa, agora, ser formatado utilizando a
ferramenta do toolkit BLAST denominada formatdb [4]. Esse
passo é necessário, pois os programas BLAST só aceitam
databases formatadas. Para formatar tumor.seq, rode o

comando:
 formatdb -i tumor.seq -p F -o T
Legenda:
-i = input
-p F = define que o input NÃO é de proteínas e,
sim, de nucleotídeos
-o T = cria índices
Após a execução de formatdb, você perceberá que uma série de
arquivos iniciados com prefixo 'tumor.seq' foi criada. Não se
preocupe com eles, pois são utilizados apenas pelo BLAST
durante as análises. Apenas deixe-os onde estão.
Nesse ponto, você possui os arquivos necessários para a
execução dos programas BLAST.
Execute megablast sobre o conjunto de d ados

Agora vamos utilizar a ferramenta BLAST, conhecida como
MEGABLAST. Essa ferramenta permite a busca por alto grau de
similaridade entre sequências. Recebe como entrada um FASTA, que
denominamos query, e também a database, onde as sequências query
serão alinhadas. Em nosso caso, utilizamos o FASTA de CDS huma-
nos (h.sapiens.nuc) como query, e a base contendo sequências de
tumor de mama como database. Os alinhamentos revelam transcritos
de cada um dos 25 mil genes. Alguns não são transcritos e não apare-
cerão no resultado. Outros aparecerão genes (CDS), aparecerão na
coluna 1 do resultado e, muitas vezes, são os mais expressos.
Execute o comando abaixo a partir do diretório mysql_aula,
criado anteriormente.
 megablast -i h.sapiens.nuc –d tumor.seq –D 3 –F F –a 4 –
p 96 –s 100 –o megakegg
Legenda:
-i = input
-d = database
-D 3 = saída tabulada
-F F = filtro de baixa complexidade desligado (F =
False)
-a 4 = use 4 processadores
-p 96 = mínima identidade 96%
(sequenciamento pode ter até 4% de erro)
-s 100 = mínimo escore 100
-o = nome do arquivo de saída
O comando gera o arquivo 'megakegg' como saída. Esse ar-
quivo está em formato tabulado, e suas linhas contêm os CDS, que
tiveram bom alinhamento com sequências da base de tumor de mama.
Interprete o resultado com comandos de Shell

Vamos, agora, utilizar alguns comandos de Shell para analisar
o resultado gerado pelo MEGABLAST. Execute o comando a seguir:
 cat megakegg | awk ‘{print $1}’ | sort | uniq –c | sort –k
1,1 –n –r > mais_hits
Legenda:
cat = traz para a memória o conteúdo de
megakegg
| = (pipe) acopla uma nova tarefa à an-
terior
awk = nenhuma condição é exigida (nada
após as aspas) e ação de imprimir a coluna 1 (entre as
chaves)
sort = ordena as queries
uniq = mostra cada query uma única vez
uniq –c = idem, mas mostra quantas de cada
uma havia
sort –k 1,1 = ordena pela coluna 1, que é o número de
ocorrências das queries (objetivo de contar quantos trans-
critos cada CDS tem)
sort –n = entende valores como números

sort –r = reverso, ordena do maior para o
menor
O comando permite visualizar o número de hits de cada CDS
no arquivo de saída do MEGABLAST. Além disso, o resultado vem
ordenado, mostrando primeiro aqueles CDS mais expressos, que tive-
ram mais hits. Para mais informações sobre os programas utilizados
acima, consulte seus manuais (ex.: man awk, man uniq, man sort etc.).
Selecione algum hit e procure a identificação no a rquivo

h.sapiens.nuc
 cat h.sapiens.nuc | grep hsa:6728
Através de grep, é possível encontrar uma linha em um arqui-
vo que possui o texto especificado. Assim, o comando anterior encon-
tra a descrição do CDS hsa:6728 no arquivo FASTA, que serviu co-
mo query para MEGABLAST (arquivo h.sapiens.nuc).
O resultado é:
>hsa:6728 SRP19; signal recognition particle 19kDa
; K03105 signal recognition particle subunit SRP19
Observando o arquivo 'mais_hits' gerado na etapa anterior,
observamos que o gene hsa:6728 é o CDS que mais gerou hits com o
database de tumor de mama (total de 1.386 hits).
Através da análise executada anteriormente, pudemos caracte-
rizar a expressão de um gene em tumores de mama. Mas imagine que
quiséssemos identificar todos os genes! Seria muito custoso efetuar
esse procedimento com cada gene. Por isso, iremos apresentar uma
introdução ao MySQL. O passo inicial é a preparação dos arquivos e
das tabelas.
Utilizando MySql para a análise de resultados do BLAST

Com o uso de bancos de dados, a análise do resultado do
MEGABLAST fica muito mais potente. Os bancos de dados (inclusi-
ve o MySql) geralmente utilizam a linguagem universal Structured
Query Language (SQL) para consultas e operações. SQL possui sin-
taxe simples, muito próxima do inglês, o que permite buscas comple-
xas em uma ou mais tabelas. Além disso, bancos de dados possuem

sistemas de indexação que permitem a obtenção de resultados de ma-
neira muito mais rápida do que a leitura de arquivos-texto linha a
linha. No passo a passo a seguir, veremos como fazer a análise de
resultados do BLAST utilizando o banco de dados MySQL. Antes,
porém, iremos preparar o banco de dados para uso.
Instalação e preparação do MySQL

O MySQL está presente na maioria das distribuições Linux. É
necessário que ele esteja instalado em sua máquina para prosseguir
com o tutorial. Caso não esteja instalado, favor verificar como proce-
der em http://www.mysql.com.
Você precisará também da senha de root do MySql para criar
um usuário e um banco de dados para você. Se não tiver permissão,
peça ao administrador de seu sistema para fazer isso para você (por
padrão, após a instalação, o usuário root do MySQL não possui senha.
Portanto, tente senha vazia).
Logue como root no MySQL utilizando o comando a seguir:
 mysql -u root -p
ou
 mysql -u root (se o usuário root não possui senha)
Após logar, você verá o prompt de comando do MySQL, como a
seguir:
mysql>
É nesse prompt que todas as consultas e operações SQL no banco
são digitadas.
Vamos, agora, criar um banco de dados para armazenar os resul-
tados de nosso BLAST. Digite (no prompt do MySQL):
mysql> create database tumor;
Com esse comando, você criou uma database com o nome “tu-
mor”. Essa database por enquanto está vazia, ou seja, não possui tabe-
las. Serão criadas posteriormente. Note que colocar um ponto-e-
vírgula ao final dos comandos MySQL é essencial.
Agora vamos criar um usuário com permissões de acesso ao ban-

co criado. Digite o seguinte comando:
mysql> grant all privileges on tumor.* to tutorial@localhost iden-
tified by 'tutorial123';
Com esse comando, você fez duas coisas:
1) Criou um usuário MySQL com o nome “tutorial” e senha “tutori-
al123”.
2) Autorizou o usuário recém-criado a consultar e modificar o banco
de dados denominado “tumor” e, também, todas as usas tabelas.
Você pode agora sair do ambiente MySQL utilizando o comando:
mysql> exit
Você está agora preparado para iniciar o passo a passo de análise
de resultados do BLAST usando MySQL, que se inicia na próxima
seção.
Análise de resultados do BLAST usando MySQL

- Para esta parte do tutorial, você precisará de alguns arquivos.
Faça o download do arquivo mysql_tutor.zip em:
http://biodados.icb.ufmg.br/tutorial2011/MySQL/mysql_tutor.
zip
Copie o arquivo baixado para sua pasta mysql_aula e descompac-
te-o. Note que o arquivo megakegg está nesse pacote. Esse arquivo
contém o resultado do megablast executado na seção anterior, por
isso você já deve tê-lo em sua pasta. Não é necessário sobrescrevê-lo
ao descompactar o arquivo zip, já que se trata exatamente do mesmo
arquivo. Os demais arquivos descompactados serão usados posterior-
mente.
- Crie um arquivo tabulado com apenas algumas colunas do
blast:
 cat megakegg | awk -v OFS="\t" '($1 != "#") {print
$1,$2,$3,$11,$12}' > megakegg_tab
Legenda:
-v = OFS insere um tabulador (\t) no arquivo de saída,

entre as colunas selecionadas
O comando acima selecionou as colunas 1, 2, 3, 11 e 12 do
arquivo megakegg e também eliminou as linhas cuja primeira coluna
começa com “#” (linhas começadas com esse caractere são comentá-
rios). O novo arquivo foi gravado com o nome megakegg_tab.
- Acesse o MySQL utilizando o nome de usuário e senha
criados na seção anterior (tutorial e tutorial123,
respectivamente).
 mysql -u tutorial -p
Legenda:
-u = nome do usuário a logar
-p = informa que você vai digitar uma senha de usuário
Note que o sistema pedirá a senha após você teclar ENTER.
Digite a senha (observe que o cursor não se move enquanto você digi-
ta) e tecle ENTER novamente.
- Nesse ponto você verá novamente o prompt MySQL e estará
logado como o usuário tutorial. Vamos listar as databases,
que o usuário pode acessar. Para isso, entre com o comando:
mysql> show databases;
Lembre-se: todos os comandos MySQL devem terminar com pon-
to-e-vírgula (;). Você verá uma lista com o nome dos bancos de dados
disponíveis, como a seguir:
+--------------------+
| Database |
+--------------------+
| information_schema |
| tumor |
+--------------------+
Observe que o usuário tutorial possui acesso a duas databa-
ses. A primeira é uma database de sistema, com a qual você não se
deve preocupar. O segundo é a database denominada tumor, que foi
criada na seção anterior.
- A database tumor será utilizada nesse tutorial. Você deve

informar ao sistema que deseja utilizar essa database. Para isso, entre
com o comando a seguir:
mysql> use tumor;
O sistema, então, informa que utilizará essa database para e-
fetuar as operações e consultas inseridas.
- Agora, vamos verificar as tabelas presentes na database
tumor. Utilize o seguinte comando:
mysql> show tables;
O resultado da execução é:
Empty set (0.00 sec)
Isso mostra que nossa database ainda está vazia. No próximo
passo, vamos criar nossa primeira tabela.
- Utilize o próximo comando para criar uma tabela para
armazenar os dados selecionados do BLAST (arquivo
megakegg_tab):
mysql> create table result_blast (cds varchar(15), subject var-
char(50), identity double(5,2), evalue varchar(10), score int, index
cds_idx (cds));
Com o comando anteriormente citado, criamos uma tabela
chamada de result_blast, que possui cinco colunas (cds, subject, iden-
tity, evalue e score). Os valores que vêm logo após o nome das colu-
nas determinam o tipo de dados que a coluna armazenará. Uma breve
descrição de cada tipo de dados vem conforme se segue:
Legenda:
 varchar(N) = coluna tipo texto, com no máximo N
caracteres.
 double(M,N) = coluna do tipo decimal, com M
dígitos no total e N casas decimais. No caso, double(5, 2)
comporta 100.00
 int = coluna do tipo número inteiro
Como vemos, os tipos de cada coluna são definidos de acordo

com o tipo de dados que se receberá do arquivo resultado do BLAST, a
ser lido posteriormente. O comando index cds_idx (cds) adiciona um
índice na coluna cds, para facilitar as consultas.
- Sempre que quiser, você pode verificar as tabelas criadas com
o comando:
mysql> desc result_blast;
Você verá uma tela como a próxima. Ela descreve a tabela,
identificando os nomes e tipos das colunas.
+----------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+----------+-------------+------+-----+---------+-------+
| cds | varchar(15) | YES | MUL | NULL | |
| subject | varchar(50) | YES | | NULL | |
| identity | double(5,2) | YES | | NULL | |
| evalue | varchar(10) | YES | | NULL | |
| score | int(11) | YES | | NULL | |
+----------+-------------+------+-----+---------+-------+
- Agora, vamos carregar o resultado do megablast para a tabela
recém-criada. Para isso, utilize o comando abaixo:
mysql> load data local infile 'megakegg_tab' into table re-
sult_blast;
Nota: se você não entrou no MySQL a partir do diretório onde
megakegg_tab está, deve inserir o caminho completo dele, como:
'/home/vc/negakegg_tab'.
O comando load data local infile carrega um arquivo texto ta-
bulado para uma tabela do banco.
- Verifique o conteúdo da tabela result_blast depois do
carregamento do arquivo:
mysql> select * from result_blast limit 10;
O comando select é provavelmente o mais utilizado em ope-
rações no MySQL. Ele permite uma consulta a uma ou mais tabelas,
com a utilização opcional de filtros específicos. Nesse caso, selecio-

namos todas as colunas (*) da tabela result_blast e limitamos o resul-
tado aos 10 primeiros registros (cláusula limit 10). O resultado será
como se segue:
+------------+----------------------+----------+--------+-------+
| cds | subject | identity | evalue | score |
+------------+----------------------+----------+--------+-------+
| hsa:5701 | lcl|000079_1820_0215 | 100.00 | 7e-68 | 260 |
| hsa:55255 | lcl|000457_0385_0605 | 97.90 | 1e-118 | 428 |
| hsa:23412 | lcl|000520_0240_2623 | 98.54 | 5e-67 | 256 |
| hsa:55744 | lcl|000560_1868_2572 | 98.56 | 4e-107 | 389 |
| hsa:79020 | lcl|000907_0864_1433 | 100.00 | 4e-125 | 450 |
| hsa:6122 | lcl|001079_0272_2374 | 99.51 | 1e-109 | 398 |
| hsa:10200 | lcl|001332_0216_1609 | 98.81 | 2e-133 | 476 |
| hsa:10200 | lcl|001412_1052_3310 | 100.00 | 6e-60 | 232 |
| hsa:157313 | lcl|001527_1414_2084 | 100.00 | 2e-70 | 270 |
| hsa:90799 | lcl|001654_1300_0808 | 100.00 | 2e-131 | 472 |
+------------+----------------------+----------+--------+-------+
Com esse resultado, verificamos que o conteúdo do arquivo
megakegg_tab agora está em colunas na tabela result_blast.
- É possível verificar o total de registros na tabela utilizando a
cláusula count(*) logo após o comando select. Execute o
seguinte comando:
mysql> select count(*) from result_blast;
O resultado será:
+----------+
| count(*) |
+----------+
| 254999 |
+----------+
O número total de registros na tabela result_blast é, portanto,

254999, o qual corresponde ao número de hits de nosso megablast.
- Podemos contar também o número de hits por CDS, da
mesma forma que fizemos anteriormente via linha de comando
utilizando awk | sort | uniq. Para isso, utilizamos também a cláusula
count(*), mas dessa vez associada a uma cláusula group by. Essa
última cláusula agrupa os registros iguais em determinada coluna,
para fins de contagem, soma de valores e outras operações de grupo.
Digite o seguinte comando para descobrir os CDS que deram mais
hits:
mysql> select *, count(*) from result_blast group by cds order by
count(*) desc limit 10;
verifique que utilizamos a cláusula order by count(*) desc ao final do
comando. Essa cláusula ordena os resultados, mostrando primeiro
aqueles grupos de CDS com o maior número de hits. Esses são, por-
tanto, os 10 CDS mais expressos na amostra de tumor. Veja a seguir o
resultado do comando:
+------------+----------------------+----------+--------+-------+----------+
| cds | subject | identity | evalue | score | count(*) |
+------------+----------------------+----------+--------+-------+----------+
| hsa:6728 | lcl|181254_3359_2079 | 100.00 | 1e-107 | 390 | 1386 |
| hsa:6206 | lcl|249582_1187_2560 | 96.07 | 5e-103 | 375 | 1314 |
| hsa:11340 | lcl|145491_0244_0456 | 99.59 | 6e-132 | 472 | 1278 |
| hsa:28998 | lcl|239125_3727_0646 | 98.85 | 1e-88 | 327 | 1164 |
| hsa:9521 | lcl|000957_0743_1006 | 99.56 | 3e-123 | 442 | 1154 |
| hsa:539 | lcl|089256_3027_3144 | 97.44 | 2e-94 | 347 | 1124 |
| hsa:10605 | lcl|267166_1358_3876 | 97.44 | 5e-72 | 274 | 1111 |
| hsa:645139 | lcl|309393_2903_3714 | 97.24 | 3e-123 | 444 | 1107 |
| hsa:9232 | lcl|036323_1743_0199 | 99.58 | 1e-129 | 464 | 1059 |
| hsa:6189 | lcl|003783_0982_2141 | 100.00 | 2e-54 | 214 | 1046 |
+------------+----------------------+----------+--------+-------+----------+
O resultado mostra que o CDS hsa:6728, por exemplo, teve

1.386 hits no transcriptoma de tumor de mama.
- Vamos criar agora uma nova tabela contendo o nome do CDS
e o número de hits dele. Para isso, basta associar um create table a
um select, como a seguir:
mysql> create table hsa_count select cds, count(*) as hits from
result_blast group by cds;
a nova tabela criada se chama de hsa_count e possui 7.091 registros,
cada um correspondente a um CDS distinto que obteve hit na amostra
de tumor. A coluna com a contagem de hits foi renomeada para hits,
utilizando a cláusula as hits no comando select.
- Sempre verifique uma tabela criada com:
mysql> select * from hsa_count limit 10;
Agora é hora de ver a descrição dos genes correspondentes a
cada símbolo hsa, a fim de dar interpretação biológica ao resultado.
Para isso, vamos criar uma nova tabela e carregar nela o arquivo
hsa_description, o qual se encontra em sua pasta mysql_aula. Note
que vamos novamente utilizar os comandos create table e load data
local infile.
- Execute os comandos na sequência:
mysql> create table hsa_description (cds varchar(15), description
varchar(400), index cds_idx (cds));
mysql> load data local infile '<diretorio
mysql_aula>/hsa_description' into table hsa_description;
- Queremos, agora, adicionar uma coluna description na tabela
hsa_count, de modo que fique mais rápido visualizar a descrição do
CDS. Mesmo uma tabela já criada pode ser alterada para conter mais
informação. Altere a hsa_count para conter também uma coluna de
descrição do CDS:
mysql> alter table hsa_count add column description var-
char(400);
O comando anterior altera a tabela hsa_count, adicionando
uma nova coluna denominada description, de tipo texto, com no má-
ximo 400 caracteres.
- Para verificar que a nova coluna foi adicionada, porém ainda

não contém dados, use:
mysql> desc hsa_count;
select * from hsa_count limit 10;
- Combinar tabelas é algo comum e muito usado em MySQL.
Atualize a tabela hsa_count com dados de descrição dos
genes; assim, é muito mais fácil saber quem é quem:
mysql> update hsa_count, hsa_description set
hsa_count.description = hsa_description.description where
hsa_count.cds = hsa_description.cds;
O comando update serve para atualizar dados em colunas de
tabelas e é certamente um dos mais utilizados. Nesse caso, estamos
atualizando a tabela hsa_count com dados da tabela hsa_description.
O comando set indica que colunas serão atualizadas, e o comando
where é um filtro indicando os registros onde a atualização deve ocor-
rer. No caso anterior, dizemos que queremos copiar o conteúdo da
coluna description da tabela hsa_description para a coluna descripti-
on da tabela hsa_count, mas somente nos registros onde as colunas
cds das duas tabelas são iguais. Em suma, as tabelas são “unidas” pela
coluna cds e, nesse ponto, as descrições do CDS que estavam na tabe-
la hsa_description são copiadas para a tabela hsa_count.
- Verifique novamente os dados da tabela utilizando select e
limit. Note que agora as descrições de cada gene estão presentes,
como mostrado no exemplo abaixo;
- +---------------+------+-----------------------------------------+
- | cds | hits | description |
- +---------------+------+-----------------------------------------+
- | hsa:10001 | 2 | MED6; mediator complex subunit 6 |
- | hsa:10006 | 16 | ABI1; abl-interactor 1 |
- | hsa:10011 | 15 | SRA1; steroid receptor RNA activator 1 |
- | hsa:100127922 | 23 | similar to mCG21560 |
- | hsa:100127944 | 2 | hypothetical LOC100127944 |
- +---------------+------+-----------------------------------------+
- Agora, iremos associar nossos CDS a grupos de KOs (grupos

de genes ortólogos). Crie uma tabela que relaciona KOs e
CDS, com o seguinte comando:
mysql> create table hsa_ko (cds varchar(15), ko varchar(11), hits

bigint default 0, index cds_idx (cds), index ko_idx(ko)).
Essa tabela, denominada hsa_ko, identifica a que KO pertence
cada CDS. Criamos também uma coluna hits que receberá uma cópia
do número de hits do CDS na amostra de tumor. Essa coluna é do tipo
bigint, que significa um inteiro grande, e seu valor-padrão é 0.
- Essa é a terceira tabela que criamos. Para verificar a qualquer
momento as tabelas que existem no banco de dados, basta usar o
comando:
mysql> show tables;
No momento, o resultado desse comando será:
+-----------------+
| Tables_in_tumor |
+-----------------+
| hsa_count |
| hsa_description |
| result_blast |
+-----------------+
- Carregue os dados do arquivo hsa_ko.list na tabela recém-
criada.
mysql> load data local infile '/hsa_ko.list' into table hsa_ko;
caso o arquivo hsa_ko.list não esteja na pasta de onde o MySQL foi
acessado, o caminho completo do arquivo precisa ser dado. O coman-
do anterior preencheu as colunas cds e ko da tabela recém-criada
hsa_ko. A coluna hits, porém, permanece com valores zerados.
- Preencha essa coluna a partir de dados da tabela hsa_count,
utilizando o seguinte comando:
mysql> update hsa_ko, hsa_count set hsa_ko.hits =

hsa_count.hits where hsa_ko.cds = hsa_count.cds;
- Verifique o número de pares CDS x KO:
mysql> select count(*) from hsa_ko;
Note que essa contagem inclui todos os CDS, inclusive aque-
les que não tiveram hits na amostra de tumor. O total obtido foi de
9475.
- Vamos excluir pares CDS x KO cujos CDS não obtiveram
hits, pois não nos interessam:
mysql> delete from hsa_ko where hits = 0;
O comando delete apaga de determinada tabela os registros
que seguem o filtro especificado na cláusula where. Nesse caso, ex-
clui todos os registros cujo valor na coluna hits é 0.
- Verifique novamente o número de pares CDS x KO
restantes:
mysql> select count(*) from hsa_ko;
O novo total de registros é 3384, que corresponde aos CDS
que tiveram pelo menos um hit.
- Agora também podemos verificar o KO do CDS com o maior
número de hits na amostra de tumor :
mysql> select * from hsa_ko order by hits desc limit 10;
- Vamos, agora, descobrir o número total de hits por KO. Para
isso, vamos somar os hits de todos os CDS de cada KO. Criaremos
uma tabela contendo o número de CDS e o total de hits para cada KO.
Assim, podemos mapear os KOs mais representativos na amostra. Use
create table com a seguinte sintaxe:
mysql> create table ko_hits select ko, count(distinct cds) as to-
tal_cds, sum(hits) as total_hits from hsa_ko group by ko;
Note que agora temos uma nova cláusula sum. Ela tem uma
função parecida com a cláusula count, sendo também obrigatoriamen-
te associada à cláusula group by. No entanto, ao invés de efetuar a
contagem de registros em cada agrupamento, essa cláusula efetua a
soma total dos valores de uma coluna específica dos membros de cada
grupo. Nesse caso, a soma total é obtida da coluna hits. Dessa forma,
obtemos o número total de hits de cada KO. Na tabela resultante, essa
coluna é nomeada total_hits.
- Usando select e order by, verifique os 10 KOs que possuem o
maior número de hits.
mysql> select * from ko_hits order by total_hits desc limit 10;
O resultado será:
+--------+-----------+------------+
| ko | total_cds | total_hits |
+--------+-----------+------------+
| K00799 | 13 | 1758 |
| K03105 | 1| 1386 |
| K02951 | 1| 1314 |
| K12586 | 1| 1278 |
| K06635 | 2| 1190 |
| K02871 | 1| 1164 |
| K02137 | 1| 1124 |
| K02984 | 1| 1046 |
| K03767 | 1| 921 |
| K05687 | 1| 908 |
+--------+-----------+------------+
Note que o gripo KO com o maior número de hits engloba 13

CDS (K00799), e não é o mesmo KO do CDS hsa:6728, contado ante-
riormente como o CDS com o maior número de hits (hsa:6728 é o
único CDS do K03105).
- É importante também colocar descrições associadas aos KOs,
para que os identifiquemos mais facilmente. As descrições estão
presentes no arquivo tabulado ko_desc, localizado em sua pasta
mysql_aula. Assim como fizemos com CDS, vamos carregar uma
tabela com descrições de KOs. Execute os seguintes comandos em
sequência:
mysql> create table ko_description (ko varchar(11) primary key,

description varchar(170), path_desc varchar(150)).
mysql> load data local infile '/ko_desc' into table ko_description.
Note que, se o arquivo hsa_ko.list não estiver na pasta onde se
acessou o MySQL, é necessário dar o seu caminho completo.
- Utilizando alter table, como feito anteriormente, vamos
adicionar as colunas de descrição do KO na tabela ko_hits.
mysql> alter table ko_hits add column ko_desc varchar(400).
- Utilizando update, atualize a tabela ko_hits para incluir as
descrições dos KOs:
mysql> update ko_hits, ko_description set ko_hits.ko_desc =
ko_description.description where ko_hits.ko = ko_description.ko.
- Vamos verificar novamente os 10 KOs que possuem mais
hits. Dessa vez será possível ver a descrição de cada KO.
mysql> select * from ko_hits order by total_hits desc limit 10;
- Podemos encontrar um ou mais KOs sabendo apenas parte de
sua descrição. Para isso, utilizamos o comando like. Por exemplo, se
quisermos encontrar todos os KOs que possuam o trecho “ATP” em
suas descrições, usamos o comando:
mysql> select * from ko_hits where ko_desc like '%ATP%'.
Nesse caso, encontramos 65 KOs cujas descrições contêm o
trecho “ATP”. O símbolo “%” atua como um coringa, para encontrar
ATP precedido ou sucedido de qualquer caractere; de outra forma, a
consulta só encontraria um KO cuja descrição fosse somente “ATP”,
o que não existe. Analogamente, “ATP%” encontraria “ATP-sintase”.
Poderíamos adicionar order by para ordenar o resultado pelo número
de hits, ou pelo número de CDS ou, mesmo, por ordem alfabética.
- Pense em outras proteínas e repita a consulta.
Terminamos com isso nosso tutorial de como usar MySQL
para analisar resultados do BLAST. O próximo passo para uma me-
lhor fixação do que foi aprendido é continuar praticando com os co-
mandos e suas variações. Você ficou conhecendo diversos comandos
SQL que, usados em conjunto, formam uma poderosa ferramenta de
análise. Com os comandos que você aprendeu, pode usar select com
os mais diversos filtros where ou like para encontrar resultados bem

específicos. Pode também usar group by, count e sum nas mais diver-
sas combinações de colunas. Pode, ainda, ver resultados ordenados da
maneira que desejar e criar tabelas auxiliares.
Existem ainda muitos outros comandos que podem ser encon-
trados no manual do MySQL [1]. Esse tutorial demonstra como a
utilização de bancos de dados torna a análise de dados biológicos
muito mais eficiente e produtiva.
Referências
1- MySQL: http://www.mysql.com
2- BLAST: http://www.ncbi.nlm.nih.gov/BLAST
3- Cygwin: http://www.cygwin.com
4- Formatdb:
http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/formatdb_fastacmd.html
5- OPPEL, A.; SHELDON, R. SQL: um guia para iniciantes. 3. ed. Ciência
Moderna.
6- MySQL http://php.net/manual/en/book.mysql.php
Montagem, Geração de Scaffolds e

Finalização de Genomas
Procariotos In Silico
Adriana Ribeiro Carneiro 8

Louise Teixeira Cerdeira9
Rodrigo Santos de Oliveira 10
Rommel Thiago Jucá Ramos 11
Ao longo dos últimos 10 anos, os incentivos ao desenvolvi-

mento de novas estratégias de sequenciamento de DNA têm revolu-
cionado a genômica. Essas novas tecnologias, denominadas sequenci-
adores de próxima geração (NGS), são capazes de gerar genomas
procarióticos e eucarióticos completos com velocidade e precisão
cada vez maiores (SHENDURE, J.I., 2008; MUNROE; HARRIS,
2010).
As plataformas de alto desempenho como Illumina (Genome
Analyzer), Sequencing by Oligonucleotide Ligation and Detection –
SOLiD (Applied Biosystems), 454 GS FLX Titanium (Roche), Polo-
nator G.007(Azco Biotech) e HeliScope (Helicos Biosciences) geram
milhões de leituras pequenas (50 a 150 pb para Ilumina e SOLiD, ~
450pb para 454, e < 50 pb para Polonator e HeliScope), proporcio-
8
Biomédica, M.S. e doutoranda na Universidade Federal do Pará. E-mail:
carneiroar@gmail.com
9
Cientista da Computação e mestranda na Universidade Federal do Pará. E-mail:
lcerdeira@gmail.com
10
Biólogo. E-mail: rodrigodeoliveira01@gmail.com
11
Analista de Sistemas e mestrando na Universidade Federal do Pará. E-mail:
rommelthiago@gmail.com
nando elevada cobertura genômica e acurácia na leitura dos dados,

bem como a redução de custo e tempo de corrida (METZKER, 2010;
MAGI et al., 2010).
A plataforma SOLiD utiliza a química de sequenciamento por
DNA-ligase, e a construção da biblioteca genômica pode ser realizada
por três metodologias: “fragments”, “mate-paried” e “paired-end”
(METZKER, 2010). Sua amplificação é efetuada pela PCR em emul-
são e a etapa de sequenciamento, dividida em três passos: análises
primária, secundária e terciária. Na análise primária ocorrem a aqui-
sição das imagens e o controle de qualidade do sequenciamento; na
secundária é feito o alinhamento com o genoma de referência, base
calling e identificação de SNPs (polimorfismos de nucleotídeo único);
e por fim, na etapa terciária, é realizada a análise sobre os dados gera-
dos: arquivos de erros, de qualidade, de SNPs, bem como o arquivo
contendo as leituras obtidas pelo sequenciamento (APPLIED
BIOSYSTEMS, 2009).
Para obtermos maior confiabilidade na montagem de um ge-
noma é necessário eliminar leituras de baixa qualidade e corrigir erros
de medição. Os arquivos gerados no sequenciamento são submetidos
ao filtro de qualidade, a exemplo do software Quality Assessment
(Desenvolvido por Rommel Ramos, dados não publicados) e a corre-
ção de erros com o programa SAET (SOLiD TM Accuracy Enhance-
ment Tool) (APPLIED BIOSYSTEMS, 2010) antes de iniciarmos o
processo de montagem.
Existem duas estratégias para a montagem de genomas, a pri-
meira conhecida por reference assembly, em que as leituras são ali-
nhadas por similaridade contra um genoma de referência, o qual deve
ser escolhido em função da proximidade filogenética em relação ao
organismo sequenciado. Entre os softwares que realizam esse tipo de
montagem para dados oriundos da plataforma SOLiD, têm-se Corona
lite (Applied Biosystems), SOLiDTM BioScopeTM (Applied Biosys-
tems) e Shrimp (RUMBLE et al., 2009), e todos utilizam o alinha-
mento em código de cores.
A segunda abordagem é ab initio, em que o alinhamento é
realizado entre as próprias leituras por similaridade. Duas principais
abordagens são utilizadas para os dados gerados pelos sequenciadores
NGS: "overlap-layout-consensus" (OLC) e grafo de Bruijn, e estes
têm sido implementados em vários softwares, como SSAKE

(WARREN et al., 2007), VCAKE (JECK et al., 2007), SHARGCS
(DOHM et al., 2007), Velvet (ZERBINO; BIRNEY, 2008), Edena
(HERNANDEZ et al., 2008), EULERSR (CHAISSON et al., 2009),
ALLPATHS (MACCALLUM et al., 2009), ABySS (SIMPSON et al.,
2009). Neste Manual, buscamos
abordar as duas abordagens, para o que foram selecionados os pro-
gramas Edena e Velvet, sendo este último o único que aceita dados de
leituras curtas no formato do código de cores.
Analisando a qualidade do
sequenciamento
Avaliar a qualidade das sequências obtidas a partir de um se-
quenciamento aumenta a acurácia dos alinhamentos (SMITH et al.,
2008), o que favorece a confiabilidade das montagens de genomas,
tanto para a abordagem ab initio quanto para reference assembly.
Li et al. (2010) observaram redução de 50% dos erros de ali-
nhamento quando há bases com qualidade, o que torna essa prepara-
ção importante para a obtenção de resultados mais eficientes. Assim, é
preciso analisar e avaliar os dados de um sequenciamento antes de
iniciar o processo de montagem.
Para leituras de sequenciadores NGS, quando estes possuem o
tamanho fixo (SOLid e Illumina) pode-se utilizar o software Quality
Assessment (Figura 1), disponível em
http://qualevaluato.sourceforge.net, onde o usuário pode analisar a
qualidade das leituras e gerar gráficos de distribuição (Figura 2), além
de simular filtros baseados no valor PHRED de qualidade (EWING et
al., 1998), possibilitando, assim, economia de tempo e seleção de
parâmetros mais precisos.
Figura 1 - Tela principal do Quality Assessment.
Figura 2 - Gráfico de distribuição da qualidade das leituras, em que o

eixo X mostra cada uma das 35 bases e o eixo Y, o valor
médio de qualidade observado.
Montagem de genomas procariotos

Montagem referência
A abordagem de montagem por referência está sendo usada
em larga escala para a montagem de genomas de câncer em humanos
(POP; SALSBERG, 2008). Apesar das vantagens e facilidade em se
utilizar um genoma de referência, essa metodologia é obviamente
limitada (LEMOS et al., 2003).
O SOLiDTM BioScopeTM e o Corona lite são as principais fer-

ramentas atualmente disponíveis para montagem por referência a par-
tir de leituras no formato de cores. No processamento de dados com
SOLiDTM BioScopeTM e Corona lite, temos os seguintes passos: ma-
peamento de leituras baseado em genomas de referência, incluindo
genomas com cromossomos múltiplos; mapeamento de dados contra
bancos de dados contendo centenas de sequências; pareamento das
corridas que utilizaram biblioteca mate-pair; recuperação de peque-
nos INDELS (de INserções e DELeções) dos dados mate-pair; banco
de dados de polimorfismos de base única (SNPs); e geração de se-
quências-consenso.
Outro software que pode ser usado para essa abordagem é o
Shrimp (RUMBLE et al., 2009). Esse programa utiliza o algoritmo de
Smith-Waterman para realizar alinhamento rigoroso e veloz das se-
quências curtas com o genoma de referência, mas não gera sequência
consenso, ou seja, obtêm-se apenas as coordenadas de alinhamento.
Montagem ab initio
A estratégia ab initio tem como objetivo a montagem de ge-
nomas sem a utilização de qualquer outra informação, além das leitu-
ras geradas pelo processo de sequenciamento genômico. As limita-
ções das abordagens de montagem ab initio se associam diretamente
às limitações tecnológicas relacionadas às características dos dados
gerados pelos sequenciadores de nova geração, como o tamanho das
leituras e o volume de dados gerados, o que aumenta exponencialmen-
te o tempo de processamento e, às vezes, inviabiliza a montagem.
Neste Manual, descrevemos uma estratégia de montagem ab
initio de um genoma sequenciado na plataforma SOLiD versão 2,
utilizando uma combinação de contigs resultante das melhores mon-
tagens dos programas Velvet e Edena.
Descrição da estratégia – Velvet

Em 2009, inspirado nas ideias de Pevzer et al. (2001), Zerbino
implementou o programa Velvet, que é baseado em grafo de De
Bruijn, sendo adaptado posteriormente para ser compatível com o
formato de código de cores utilizada pela plataforma SOLiD, permi-

tindo com isso, o desenvolvimento de um pipeline (de novo versão 1)
pela Applied Biosystems (Figura 3) (http://solidsoftwaretools.com)
que, combinada com o Velvet, converte as sequências contínuas (có-
digo de cores) geradas no final da montagem para sequências contí-
nuas (nucleotídeos).
Primeiro, as leituras curtas, em código de cores, serão conver-
tidas para o formato double encode (pseudobases ACGT). Essa con-
versão será realizada através do script denovo_preprocessor.pl, permi-
tindo, com isso, que o Velvet interprete tais leituras. Em seguida, o
Velvet carregará as leituras convertidas, produzindo sequências contí-
nuas, e nessa etapa serão realizadas diversas rodadas, visando à iden-
tificação do melhor conjunto de parâmetros para montagem de leitu-
ras curtas pareadas de 25 nucleotídeos. Para tanto, será desenvolvido
um script utilizando linguagem de programação em Shell script, que
permitirá a variação de kmer (valor mínimo de sobreposição) com
valores ímpares 17, 19 e 21, para evitar palíndromos. Com a seleção
do melhor valor de kmer, serão plotados dois gráficos utilizando o
programa R (http://www.r-project.org) que usa o arquivo stats.txt
como entrada. Com os dois gráficos, será possível identificar o melhor
valor de cov_cutoff que está relacionado à profundidade de cobertura
do sequenciamento, permitindo identificar regiões com leituras espú-
rias. Já com o segundo gráfico podemos identificar o valor de cober-
tura baseado no kmer.
Após a identificação dos melhores valores de kmer e
cov_cutoff, por se tratar de dados pareados será necessária a eleição
do melhor valor de inserto, e para tal haverá uma variação do valor de
inserto de 300 a 2.100 bases, tendo em vista que utilizaremos para a
preparação da biblioteca pareada um inserto mínimo de 1 Kb e no
máximo de 2 Kb (ZERBINO et al., 2009).
Finalizando o pipeline, será executado o script deno-
vo_posprocessor.pl, que analisa o resultado do Velvet, criando um
arquivo de entrada para o denovoadp que, em seguida, produz uma
sequência nucleotídica que respeita todas as transições de cores pos-
síveis. Esse algoritmo utiliza programação dinâmica para o cálculo da
melhor combinação (ZERBINO; BIRNEY, 2008).
Descrição da estratégia – Edena

Essa estratégia de montagem ab initio utilizada pelo Edena é
amplamente difundida e tradicional e pode ser formalizada através da
sobreposição de sequências sem a utilização de um genoma de refe-
rência (MILLER et al., 2010).
Para a utilização do Edena (Figura 3), os arquivos contendo as
leituras curtas pareadas precisarão ser concatenados devido ao fato de
o Edena não trabalhar com biblioteca pareada. Após a união das leitu-
ras, existe a necessidade de conversão desse arquivo, que estará no
formato CSFASTA para bases nucleotídicas (FASTA) através do
script encodeFasta.py, que faz parte do pacote do Corona Lite desen-
volvido pela Applied biosystem (http://solidsoftwaretools.com).
Após a conversão, o arquivo no formato FASTA será tratado utilizan-
do um script desenvolvido em Perl para a exclusão de linhas em bran-
co e para a padronização do tamanho das sequências (25 nucleotí-
deos), a qual se faz necessária, pois o Edena não monta sequências de
tamanhos diferentes. Para identificação dos melhores parâmetros de
montagem no Edena, foi desenvolvido um script utilizando linguagem
de programação em Shell script, que realizará a montagem no Edena
utilizando diferentes valores de kmer (17, 19 e 21) – sempre valores
ímpares, para evitar palíndromos. Já para corte de cobertura mínima,
empregaram-se valores variando de 10 a 20.
Figura 3 - Fluxogramas macro e micro das montagens ab initio utili-

zados nos programas Edena e Velvet.
Geração de scaffold
A geração do scaffold consiste na ordenação e orientação dos
contigs obtidos no processo de montagem de genomas, sendo esse o
primeiro passo do processo de finalização da montagem, conhecido
por finishing (POP et al., 2002).
Graphical Contig Analyzer for All Se-

quencing Platforms (G4ALL)
O G4ALL realiza a ordenação e orientação dos contigs em
função do resultado de Blast (ALTSCHUL et al., 1990) dos contigs
obtidos no processo de montagem contra um genoma de referência. O
software oferece recursos de edição de sequências durante a curadori-
a, o que ajuda a reduzir a quantidade de problemas nas extremidades
delas, bem como erros de montagem.
O objetivo do G4ALL é identificar sobreposições entre os
contigs, possibilitando a extensão destes. Essas sobreposições podem
ser validadas por resultados de Blast dos contigs contra o banco de
dados não redundantes de proteínas do NCBI (nr) inseridos no banco
de dados do G4ALL e integrados à curadoria.
A geração do scaffold via G4ALL é mais eficiente quando se
utilizam abordagens hibridas de montagem com o uso de diferentes
algoritmos ou, mesmo, distintas plataformas de sequenciamento. Na
Figura 4, pode-se observar a tela de curadoria do G4ALL, onde três
sequências apresentam sobreposição entre suas extremidades, o que
possibilita a extensão destas, gerando um super contig.
Figura 4 - Tela de curadoria do G4ALL. Sobreposição entre três con-

tigs obtidos a partir dos montadores Velvet e Edena.
NOTA: É importante que o scaffold seja validado pelo menos através

de sintenia gênica (OSLAY – RICHTER et al., 2007) e matriz de
pontos (Gepard – KRUMSIEK et al., 2007).
Utilização de leituras curtas para

eliminação de GAPS
Um artefato relacionado à montagem de um genoma é a for-
mação de gaps (buracos ou lacunas). Comumente, a estratégia utili-
zada para resolução dessas lacunas seriam o desenho de primers espe-
cíficos para essa região, o posterior alinhamento das sequências am-
plificadas pelos primers e o consequente fechamento da região. Entre-
tanto, nos casos de gaps grandes (a partir de 2 Kb) torna-se necessária
a realização de novos primers, requerendo tempo e tornando o proces-
so caro (TSAI et al, 2010).
Diante disso, a seguir descreve-se uma estratégia in silico para
resolução desse artefato. Tal solução consiste na utilização de leituras
curtas geradas pelo Next Generation Sequencing (SOLID ™), que não
foram mapeadas durante o processo de montagem para o fechamento

de gaps, possibilitando, com isso, o possível fechamento de um ge-
noma completamente in silico, sem a utilização de PCR.
Descrição da estratégia de fechamento

de GAPS
Realiza-se o alinhamento das leituras curtas nas regiões flan-
queadoras dos gaps mapeados. Em seguida, devem-se estender manu-
almente os nucleotídeos que apresentam o valor de qualidade PHRED
acima de 20 (Figura 5; itens 1 e 2). Essa extensão irá resultar no fe-
chamento de gaps pequenos.
Caso ainda haja a presença de gap, realinham-se as leituras
curtas em relação ao genoma de referência (Figura 4; item 3), pois,
com a geração dos novos contigs, novas leituras curtas serão alinha-
das nas regiões flanqueadoras de gaps, formando o que chamamos de
merged contig.
NOTA: Esta estratégia foi utilizada durante a montagem do genoma

de uma cepa de Corynebacterium pseudoturbeculosis, sequenciado
através da plataforma SOLID™. Foram geradas 19.091.361 leituras,
resultando em uma cobertura de 140 vezes. Nesse genoma, foram
mapeadas 590 regiões de gaps, com aproveitamento de 100% de fe-
chamento desses gaps, utilizando a estratégia descrita anteriormente
(SILVA et al., 2010).
Figura 5 - Descrição da estratégia para fechamento de gaps: Passo 1 –

Short-reads são alinhadas com a montagem inicial; Passo 2
– Short-reads que se alinham em contigs terminais são
montados em novos contigs; Passo 3 – As short-reads são
alinhadas contra a montagem atualizada, e todo o processo
é repetido até que o gap esteja fechado.
Fonte: Adaptado de TSAI et al., 2010.
CLC Genomics Workbench

O CLC Genomics Workbench permite a análise e visualização
rápida de grandes volumes de dados gerados pelo sequenciamento de
próxima geração. Suporta leituras curtas e longas. Além disso, o ma-
peamento dos dados gerados pela plataforma SOLID™ é realizado no
espaço de cores. Assim, permite, também, a visualização e análise das
leituras curtas correspondentes aos gaps visualizados. Esse programa
está disponível para teste em
(http://www.clcbio.com/index.php?id=1240).
Passos para importação e visualização do genoma scaffold e leituras

curtas
 O free Trial do programa CLC Genomics Workbench pode

ser obtido a partir do seguinte endereço:
http://www.clcbio.com/index.php?id=1240.
 O programa reconhece basicamente dois tipos de arquivos:
EMBL e FASTA.
 Vá em Import – Importe o genoma Scaffold gerado e as
leituras geradas.
 Clique no arquivo reads mapping.
 Para melhor visualização, configure Read Mapping Settings
de acordo com a sua preferência. Sugerem-se: Reads layout
(selecione todas as opções), Sequence Layout (mantenha a opção
no spacing e desmarque a opção Hide Labels), Annotation layout
(mantenha todas as opções marcadas e configure: position next to
sequence, offset piled e label staked), Residue coloring
(selecione apenas a opção contida em sequence colors),
Alignment info (seleciona a opção graph em coverage),
Nucleotide info (selecione show em color space encoding,
desmarcando infer encoding; e selecione graph em quality
scores).
 Clique no arquivo do genoma que será editado. Para melhor
visualização, clique na aba do arquivo – View - Split Horizontally.
Passos para análise e fechamento de gaps
- Selecione uma região de gap no genoma Scaffold.

- Analise as leituras curtas que flanqueiam o gap identificado: os
nucleotídeos com quality score acima de 20 (coloque o mouse em
cima do gráfico abaixo do nucleotídeo desejado para conhecer
esse valor). Em mais de uma leitura curta, devem ser estendidos
manualmente no genoma de edição (Selecione o “N”
correspondente no genoma de edição e digite o nucleotídeo)
(Figura 6).
Figura 6 - Edição do gap identificado através da análise das leituras

curtas que flanqueiam a região em um genoma de C.
pseudoturbeculosis, linhagem PAT10, feita no CLC
Genomics Workbench. O gráfico abaixo dos nucleotídeos
das leituras curtas representa quality score. NOTA:
Lembre-se de que possivelmente os novos contigs gerados
pelas leituras curtas não sejam suficientes para o
fechamento do gap. Por isso, após a análise e extensão
realinhe, em relação à montagem atualizada, e repita o
procedimento até o fechamento total.
Referências
1- ALTSCHUL, S.F.; GISH, W.; MILLER, W.; MYERS, E.W.; LIPMAN,
D.J. 1990. Basic local alignment search tool. J. Mol. Biol., 215:403-410.
2- APPLIED BIOSYSTEMS INCORPORATED. A THEORETICAL
UNDERSTANDING OF 2 BASE COLOR CODES AND ITS
APPLICATION TO ANNOTATION, ERROR DETECTION, AND
ERROR CORRECTION. 2009. Disponível em:
[http://www3.appliedbiosystems.com/ cms/ groups/ mcb_marketing/ doc-
uments/ generaldocuments/ cms_058265.pdf]. Acesso em: dez. 2009.
3- APPLIED BIOSYSTEMS INCORPORATED. SOLiD TM accuracy
enhancement tool. Disponível em:
[http://solidsoftwaretools.com/gf/download/ docmanfilever-
sion/225/899/SAET_Tool_Documentation.pdf]. Acesso em: fev. 2010.
4- CHAISSON, M.J.; BRINZA, D.; PEVZNER, P.A. 2009. De novo frag-
ment assembly with short mate-paired reads: does the read length matter?
Genome Research, 19:336-46.
5- DOHM, J.C.; LOTTAZ, C.; BORODINA, T. et al. 2007. SHARCGS, a
fast and highly accurate short-read assembly algorithm for de novo genom-
ic sequencing. Genome Research, 17:1697-706.
6- EWING, B.; GREEN, P. 1998. Base-calling of automated sequencer traces
using phred. II. Error probabilities. BMC Bioinformatics, 8:186-194.
7- HERNANDEZ, D.; FRANÇOIS, P.; FARINELLI, L. et al. 2008. De novo
bacterial genome sequencing: millions of very short reads assembled on a
desktop computer. Genome Research, 18:802-9.
8- JECK, W.R.; REINHARDT, J.A.; BALTRUS, D.A. et al. 2007. Extending
assembly of short DNA sequences to handle error. Bioinformatics,
23:2942-4.
9- KRUMSIEK, J.; ARNOLD, R.; RATTEI, T. 2007. Gepard: a rapid and
sensitive tool for creating dotplots on genome scale. Bioinformatics,
23:1026-1028.
10- LEMOS, M.; BASÍLIO, A.; CASANOVA, A. 2003. Um estudo dos
algoritmos de montagem de fragmentos de DNA. Rio de Janeiro: PUC.
11- LI, H.; HOMER, N. 2010. A survey of sequence alignment algorithms for
next-generation sequencing. Briefings in bioinformatics, 11:473-483.
12- MAcCALLUM, I.; PRZYBYLSKI, D.; GNERRE, S. et al. 2009.
ALLPATHS 2: small genomes assembled accurately and with high conti-
nuity from short paired reads. Genome Biology,10: R103.

13- MAGI, A.; BENELLI, M.; GOZZINI, A.; GIROLAMI, F.;
TORRICELLI, F.; BRANDI, M. L. 2010. Bioinformatics for next genera-
tion sequencing data. Genes,1:294-307.
14- METZKER, M. L. 2010. Sequencing technologies – The next generation.
Nature Reviews Genetics, 11:31-46.
15- MILLER, R.J.; KOREN, S.; SUTTON, G. 2010. Assembly algorithms
for next-generation sequencing data. Genomics.
16- MUNROE, D.J.; HARRIS, T.J. 2010. Third-generation sequencing fire-
works at Marco Island. Nature Biotechnology, 28:426-428.
17- PEVZNER, P.A.; TANG, H.; WATERMAN, M.S. 2001. An eulerian
path approach to DNA fragment assembly. Proceedings of the National
Academy of Sciences, 98:9748-9753.
18- POP, M.; SALZBERG, S.L.; SHUMWAY, M. 2002. Genome sequence
assembly: algorithms and issues. Computer, 35:47-54.
19- POP, M.; SALZBERG, S.L. 2008. Bioinformatics challenges of new
sequencing technology. Trend Genet., 24:142-149.
20- RICHTER, D.C.; SCHUSTER, S.C.; HUSON, D.H. 2007. Oslay: optimal
syntenic layout of unfinished assemblies. Bioinformatics, 23:1573-1579.
21- RUMBLE, S.M.; LACROUTE, P.; DALCA, A.V.; FIUME, M.;
SIDOW, A.; BRUDNO, M. 2009. SHRiMP: Accurate Mapping of
Short Color-space Reads. PLoS Computational Biology, 5:1-11.
22- SHENDURE, J.; JI, H. 2008. Next-generation DNA sequencing.
Nature Biotechology, 26:1135-1145.
23- SILVA, A.; SCHNEIDER, M.P.; CERDEIRA, L.; BARBOSA,
M.S.; RAMOS, R.T.J.; CARNEIRO, A.R.; SANTOS, R.; LIMA,
M.; D’AFONSECA, V.; ALMEIDA, S.; SANTOS, A.R.;
SOARES, S.C.; PINTO, A.; ALI, A.; DORELLA, F.; ROCHA, F.;
ABREU, V.A.C.; TROST, E.; TAUCH, A.; SHPIGE, N.;
MIYOSHI, A.; AZEVEDO, V. Complete genome sequence of Co-
rynebacterium pseudotuberculosis I19, a strain isolated from a
cow in Israel with bovine mastitis. Journal of Bacteriology,
193:1.
24- SIMPSON, J.T.; WONG, K.; JACKMAN, S.D.; SCHEIN, J. E.;
JONES, S.J.M.; BIROL, I. 2009. ABySS: a parallel assembler for
short read sequence data. Genome Research, 19: 1117–23.
25- SMITH, A. D.; XUAN, Z.; ZHANG, M.Q. 2008. Using quality
scores and longer reads improves accuracy of Solexa read map-
ping. BMC bioinformatics, 9:128.
26- TSAI, I.J.; OTTO, D.T.; BERRIMAN, M. 2010. Improving draft
assemblies by iterative mapping and assembly of short reads to
eliminate gaps. Genome Biology, 11:R41.
27- WARREN, R.L.; SUTTON, G.G.; JONES, S.J.; HOLT, R.A.
2007. Assembling millions of short DNA sequences using
SSAKE. Bioinformatics, 23:500-1.
28- ZERBINO, D.R.; BIRNEY, E. 2008. Velvet: algorithms for de
novo short read assembly using de Bruijn graphs. Genome Re-
search, 18:821-9.
29- ZERBINO, D.R.; MCEWEN, G.K.; MARGULIES, E.H.;
BIRNEY, E. 2009. Pebble and rock band: heuristic resolution of
repeats and scaffolding in the velvet short-read de novo assembler.
PLoS One, 4:e8407.
Solid Run Analysis
Ariel Amadio 12
Por muitos anos, a montagem de sequências foi baseada no

uso de um algoritmo para overlap-layout-consesus (PEVZNER et al.,
2001). Esta abordagem foi bem-sucedida nas leituras de
sequenciadores de capilares. Com o advento das novas tecnologias de
sequenciamento (NGS), que produzem leituras mais curtas, mas com
maior redundância, essa abordagem não é viável devido ao custo
computacional do grande número de alinhamentos necessários. É por
isso que surgiram novas estratégias e novos programas para a
montagem de dados de nova geração. Em princípio, podem ser
definidas duas estratégias/aplicações.
- Montagem de novo. Esta estratégia é a montagem de contigs
a partir do zero, ou seja, a construção da sequência a partir
das sequências obtidas apenas pelo sequenciador.
- Montagem contra uma referência. Esta estratégia utiliza o
genoma de um organismo intimamente relacionado como uma
referência para alinhar as sequências geradas e, assim,
produzir contigs.
A abordagem para a montagem de novo propõe mudança no
algoritmo que permita a sua aplicação no tempo e o poder da
computação. Os programas usam os chamados gráficos de de Bruijn.
Para explicar de forma simples, envolve a construção de um gráfico
em que fragmentos de um comprimento k (k-mers) são dispostos em
nós, sendo estes unidos pelo alinhamento de uma sequência de
12
Biólogo, M.S., Ph.D. e professor do Institute of Microbiology and Agricultural
Zoology – Argentina. E-mail: aamadio@rafaela.inta.gov.ar
tamanho k-1. A reconstrução da sequência é baseada na ida ao gráfico,

visitando cada um dos nós. Existem diversos programas que utilizam
esses algoritmos, incluindo Velvet (ZERBINO; BIRNEY, 2008),
ALLPATHS (BUTTLER et al., 2008), ALLPATHS 2 (MacCALLUM
et al., 2009), ABySS (SIMPSON et al., 2009), SOAPdenovo (LI et
al., 2010).
A particularidade da tecnologia SOLiD é o seu sistema calling
de bases, chamada de color-space
(http://solid.appliedbiosystems.com). Essa tecnologia permite
aumentar a confiança de cada base, mas gera novos desafios ao uso de
ferramentas projetadas para o alinhamento de sequências. O programa
Velvet pode manipular leituras em color-space, mediante a
transformação das informações em formato double-encoded, que
consiste de ACTG, mas não corresponde à sequência real. Você deve
ter muito cuidado para fazer as alterações de formato, pois qualquer
erro vai produzir dados de sequência sem sentido.
Nesse caso, analisar-se-á a estratégia de novo, usando o
software de Velvet. A primeira coisa a fazer é um estudo estatístico
dos parâmetros da corrida. Entre esses devem ser analisados:
- Tamanho das leituras (L): é fixo, dependendo de qual
biblioteca e química foram utilizadas.
- Número total de bases sequenciadas: número de leitu-
ras (N) * tamanho das leituras (L).
- Cobertura: calculada como N* L/G, em que G é o tama-
nho estimado do genoma.
Por exemplo, em um genoma de C. pseudotuberculosis:
 Leituras Color-space contidas no arquivo in-

put.csfasta.
 “Arquivo” leituras de 35 bp do genoma sequenciado
(input.csfasta).
 Leituras não pareadas.
 Checar o número de leituras baseado nos arquivos de

resultados:
# grep -c “>” input.csfasta
 Imprime o número de leituras: por ex. 2337696.
 Se o genoma é de 2.8-3.2 Mbp:
 Calcular cobertura: 2.3 M * 35 / 3 M = 31.5 X.
Preparar arquivos para montagem (preproce s-

sor_documentation_v2.2.pdf)
O software pode ser obtido do seguinte endereço:
http://solidsoftwaretools.com/gf.
Usar o preprocessor para conversão de arquivos; assim, o
Velvet poderá entender o arquivo de entrada. Um arquivo double en-
coded (.de) é produzido. CUIDADO, o double encoded é "como" um
arquivo fasta, com ACTG, mas NÃO é a sequência "real".
# denovo_preprocessor_solid_v2.2.pl -run fragments -f3 in-

put.csfasta -dir folder_output/
O resultado são os arquivos:

cs_fragment_input.csfasta e de_fragment_input.de
Olhar o conteúdo dos arquivos: um é o color-coded, e o outro

é o pseudobases. Mas NENHUM tem sequência como
nucleotídeos.
Run velvet
Velvet é um programa que realiza montagem de leituras cur-
tas (ZERBINO; BIRNEY, 2008). Ele usa o gráfico de Bruijn para
montagem das leituras. Velvet é um pacote open source e pode ser
obtido em: http://www.ebi.ac.uk/~zerbino/velvet.
O Velvet é composto de dois programas: velveth e velvetg.
Quando usando leituras color-spaced, o Velvet precisa ser compilado
corretamente (leia a documentação do Velvet). Para leituras, color-

spaced, velveth e velvetg são chamados de velveth_de e velvetg_de
(de para double-encoded).
Velveth constrói o hash (transformação de grande quantidade
de informações em uma pequena quantidade de informações) e um
roteiro de gerenciamento com k-mer determinado pelo usuário. Nesse
caso, usar 21 (sempre deve ser um número impar).
# velveth_de folder_output/ 21 -fasta -short fol-

der_output/de_fragment_input.de
O folder_output / agora contém mais arquivos, incluindo Se-

quências e Roadmaps. Esses arquivos ajudam velvetg a usar o gráfico
para determinar um caminho. Agora, para executar velvetg, parâme-
tros precisam ser especificados para obter bons resultados. Para esti-
mar os parâmetros, executar com os parâmetros-padrão:
# velvetg_de folder_output
Analisar o log do arquivo que contém N50, nodes, máximo de

contigs e total de bases.
Analisar o arquivo stats.txt para determinar um bom valor de
cutoff de cobertura, e cobertura esperada (ver Parâmetros a seguir).
- cov_cutoff: cobertura mínima
- expected_coverage: o detector se repete.
Supondo que para os seus dados parece se encaixar cov_cutoff
= 5 e exp_cov = 25, em seguida, execute:
# velvetg_de folder_output -cov_cutoff 5 -exp_cov 25 -

min_contig_lgth 100 -amos_file yes -read_trkg yes -
unused_reads yes
Podem ser utilizados valores auto para exp_voc y cov_cutoff,

e Velvet determinará os valores ótimos.
Para finalizar as análises, revisar os arquivos:
stats.txt
Log (N50, max, total)
Parâmetros
O parâmetro mais importante para otimizar o comprimento do
hash, ou k-mer, corresponde ao tamanho da palavra (Word), que é
comparada e armazenada no gráfico de de Bruijn. Ela deve ser sempre
ímpar e menor que o comprimento da maior parte das sequências
obtidas. Encontrar o valor ideal é alcançar um equilíbrio entre
sensibilidade e especificidade. Quanto maior, mais simples será o
gráfico de de Bruijn. Entretanto, quanto menor, maior é a
sensibilidade para fechar os gaps. Outro parâmetro crítico é chamado
de expected coverage. O mesmo refere-se à cobertura de cada um dos
contigs, permitindo ao Velvet diferenciar quais sequências são únicas
e quais são repetitivas. Existe um script para que o Velvet
automaticamente determine os parâmetros ideais de corridas. Para
corrê-lo, execute:
# VelvetOptimizer.pl –s 16 –e 31 –f “-short –fasta fol-

der_output/de_fragment_input.de”
Automaticamente, serão testados valores k-mer variando entre

16 e 31, e será salvo o melhor conjunto gerado.
Run denovopostprocessor
Este script analisa as informações das leituras oriundas do
Velvet e combina com as sequências colorspace individuais para criar
um arquivo de entrada para o programa de novo adaptor. Ele ajuda a
melhorar scaffolds. Para executar:
# denovo_postprocessor_solid_v1.7.pl --afgfile fol-

der_output/velvet_asm.afg --csfasta folder_output
/cs_mates_input.csfasta --output fol-
der_output/read_tracking_file --tempdir folder_output/
Run denovoadp
Agora é a hora de converter arquivos double encoded para
nucleotídeos. Para executar:
# denovoadp folder_output/read_tracking_file 3600000 >
contigs.fasta
Então, o arquivo contigs.fasta contém os contigs finais na
montagem, como nucleotídeo.
Visualização da montagem
Existem vários visualizadores de montagem para next-gen,
incluindo HawkEye (SCHATZ et al., 2007), Tablet (MILNE et al.,
2010), Eagleview (HUANG; MARTH, 2008), Gap5 (BONFIELD;
WHITWHAM, 2010), entre outros.
Referências
1- ZERBINO, D.R.; BIRNEY, E. 2008. Velvet: algorithms for de novo short
read assembly using de Bruijn graphs. Genome Res., 18(5):821-9, may.
2- ZERBINO, D.R. 2010. Using the Velvet de novo assembler for short-read
sequencing technologies. Curr. Protoc. Bioinformatics, Sep., Chapter
11: Unit 11.5.
3- PEVZNER, P.A.; TANG, H.; WATERMAN, M. S. 2001. An eulerian path
approach to DNA fragment assembly. Proc. Natl. Acad. Sci., USA,
14;98(17):9748-53, aug.
4- MacCALLUM, I.; PRZYBYLSKI, D.; GNERRE, S.; BURTON, J.;
SHLYAKHTER, I.; GNIRKE, A.; MALEK, J.; MCKERNAN, K.;
RANADE, S.; SHEA, T.P.; WILLIAMS, L.; YOUNG, S.; NUSBAUM,
C.; JAFFE, D.B. 2009. ALLPATHS 2: small genomes assembled accu-
rately and with high continuity from short paired reads. Genome Biol.,
10(10):R103.
5- BUTLER, J.; MaCCALLUM, I.; KLEBER, M.; SHLYAKHTER, I.A.;

BELMONTE, M.K.; LANDER, E.S.; NUSBAUM, C.; JAFFE, D.B.
2008. ALLPATHS: de novo assembly of whole-genome shotgun micro-
reads. Genome Res., 18(5):810-20, may.
6- SIMPSON, J.T.; WONG, K.; JACKMAN, S.D.; SCHEIN, J.E.; JONES,
S.J.; BIROL, I. 2009. ABySS: a parallel assembler for short read sequence
data. Genome Res., 19(6):1117-23, jun.
7- LI, R.; ZHU, H.; RUAN, J.; QIAN, W.; FANG, X.; SHI, Z.; LI, Y.; LI, S.;
SHAN, G.; KRISTIANSEN, K.; LI, S.; YANG, H.; WANG, J.; WANG, J.
2010. De novo assembly of human genomes with massively parallel short
read sequencing. Genome RES, 20(2):265-72, Feb.
8- MILNE, I.; BAYER, M.; CARDLE, L.; SHAW, P.; STEPHEN, G.;
WRIGHT, F.; MARSHALL, D. 2010. Tablet--next generation sequence
assembly visualization. Bioinformatics, 26(3):401-2, Feb. 1.
9- HUANG, W.; MARTH, G. 2008. EagleView: a genome assembly viewer
for next-generation sequencing technologies. Genome Res.,18(9):1538-
43, Sep.
10- SCHATZ, M.C.; PHILLIPPY, A.M.; SHNEIDERMAN, B.;
SALZBERG, S.L. 2007. Hawkeye: an interactive visual analytics tool for
genome assemblies. Genome Biol., 8(3):R34.
11- BONFIELD, J.K.; WHITWHAM, A. 2010. Gap5--editing the billion
fragment sequence assembly. Bioinformatics, 15;26(14):1699-703, jul.
Predição Gênica
Sintia Silva de Almeida 13
FGENESB – suíte de programas para

predição gênica e busca de operon bac-
teriano
FGENESB é um pacote para a anotação automática de geno-
mas de bactérias que inclui os seguintes recursos:
a) Treinamento automático de parâmetros para encontrar genes
em novos genomas bacterianos usando apenas o DNA genômico co-
mo entrada (opcionalmente, parâmetros pré-aprendidos a partir de
organismos relacionados podem ser utilizados).
b) Mapeamento de genes de tRNA e rRNA.
c) Predição gênica de alta precisão baseada em cadeias de Mar-
kov.
d) Predição de promotores e terminadores.
e) Predição de Operon com base em distâncias entre as ORFs e
frequências de diferentes genes vizinhos uns dos outros em genomas
bacterianos conhecidos, bem como predições sobre promotores e ter-
minadores.
f) Anotação automática de genes preditos por homologia com
COG e bases de dados NR.
13
Bióloga, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
sintiaalmeida@gmail.com
Algoritmo FGENESB de predição gênica é baseado em mode-

los de cadeias de Markov de regiões codificantes e sítios de tradução
e terminação. O pacote inclui opções para trabalhar com um conjunto
de sequências, como scaffolds de sequenciamento de genomas bacte-
rianos (TYSON et al., 2004).
A anotação final pode ser apresentada em formato GeneBank
para ser lido por um software de visualização, como Artemis ou Soft-
berry Bacterial Genome Explorer.
Passo a passo da anotação usando FGENESB

Note que a versão web do FGENESB inclui somente a predi-
ção de genes e de operons muito simplificada, representada pelas
etapas 3 e 4 a seguir. O pacote completo FGENESB só está disponível
para instalação local.
PASSO 1. Localiza todos os potenciais genes ribossomal
RNA usando BLAST contra bancos de dados de rRNA de bactérias e,
ou, arqueias e marca os rRNA detectados.
PASSO 2. Prediz tRNA usando o programa tRNAscan-SE
(Washington University) e marca os tRNA detectados.
PASSO 3. Predições iniciais de longas ORFs que são utiliza-
das como ponto de partida para o cálculo dos parâmetros para a predi-
ção gênica. Itera até que se estabiliza. Gera parâmetros de quinta or-
dem de cadeias de Markov em regiões codificantes, modelos de se-
gunda ordem de Markov para a região em torno do códon de início e
upstream de sítio RBS, stop códon e distribuição de probabilidade de
tamanhos de ORF.
PASSO 4. Prediz operons baseados apenas em distâncias en-
tre os genes preditos.
PASSO 5. Executa blastp contra proteínas preditas de banco
de dados COG, cog.pro.
PASSO 6. Utiliza informações sobre a conservação de pares
de genes vizinhos nos genomas conhecidos para melhorar a previsão
de operon.
PASSO 7. Executa blastp contra o banco NR para proteínas
que não têm hits COG.
PASSO 8. Prediz os potenciais promotores (programa

BPROM) ou terminadores (BTERM) nas regiões upstream e downs-
tream, correspondentemente dos genes preditos. BTERM é o progra-
ma de predição bacteriana de terminadores independentes com score
de energia com base na função discriminante de elementos hairpin.
PASSO 9. Refina predições de operon usando promotores e
terminadores preditos como evidências adicionais.
Exemplo de formato de saída do FGENESB:

1 Op 1 21/0.000 + CDS 407 - 1747 1311 ##
COG0593 ATPase involved in DNA
+ Term 1786 - 1823 3.2
+ Prom 1847 - 1906 10.5
2 1 Op 2 3/0.019 + CDS 1926 - 3065 1237 ##
COG0592 DNA polymerase
+ Term 3074 - 3122 9.1
+ Prom 3105 - 3164 4.0
3 2 Op 1 4/0.002 + CDS 3193 - 3405 278 ##
COG2501 Uncharacterized ACR
4 2 Op 2 4/0.002 + CDS 3418 - 4545 899 ##
COG1195 Recombinational DNA
2 Op 3 16/0.000 + CDS 4578 - 6506 2148 ##
COG0187 DNA gyrase (topoisomerase II) B subunit
+ Term 6516 - 6551 4.7
+ Prom 6512 - 6571 2.3
6 2 Op 4 . + CDS 6595 - 9066 2957 ##
COG0188 DNA gyrase (topoisomerase II) A subunit
+ Term 9067 - 9098 3.4
+ SSU_RRNA 9308 - 10861 100.0 #
AY138279 [D:1..1554] # 16S ribossomal RNA # Bacillus cereus
+ TRNA 10992 - 11068 101.2 # Ile GAT 0
0
+ TRNA 11077 - 11152 93.9 # Ala TGC 0 0

+ LSU_RRNA 11233 - 14154 99.0 #
AF267882 [D:1..2922] # 23S ribossomal RNA # Bacillus
7 3 Op 1 . - CDS 14175 - 14363 158
+ 5S_RRNA 14205 - 14315 97.0 #
AE017026 [D:165635..165750] # 5S ribosomal RNA # Bacillus
8 3 Op 2 . - CDS 14353 - 15249 351 ## Simi-
lar_to_GB
9 3 Op 3 . - CDS 15170 - 15352 99
- Prom 15373 - 15432 6.9
Exemplo de formato de saída GeneBank do FGENESB:

TAAGVIIRMPVDQISQMGRNTQGVRLIR -
LEDEQEVATVAKAQKDDEEETSEEVSSEE"
/transl_table=11
terminator 9067..9098
/gene="GyrA"
gene 9308..10861
/gene="AY138279 [D:1..1554]"
rRNA 9308..10861
/gene="AY138279 [D:1..1554]"
/product="16S ribossomal RNA"
/note="AY138279 [D:1..1554]"
gene 10992..11068
/gene="Ile GAT"
tRNA 10992..11068
/gene="Ile GAT"
/product="tRNA-Val"
/note="Ile GAT 0 0"
gene 11077..11152
/gene="Ala TGC"
tRNA 11077..11152
/gene="Ala TGC"
/product="tRNA-Val"
/note="Ala TGC 0 0"
gene 11233..14154
/gene="AF267882 [D:1..2922]"
rRNA 11233..14154
/gene="AF267882 [D:1..2922]"
/product="23S ribossomal RNA"
Predição de DNA repetitivo

Repeat scout
DNA repetitivo são subsequências do genoma que se repetem
e nas quais, em diferentes instâncias, o elemento repetido pode ter
padrões ligeiramente diferentes. O DNA repetitivo é investigado por
várias razões, uma de grande importância, isso porque ele geralmente
não tem qualquer função e, portanto, pode ser mascarado, gerando
dados desnecessários nas buscas por similaridade.
Nessas análises, pode-se utilizar o algoritmo RepeatScout
(PRICE et al., 2005), ferramenta que possui um banco de dados pró-
prio de DNA repetitivo de diversos organismos, e as buscas por simi-
laridade são realizadas no genoma-alvo, a fim de se caracterizarem
sequências repetitivas.
Predição de rRNA
RNAmmer
Recente estudo comparando diferentes métodos de predição
de RNA não codificantes, incluindo RNA ribossomal (rRNA), conclu-
iu que a maioria desses métodos gera resultados com pouca acurácia
(FREYHULT et al., 2007). Assim, um grupo de pesquisadores criou

um programa computacional de predição de rRNA utilizando Hidden
Markov Models (HMM) nomeado RNAmmer. A busca é baseada pelo
alto índice de conservação da sequência de rRNA.
Tais modelos são capazes de capturar pequena variação na
sequência presente na família gênica de rRNA, e assim uma biblioteca
de HMM é construída. O programa prediz os principais RNAs de
bactéria, eucarioto e arqueia, sendo: rRNA 5S, rRNA5.8s, rRNA 16S,
rRNA 18s, rRNA 23S e rRNA 28S. O método é rápido, com pouca
perda de sensibilidade, capaz de analisar um genoma bacteriano em
menos de um minuto.
A localização dos rRNAs é predita com alto índice de acurá-
cia, e o programa está disponível no web site CBS
(http://www.cbs.dtu.dk/services/RNAmmer) (LAGESEN et al.,
2007).
Predição de tRNA
tRNAscan-SE
Este programa foi criado para predição de RNAs transporta-
dores (tRNAs) com grande sensibilidade, identificando 99 a 100% de
tRNAs com menos de um falso-positivo a cada 15 gigabases. O tR-
NAscan-SE proporciona um fluxo de informação obtido via três pro-
gramas (três passos) de predição de tRNA independentes. Os três
programas juntos apresentam características não disponíveis quando
separados (LOWE; EDDY, 1997).
O tRNAscan-SE combina a especificidade do modelo de co-
variância pelo programa covels (EDDY; DURBIN, 1994) com a velo-
cidade e sensibilidade do tRNAscan 1.3 (FICHANT; BURKS, 1991)
junto com a implementação do algoritmo descrito por Pavesi et al.
(1994). No primeiro passo, executam-se o tRNAscan 1.3 e o algorit-
mo Pavesi na sequência de entrada, unindo os possíveis candidatos à
tRNA em uma lista. A pesquisa é feita na sequência linear, e a infor-
mação de íntrons, em caso de eucariotos, é descartada. O segundo
passo extrai os subsequentes candidatos à tRNA mais 14 sequências
flanqueadoras utilizando o modelo de covariância, análogo ao Hidden
Markov Models. No terceiro passo, usa-se uma heurística para distin-

guir pseudogenes a partir de candidatos a tRNA verdadeiros, além de
predizer a estrutura secundária pelo covels e identificar íntrons e anti-
códons (LOWE; EDDY, 1997).
O programa tRNAscan-SE é 30 a 90 vezes mais rápido que o
tRNAscan 1.3 e, ao unir-se às qualidades dos outros dois programas,
torna-se o mais eficiente preditor de RNA transportador.
Identificação de domínios, motivos e famílias protéicas in silico
Interproscan
Para obter informações detalhadas sobre funções específicas
de proteínas, é necessário realizar análises de similaridade em bancos
de dados biológicos secundários (também conhecidos como bancos de
dados de padrões ou de assinaturas). Os resultados dessas análises
corroboram a identificação de proteínas não redundantes, como tam-
bém direcionam na inferência de função de proteínas espécie-
específica.
Tais análises de domínios proteicos serão realizadas no banco
de dados Interpro através da ferramenta Interproscan
(http://www.ebi.ac.uk/Tools/InterProscan). O Interpro alberga vários
bancos de dados de domínios, motivos e famílias proteicas, como
ProDom, SMART, TIGRFAMS, Pfam, SUPERFAMILY, PANTHER
e SignalPHMM, diminuindo, assim, a redundância de dados e aumen-
tando a acurácia da predição. O Interproscan pode ser configurado
tanto para organismos procariotos quanto eucariotos (QUEVILLON
et al., 2005; HUNTER et al., 2009).
Referências
1- EDDY, S.R.; DURBIN, R. 1994. RNA sequence analysis using covariance
models. Nucleic Acids Research, 22:2079-2088.
2- FICHANT, G.A.; BURKS, C. 1991. Identifying potential tRNA genes in
genomic DNA sequences. Journal of Molecular Biology, 220:659-671.
3- FREYHULT, E.K.; BOLLBACK, J.P.; GARDNER, P.P. 2007. Exploring

genomic dark matter: a critical assessment of the performance of homology
search methods on noncoding RNA. Genome Research, 17:117-125.
4- HUNTER, S.; APWEILER, R.; ATTWOOD, T.K.; BAIROCH, A.;
BATEMAN, A.; BINNS, D.; BORK, P.; DAS, U.; DAUGHERTY, L.;
DUQUENNE, L.; FINN, R.D.; GOUGH, J.; HAFT, D.; HULO, N.;
KAHN, D.; KELLY, E.; LAUGRAUD, A.; LETUNIC, I.; LONSDALE,
D.; LOPEZ, R.; MADERA, M.; MASLEN, J.; MCANULLA, C.;
MCDOWALL, J.; MISTRY, J.; MITCHELL, A.; MULDER, N.;
NATALE, D.; ORENGO, C.; QUINN, A.F.; SELENGUT, J.D.; SIGRIST,
C.J.A.; THIMMA, M.; THOMAS, P.D.; VALENTIN, F.; WILSON, D.;
WU, C.H.; YEATS, C. 2009. InterPro: the integrative protein signature da-
tabase. Nucleic Acids Research, 37:D211-5.
5- LAGESEN, K.; HALLIN, P.; RØDLAND, E.A.; STAERFELDT, H.;
ROGNES, T.; USSERY, D.W. 2007. RNAmmer: consistent and rapid an-
notation of ribosomal RNA genes. Nucleic Acids Research, 35:3100-
3108.
6- LOWE, T.M.; EDDY, S.R. 1997. tRNAscan-SE: a program for improved
detection of transfer RNA genes in genomic sequence. Nucleic Acids Re-
search, 25:955-964.
7- LOWE, T.M.; EDDY, S.R. 1997. tRNAscan-SE: a program for improved
detection of transfer RNA genes in genomic sequence. Nucleic Acids Re-
search, 25:955-964.
8- PAVESI, A.; CONTERIO, F.; BOLCHI, A.; DIECI, G.; OTTONELLO, S.
1994. Identification of new eukaryotic tRNA genes in genomic DNA data-
bases by a multistep weight matrix analysis of transcriptional control re-
gions. Nucleic Acids Research, 22: 1247-1256.
9- PRICE, A.L.; JONES, N.C.; PEVZNER, P.A. 2005. De novo identification
of repeat families in large genomes. Bioinformatics (Oxford, England),
21:i351-8. Suppl 1.
10- QUEVILLON, E.; SILVENTOINEN, V.; PILLAI, S.; HARTE, N.;
MULDER, N.; APWEILER, R.; LOPEZ, R. 2005. InterProScan: protein
domains identifier. Nucleic Acids Research, 33:W116-20.
11- TYSON, G.W.; CHAPMAN, J.; HUGENHOLTZ, P.; ALLEN, E.E.;
RAM, R.J.; RICHARDSON, P.M.; SOLOVYEV, V.V.; RUBIN, E.M.;
ROKHSAR, D.S.; BANFIELD, J.F. 2004. Community structure and me-
tabolism through reconstruction of microbial genomes from the environ-
ment. Nature, 428:37-43.
Anotação Funcional de Genomas

Realizada Computacionalmente
Anderson Santos 14
A anotação funcional automática de genomas pode ser feita

com grande eficiência, por ser um processo computacional baseado no
alinhamento de sequências de ORFs do organismo sob anotação con-
tra sequências de diferentes organismos (KISLYUK et al., 2010).
Bancos de dados de domínio público disponibilizam uma miríade de
anotações completas de milhares de organismos procarióticos
(BENSON et al., 2008; DAVIDSEN et al., 2010). Uma anotação fun-
cional automática permite a reutilização do conhecimento sobre ORFs
de organismos homólogos, poupando considerável tempo de curadoria
manual (LI et al., 2010). Apesar dessas vantagens, deve-se tomar cui-
dado com os resultados de uma anotação funcional totalmente auto-
matizada, visto que a similaridade de sequências possui grande poten-
cial de incorrer em falsos-positivos (WONG et al., 2010; LORENZI
et al., 2010). Nesta seção, discutimos as vantagens e perigos do uso de
uma anotação funcional totalmente automatizada, bem como explo-
ramos alguns recursos de ferramentas e serviços para esse propósito.
Alinhamentos massivos de sequências biológicas devem ser planejados

O uso de algoritmos de alinhamento de sequências biológicas
é intenso numa anotação funcional automática (ORVIS et al., 2010;
APARICIO et al., 2006; MEYER et al., 2003). Alinhamentos de
14
Cientista da Computação, M.S. e doutorando na Universidade Federal de Minas
Gerais. E-mail: anderson2010@gmail.com
ORFs de um genoma recém-montado com outros organismos homó-

logos fornecerão as primeiras dicas a respeito desse genoma. Para um
organismo com aproximadamente 2 mil ORFs, uma análise de simila-
ridades de sequências contra o banco de dados de proteínas não re-
dundantes (NR) do NCBI pode consumir várias horas de processa-
mento. Por exemplo, supondo que essa análise seja feita em um com-
putador isolado da internet, mesmo utilizando um hardware com 24
Gb de memória RAM e oito processadores, num total de 24 GHz de
CPU, tal tarefa ainda consumiria aproximadamente oito horas de pro-
cessamento a 100% de utilização desses recursos.
Apesar de ser um processo totalmente computacional, o de-
mandante desse serviço possui grande responsabilidade pela qualida-
de ao definir condições a serem utilizadas nesse esforço computacio-
nal. Tais condições definem os critérios de qualidade que melhor se
adaptam ao tipo de organismo, a exemplo do valor de corte para que
um alinhamento entre as sequências de seu organismo ocorra por aca-
so, com sequências de outros organismos do NCBI, da quantidade de
sequências homólogas a serem retornadas como resultado e do forma-
to do arquivo de saída do alinhamento. Outro parâmetro importante
será necessário caso a sequência de busca (query) e as sequências-
alvo de busca (subject) estejam em formatos diferentes (nucleotídeos
versus aminoácidos). Do ponto de vista de um demandante, esse pa-
râmetro define qual a melhor tabela de tradução de códons para o
organismo em questão, de modo que o algoritmo de alinhamento de
sequências consiga interpretar a correspondência entre as sequências
query e subject.
A quantidade de parâmetros de um algoritmo de alinhamento
de sequências pode ser enorme, justificando o treinamento com carga
horária considerável para sua utilização ótima. Não é objetivo deste
texto explorar situações possíveis, mas alertar os usuários desses algo-
ritmos do fato de que os resultados desses alinhamentos podem me-
lhorar tão somente pela leitura do manual do algoritmo e consequente
adequação a uma situação específica de seu organismo query ou sub-
ject. Dessa forma, antes de começar um trabalho de alinhamento de
sequências massivo, que demorará horas e criará grandes expectativas
com relação aos resultados sobre um genoma inédito, é aconselhável
não utilizar tão somente as configurações básicas desses algoritmos de
alinhamentos de sequências, bem como entender as opções que vão

determinar o sucesso ou falha desses alinhamentos.
Reutilização de conhecimento e economia de recursos

O crescimento significativo de sequências biológicas disponí-
veis em bancos de dados públicos deve-se às novas tecnologias de
sequenciamento de genomas que tornaram mais simples, eficiente e
barato a obtenção de genomas completos (ZHAO; GRANT, 2010;
PALLEN et al., 2010). Podemos encontrar genomas totalmente mon-
tados e anotados das mais variadas formas de vida bacteriana disponí-
veis para se fazer a primeira anotação de nosso genoma recém-
montado. Essa gama de diferentes genomas oferece a possibilidade de
novas pesquisas em larga escala de SNPs, perfis de metilação de DNA
e expressão de mRNA, além de dados de ressequenciamento (DATTA
et al., 2010). Possibilita, também, comparar anotações de diferentes
grupos de pesquisa que trabalham com diversos organismos, entre os
quais alguns podem ser homólogos a um genoma recém-sequenciado.
Do mesmo modo que se pode reutilizar o conhecimento sobre
a funcionalidade de genes de diferentes organismos, também é acon-
selhável utilizar o conhecimento pessoal de um pesquisador sobre um
organismo específico, de modo a acelerar o processo de anotação
automática. Com base em evidências sobre maior grau de proximida-
de evolutiva entre um genoma recém-montado e determinado orga-
nismo homólogo que também tenha o genoma completamente monta-
do e anotado, pode-se optar por utilizar apenas a anotação desse orga-
nismo homólogo como fonte para uma primeira anotação automática.
É possível que os mesmos problemas que um pesquisador terá
ao utilizar as anotações de vários genomas tenham sido resolvidos na
anotação do organismo homólogo. Tal situação é comum ao realizar o
pangenoma de uma espécie, situação na qual é esperado que a maior
parte das sequências codificadoras de diferentes linhagens de uma
bactéria não seja muito diferente (TROST et al., 2010). Nesse caso,
parece ser vantajoso explicitar um conjunto pequeno de organismos-
alvo (subject) em uma busca de similaridade de sequências que visam
fornecer a primeira anotação de um genoma (query), podendo ser até
mesmo um conjunto com apenas um organismo.
Propagação de erros: anotação automática versus manual

É importante ter em mente que o GenBank não é um banco de
dados totalmente curado (BENSON et al., 2008), e nesse contexto é
possível que muitos genomas depositados tenham tido tão somente
uma anotação automática. Com essa tecnologia, ainda não é possível
dispensar a curadoria manual de uma anotação automática, nem se-
quer a comprovação experimental sobre uma predição gênica e anota-
ção baseada em similaridade de sequências (POPTSOVA;
GOGARTEN, 2010).
Ainda que não seja o momento adequado para uma compro-
vação experimental de predições gênicas, parece razoável ter o pare-
cer de um especialista humano em anotação de genomas sobre o resul-
tado de uma anotação automática. Supondo que se esteja fazendo o
pangenoma de um organismo, tal medida pode evitar que não apenas
o pangenoma desse organismo fique livre de falsos-positivos ocasio-
nados por similaridades de sequências, como também genomas homó-
logos ao confiarem em determinada anotação. Durante uma anotação
automática, uma medida que poderia ter o potencial de minimizar essa
propagação de erros seria considerar pesos diferentes para resultados
de similaridade de sequência em genes oriundos de organismos nos
quais haja evidências de curadoria manual bem feita.
Ferramentas
A seguir apresentamos algumas ferramentas de anotação au-
tomática de genomas completos com uma breve descrição de suas
principais funcionalidades e instruções de como utilizá-las.
1. GenDB
Uma das características do GenDB que o fazem figurar num
conjunto seleto de ferramentas de anotação automática de genomas é
o fato de ele ser desenvolvido para a plataforma web (MEYER et al.,
2003). Um grupo de pesquisas geograficamente disperso pode-se be-
neficiar de interfaces web utilizando ferramentas padronizadas e uma
base de dados centralizada. A versão 2.4 do GenDB possui três módu-
los: core, web e gui. O módulo core possui programas escritos em
linguagem perl que permitem a criação de um projeto de anotação,
importação de dados em formato fasta/EMBL, execução do pipeline

de anotação automática, exibição de mapas genômicos circulares,
exportação de dados e deleção de um projeto de anotação.
A execução dos programas do módulo core cria condições pa-
ra que uma equipe de curadores possa trabalhar no módulo web, con-
sultando e editando diversas características dos genes. O módulo gui
possui recursos de edição mais sofisticados do que o módulo web,
permitindo a execução das tarefas executadas pelo módulo core, po-
rém com interface gráfica. O GenDB realiza alinhamentos de sequên-
cias por meio do programa Blast (ALTSCHUL et al., 1997) e permite
incorporar predições de domínios conservados de famílias proteicas
por meio do InterPRO-Scan (HUNTER et al., 2009), motivos de do-
mínios transmembrânicos por meio do TMHMM (KROGH et al.,
2001) e motivos de sinais de exportação para o meio extracelular por
meio do SignalP (BENDTSEN et al., 2010).
2. BLAST2GO (B2G)
Essa ferramenta foi concebida como interface para o Gene
Ontology (GO), mas funcionalidades adicionais a transformaram em
uma plataforma de anotação mais abrangente
(APARÍCIO et al., 2006). Os menus do programa permitem executar
diversas etapas de uma anotação automática, a começar pelo primeiro
alinhamento de sequências de um genoma contra a base de proteínas
não redundantes (NR) do NCBI, passando pela predição de domínios
conservados (InterPRO-scan), classificações do GO até a anotação do
seu código enzimático, do inglês Enzimatic Code (EC) e posterior

visualização de interações moleculares de um genoma, por meio de
mapas no formato da Kyoto Encyclopedia of Genes and Genomes
(KEEG). Por ser ferramenta visual orientada, possui ferramentas grá-
ficas que auxiliam a análise da grande quantidade de dados gerados
em suas predições.
Um usuário do B2G não precisa necessariamente executar
todas as etapas de análise oferecidas, porém para se conseguir avançar
até a próxima fase de análise é imperativo que a fase anterior tenha
sido executada. O processamento de um genoma inteiro com aproxi-
madamente 2.000 ORFs pode consumir vários dias, visto que o pri-
meiro passo sempre é um alinhamento de sequências contra a base NR
do NCBI. Felizmente, o B2G foi projetado para ser uma ferramenta de
análise modular. Se um usuário do B2G dispor de recursos computa-
cionais mais eficientes do que os recursos compartilhados no servidor
público, esse usuário poderá realizar o alinhamento de sequências em
seu hardware particular, gerar uma saída em formato html desse ali-
nhamento e continuar os processos seguintes de anotação pelo B2G.
Se, ainda assim, esse usuário não estiver satisfeito com a eficiência
dos processos de anotação de termos GO do servidor comum do B2G,
também existe uma versão do B2G para execução isolada no seu
hardware mais eficiente.
Por fim, os resultados gerados em modo off-line podem ser
carregados para a ferramenta on-line para continuar o processo de
análise, por meio de diversas ferramentas, inclusive comparações
estatísticas entre dois genomas. O B2G foi desenvolvido com a tecno-
logia java da SUN, possível de ser executado em qualquer sistema
operacional, porém o módulo B2G off-line foi concebido para execu-
ção na plataforma Linux.
3. GS Annotation Engine e JCVI Annotation Service

Para pesquisadores que possuem um genoma de procarioto
sequenciado e montado, mas não dispõem de recursos disponíveis
como tempo e pessoal para realizar anotação automática, a alternativa
é utilizar serviços de montagem como oferecido pelos Institute for
Genome Sciences (IGS) da University of Maryland School of Medici-
ne (http://ae.igs.umaryland.edu) e o J. Craig Venter Institute (JVCI)
(http://www.jcvi.org). Mesmo que um genoma não tenha sido comple-
tamente montado, é possível utilizar os serviços desses institutos para
esse propósito. Os IGS, criadores desse serviço de anotação automáti-
ca, contam com a ajuda do JVCI para duplicar a disponibilidade do
serviço de anotação automática.
O prazo médio para a conclusão de uma anotação automática
é de aproximadamente quatro semanas. Ao término, um usuário rece-
be contas de acesso para sua equipe trabalhar a consulta ou curadoria
manual pela internet, por meio do software Manatee, ou um banco de
dados em formato mysql com o resultado da anotação automática que
pode ser instalado localmente para ser acessado também pelo software
Manatee. O pipeline de anotação desse serviço é suportado pelo soft-

ware Ergatis, software que também pode ser instalado localmente.
4. CpDB: um esquema relacional de banco de dados e ferramen-

tas para anotação automática de genomas procariotos
O Corynebacterium pseudotuberculosis DataBase ou CpDB
(SANTOS et al., 2011 – não publicado) é um esquema relacional de
banco de dados criado na Universidade Federal de Minas Gerais, ini-
cialmente, para gerenciamento do projeto do pangenoma da bactéria
C. pseudotuberculosis, porém pode ser utilizado para qualquer geno-
ma procarioto. Foi concebido para diminuir o esforço de geração de
relatórios e correções de diversas anotações desse projeto de pange-
noma. A geração de uma anotação automática tendo como base uma
anotação manual curada é um dos principais relatórios possíveis atra-
vés do CpDB. Nesse caso, a ideia é unir a anotação de nomes de ge-
nes e produtos funcionais de um genoma curado juntamente com as
posições inicial, final e orientação de um gene predito por software,
utilizando como elo o resultado de alinhamentos de sequências protei-
cas. Parâmetros de corte para a qualidade de alinhamentos possibili-
tam controlar quanto de uma anotação curada pode ser aproveitado
para servir como anotação automática de um novo genoma. Esses
parâmetros de corte em alinhamentos dependem do quão similares são
os produtos proteicos do genoma curado (fonte) e genoma com ORF
preditos por software (destino). Como exemplos desses parâmetros,
citamos a porcentagem de identidade proteica e a extensão total de
alinhamento entre aminoácidos de duas ORFs.
No pangenoma de C. pseudotuberculosis, o uso de um limiar
de 95% de identidade proteica e de extensão total nos alinhamentos
era o suficiente para unir corretamente os dados da maioria das ORFs
dos genomas fonte e destino. Porém, quando da primeira anotação
automática de um genoma de C. pseudotuberculosis foi necessário
utilizar o genoma curdo mais filogeneticamente próximo, a C. diph-
theriae. Nessa ocasião, para criarmos uma anotação automática entre
as ORFs fonte e destino foi necessário utilizar um limiar mínimo de
65% de identidade proteica e extensão total de alinhamentos de se-
quências. Caso fossem utilizados 95% como limiar mínimo, então
apenas quatro unidades ribossomais da C. diphtheriae seriam unidas
com as coordenadas do genoma da C. pseudotuberculosis para criar

uma anotação automática do genoma de destino.
Um tutorial exemplificando a utilização de um genoma da C.
diphtheriae como fonte para o genoma da C. pseudotuberculosis,
linhagem I19, está disponível para ser livremente baixado, experimen-
tando e modificando para fins educacionais a partir de um protocolo
subversion da Universidade Federal do Pará. Esse material foi utiliza-
do para treinamento no curso do Centro Brasileiro-Argentino de Bio-
tecnologia (CBAB), edição Belém do Pará 2010, cujo nome foi “Pla-
taforma de Sequenciamento de Nova Geração (NGS-Solid): sequenci-
amento, montagem e anotação de um Genoma Bacteriano”. O tutorial
foi feito para ser seguido em uma distribuição Linux Ubntu, versão 8
ou superior. O comando Linux para obtenção do tutorial, juntamente
com os dados, é este:
svn checkout svn://200.129.148.56/CpDBcourse --username=cbab --
password=cbabbelem
Exemplo prático de anotação de um genoma bacteriano

O tutorial referido no item 4 é explorado nesta sessão. Trata-
se de um conjunto de aproximadamente 100 etapas entre instalações e
configurações de software, edição de arquivos por meio de comandos
Linux ou por meio da interface de programas de manipulação de se-
quências biológicas. Esse manual considera que o programa Artemis
está devidamente instalado. Muitas edições de arquivos são feitas com
o programa “sed” do Linux, nativo da maioria das distribuições Li-
nux. Todos os passos desse manual podem ser automatizados de modo
a criar um pipeline automático de anotação nos moldes descritos no
item 4, permitindo que o CpDB se torne outro ambiente de anotação
automática na web. Por enquanto, esse tutorial tem caráter instrucio-
nal para situar um aluno das necessidades e dificuldades do processo
de anotação automática de genomas.
Exemplo de Anotação Automática usando banco de dados relacional

1) Obter os arquivos a serem utilizados na prática;
1. svn checkout svn://200.129.148.56/CpDBcourse –username=cbab –
password=cbabbelem
2) Instalação do SGBD postgresql 8.4;

1. su <usuario sudoer>
2. password: <senha do usuario sudoer>
3. sudo apt-get install postgresql-8.4
4. Responda sim para a pergunta que se segue e aguarde …
5. sudo passwd postgres
6. passwd: postgres <confirme novamente quando perguntado>
7. digite 'exit' e clique <Enter>.
3) Criar fisicamente um banco de dados vazio de nome CpDB;

1. su postgres
2. password: postgres
3. cd ~
4. /usr/lib/postgresql/8.4/bin/initdb -D ./CpDB/
5. /usr/lib/postgresql/8.4/bin/postgres -D CpDB/ -p 1111 &
4) Criar logicamente um banco de dados (CpI19) no CpDB;

1. /usr/lib/postgresql/8.4/bin/createdb CpI19v2draft -U postgres -p
1111
2. exit
3. cd ~
4. cd CpDBcourse
5) Inserir o esquema relacional CpDB do banco de dados lógico

da CpI19;
1. psql -f CpI19v1.schema.dump -U postgres -p 1111 CpI19v2draft
6) Realizar a predição gênica com o fgenesB;

1. http://linux1.softberry.com/berry.phtml
2. OPERON AND GENE FINDING IN BACTERIA → FGENESB
3. Choose closest organism: Corynebacterium diphtheriae NCTC

13129
4. Enviar arquivo … : /home/cbab/CpDBcourse/CpI19v2.fasta
5. Clique em OK e depois PROCESS. Aguarde uns minutos …
6. Após finalizar o carregamento da página de resultados, copie da
página apenas as linhas com informação tabulada. Ignore o cabeçalho
e as sequências fasta exibidas no final da listagem dos dados tabula-
dos.
7. Cole os dados em um arquivo-texto com o nome 'CpI19v2.tab'.
7) Formatar o resultado do fgenesB para posterior carga no

banco de dados;
1. Ao terminar os comandos a seguir, todos os espaços em branco
terão sido substituídos por tabulações, e não haverá tabulação no iní-
cio e final de cada linha:
2. sed -i "s/[ ]\+/\t/g" CpI19v2.tab
3. sed -i "s/^\t//g" CpI19v2.tab
4. sed -i "s/\t$//g" CpI19v2.tab
5. cut -f 1,2,3,4,6,8,10,11 CpI19v2.tab > CpI19v2.tab2
6. mv CpI19v2.tab2 CpI19v2.tab
8) Formatar o resultado do fgenesB para exibição pelo artemis;

1. cut -f 5,6,7 CpI19v2.tab > CpI19v2_CDS.tab
2. head -n 10 CpI19v2_CDS.tab
3. sed -i "s/+\t$[0-9]\+$\t$[0-9]\+$/FT CDS \1..\2/g"
CpI19v2_CDS.tab
4. sed -i "s/-\t$[0-9]\+$\t$[0-9]\+$/FT CDS complement(\1..\2)/g"
CpI19v2_CDS.tab
5. head -n 10 CpI19v2_CDS.tab
9) Salvar um arquivo EMBL a partir da fita de DNA da CpI19;

1. art CpI19v2.fasta &
2. File → Save An Entry As … → EMBL Format → CpI19v2.fasta

3. Digite 'CpI19v2.embl' para o nome do arquivo e finalize.
4. File → Exit
10) Incorporar o resultado formatado do fgenesB no arquivo

EMBL;
1. art CpI19v2.embl &
2. File → Read Entry Into → CpI19v2.embl → CpI19v2_CDS.tab →
Open
3. File → Default Entry (Ctrl - S)
11) Atribuir uma nomenclatura automática para todas as CDS;

1. Select → All CDS Features
2. Edit → Automatically Create Gene Names
3. Enter the start characteres for the new gene names: CpI19v2_
4. Start counting at: 1
5. Increment number by: 1
6. Enter a qualifier name to use: locus_tag
7. Number of digits in the name: 5
8. Append “c” to names of reverse strand features? Cliqe “No”.
9. File → Default Entry (Ctrl - S)
12) Exportar aminoácidos de todas as CDSs da CpI19 em formato

fasta;
2. File → Write → Amino Acids Of Selected Features
3. Digite o nome 'CpI19v2_AA.fasta' e finalize.
4. File → Close, nas duas janelas do Artemis.
13) Exportar aminoácidos de todas as CDSs da Cd em formato

fasta;
1. cd curated
2. art Cdiphtheriae.embl &
4. File → Write → Amino Acids Of Selected Features
5. Digite o nome 'Cd_AA.fasta' e finalize.
6. File → Close, nas duas janelas do Artemis.
14) Criar um banco blast com todas as CDSs da Cd;

1. formatdb -i Cd_AA.fasta -n Cd_blast_data
15) Realizar um blast entre CDSs da CpI19 (query) com a Cd

(subject);
1. blastall -p blastp -i ../CpI19v2_AA.fasta -d Cd_blast_data -e
0.000001 -o CpI19v2_AA.against.Cd_AA.e6.out.tab -m 8
16) Copiar dados de blast para o banco da CpI19;

1. psql -U postgres -p 1111 CpI19v2draft
2. copy blasthits from
'/home/cbab/CpDBcourse/curated/CpI19v2_AA.against.Cd_AA.e6.ou
t.tab';
3. \q
17) Extrair dados de Corynebacterium diphtheriae de arquivo

EMBL;
1. Antes é preciso mascarar um caractere que criará problemas duran-
te a carga no banco de dados, o caractere de aspas simples. Isso por-
que a aspa simples é delimitador de textos no postgres e não pode
haver mais que duas aspas simples em um texto. Para isso, substituí-
mos esse caractere por um similar, um acento de crase, por exemplo:
2. sed -i "s/'/\`/g" Cdiphtheriae.embl
3. ../parseEMBLtoCpDB Cdiphtheriae.embl
18) Modificar a tabela de destino do arquivo extraído do EMBL

para a tabela 'curated';
1. O programa 'parseEMBLtoCpDB' sempre gera comandos SQL para
inserir dados na tabela gene, mas agora precisamos inserir dados na
tabela 'curated'. Por isso, é necessário modificar o nome da tabela e
outros dois campos;
2. sed -i "s/into GENE/into curated/g" insert.gene.sql
3. sed -i "s/Corynebacterium pseudoturbeculosis/C. diphtheriae/g"
insert.gene.sql
4. sed -i "s/(systematic_id,/(subject,/g" insert.gene.sql
5. mv insert.gene.sql insert.curated.sql
19) Inserir dados de C. diphtheriae na tabela 'curated' do banco

de dados CpI19;
1. psql -f insert.curated.sql -U postgres -p 1111 CpI19v2draft
20) Extrair dados do fgenesB do arquivo EMBL da CpI19;

1. cd ..
2. ./parseEMBLtoCpDB CpI19v2.embl
3. Ao final desse comando haverá um arquivo de nome “in-
sert.gene.sql” que será utilizado para dar carga na tabela GENE;
4. mv insert.* sql/
5. cd sql
21) Inserir dados do fgenesB no banco de dados CpI19;

1. psql -f insert.gene.sql -U postgres -p 1111 CpI19v2draft
22) Extrair dados de local subcelular e tamanho de CDS de uma

predição do Surfg para CpI19;
1. cd ..
2. cut -f 1,3,4,5 -d ";" CpI19_v2.surfg > sql/local_tamanho.sql
23) Formatar os dados de local subcelular e tamanho de CDS no

banco de dados da CpI19;
1. cd sql
2. vi local_tamanho.sql
3. dd
4. :wq
5. sed -i "s/;null//g" local_tamanho.sql
6. sed -i "s/PSE;/PSE /g" local_tamanho.sql
7. grep -v ";;;" local_tamanho.sql > local_tamanho.sql2
8. mv local_tamanho.sql2 local_tamanho.sql
9. sed -i "s/$.\+$;$.\+$;$.\+$/update gene set local_subcelular='\2',
cds_size=\3 where systematic_id = '\1';/g" local_tamanho.sql
24) Inserir dados de local subcelular e tamanho de CDS no banco

de dados da CpI19;
1. psql -f local_tamanho.sql -U postgres -p 1111 CpI19v2draft
25) Extrair dados de melhor resultado de blast;

1. Para esse propósito, vamos descompactar os resultados de blast que
são gerados por padrão compactado. Um parser vai processar cada um
dos arquivos de resultado de blast e acumular o resultado em um ar-
quivo texto. Esse resultado será copiado para a tabela 'similarto', do
mesmo modo como foi feito para a tabela 'blasthits'. Para iniciarmos,
precisamos gerar um arquivo contendo a lista de arquivos de resulta-
dos de blast. Essa lista será passada para o parser de melhor hit de
blast.
2. cd ..
3. cd blastp
4. ls
5. gunzip *
6. ls
7. cd /
8. ls /home/cbab/CpDBcourse/blastp/* >
/home/cbab/CpDBcourse/files.list
9. cd /home/cbab/CpDBcourse
10. ./parseblastpfiles files.list
11. Um arquivo 'similarto.tab' é criado na pasta
/home/cbab/CpDBcourse/
26) Remover cabeçalho. Avaliar a necessidade de formatar ma-

nualmente alguns dados de melhor resultado de blast para os
quais a extração automática possa ter encontrado um formato
diferente do esperado;
1. vi similarto.tab
2. dd
3. :wq
4. mv similarto.tab sql/
27) Inserir dados de melhor resultado de blast;

1. psql -U postgres -p 1111 CpI19v2draft
2. copy similarto from '/home/cbab/CpDBcourse/sql/similarto.tab';
3. \q
28) Exportar o banco de dados da CpI19 em formato texto;

1. cd sql
2. sh DBexport ../CpI19v3.tab
3. cd ..
29) Salvar outro arquivo EMBL a partir da fita de DNA da

CpI19;
1. art CpI19v2.fasta &
2. File → Save An Entry As … → EMBL Format → CpI19v2.fasta
3. Digite 'CpI19v3.embl' para o nome do arquivo e finalize.
4. File → Exit
30) Incorporar resultados exportados do banco em um novo ar-

quivo EMBL da CpI19;
1. art CpI19v3.embl &
2. File → Read Entry Into → CpI19v3.embl → CpI19v3.tab → Open
3. File → Default Entry (Ctrl – S)
Reference: Santos, A.R.; Miyoshi, Silva, A. A.; Azevedo, V. 2011,

"CpDB: A relational database schema and tools for bacterian ge-
nomes annotation and pos-genome research", unpublished.
Contacts: asantos@icb.ufmg.br, vasco@icb.ufmg.br
Referências
1- ALTSCHUL, S.F.; MADDEN, T.L.; SCHÄFFER, A.A.; ZHANG, J.;
ZHANG, Z. et al. 1997. Gapped BLAST and PSI-BLAST: a new genera-
tion of protein database search programs. Nucleic Acids Res, 25:3389-
3402.
2- APARICIO, G.; GÖTZ, S.; CONESA, A.; SEGRELLES, D.; BLANQUER, I.
et al. 2006. Blast2GO goes grid: developing a grid-enabled prototype for func-
tional genomics analysis. Stud Health Technol Inform, 120:194-204.
3- BENDTSEN, J.D.; NIELSEN, H.; VON HEIJNE, G.; BRUNAK, S. 2004.
Improved prediction of signal peptides: SignalP 3.0. J. Mol. Biol.,
340:783-795.
4- BENSON, D.A.; KARSCH-MIZRACHI, I.; LIPMAN, D.J.; OSTELL, J.;
WHEELER, D.L. 2008. GenBank. Nucleic Acids Res., 36:D25-30.
5- DATTA, S.; DATTA, S.; KIM, S.; CHAKRABORTY, S.; GILL, R.S.
2010. Statistical analyses of next generation sequence data: a partial over-
view. J. Proteomics Bioinform, 3:183-190.
6- DAVIDSEN, T.; BECK, E.; GANAPATHY, A.; MONTGOMERY, R.;
ZAFAR, N. et al. 2010. The comprehensive microbial resource. Nucleic
Acids Res., 38:D340-5.
7- ENGELHARDT, B.E.; JORDAN, M.I.; REPO, S.T.; BRENNER, S.E.
2009. Phylogenetic molecular function annotation. J. Phys., 180:12024.
8- HUNTER, S.; APWEILER, R.; ATTWOOD, T.K.; BAIROCH, A.;

BATEMAN, A. et al. 2009. InterPro: the integrative protein signature da-
tabase. Nucleic Acids Res., 37:D211-5.
9- HYATT, D.; CHEN, G.; LOCASCIO, P.F.; LAND, M.L.; LARIMER,
F.W. et al. 2010. Prodigal: prokaryotic gene recognition and translation in-
itiation site identification. BMC Bioinformatics, 11:119.
10- KISLYUK, A.O.; KATZ, L.S.; AGRAWAL, S.; HAGEN, M.S.;
CONLEY, A.B. et al. 2010. A computational genomics pipeline for pro-
karyotic sequencing projects. Bioinformatics, 26:1819-1826.
11- KROGH, A.; LARSSON, B.; VON HEIJNE, G.; SONNHAMMER, E.L.
2001. Predicting transmembrane protein topology with a hidden Markov
model: application to complete genomes. J. Mol. Biol., 305:567-580.
12- LI, L.; SHIGA, M.; CHING, W.; MAMITSUKA, H. 2010. Annotating
gene functions with integrative spectral clustering on microarray expres-
sions and sequences. Genome Inform, 22:95-120.
13- LORENZI, H.A.; PUIU, D.; MILLER, JR.; BRINKAC, L.M.; AMEDEO,
P. et al. 2010. New assembly, reannotation and analysis of the Entamoeba
histolytica genome reveal new genomic features and protein content in-
formation. PLoS Negl Trop Dis., 4:e716.
14- MEYER, F.; GOESMANN, A.; MCHARDY, A.C.; BARTELS, D.;
BEKEL, T. et al. 2003. GenDB--an open source genome annotation sys-
tem for prokaryote genomes. Nucleic Acids Res., 31:2187-2195.
15- ORVIS, J.; CRABTREE, J.; GALENS, K.; GUSSMAN, A.; INMAN,
J.M. et al. 2010. Ergatis: a web interface and scalable software system for
bioinformatics workflows. Bioinformatics, 26:1488-1492.
16- PALLEN, M.J.; LOMAN, N.J.; PENN, C.W. 2010. High-throughput
sequencing and clinical microbiology: progress, opportunities and chal-
lenges. Curr. Opin. Microbiol., 13:625-631.
17- POPTSOVA, M.S.; GOGARTEN, J.P. 2010. Using comparative genome
analysis to identify problems in annotated microbial genomes. Microbi-
ology, 156:1909-1917.
18- TROST, B.; HAAKENSEN, M.; PITTET, V.; ZIOLA, B.; KUSALIK, A.
2010. Analysis and comparison of the pan-genomic properties of sixteen
well-characterized bacterial genera. BMC Microbiol., 10:258.
19- WONG, W.; MAURER-STROH, S.; EISENHABER, F. 2010. More than
1,001 problems with protein domain databases: transmembrane regions,
signal peptides and the issue of sequence homology. PLoS Comput Bi-
ol., 6:e1000867.
20- ZHAO, J.; GRANT, S.F. 2011. Advances in whole genome sequencing
technology. Curr Pharm Biotechnol. 12(2):293-305.
21- ZHOU, K.; PANISKO, E.A.; MAGNUSON, J.K.; BAKER, S.E.;
GRIGORIEV, I.V. 2009. Proteomics for validation of automated gene
model predictions. Methods Mol. Biol., 492: 447-452.
Anotação Genômica – Curadoria

Manual
Vivian D’Afonseca 15
ARTEMIS: DNA sequence view and

annotation tool
O programa Artemis, disponível para download em
(http://www.sanger.ac.uk/Software/Artemis), é um algoritmo desen-
volvido para visualização de genomas e realização da anotação e cu-
radoria manual, com distribuição gratuita. O Artemis permite que o
curador ou anotador visualize diversas características das sequências
genômicas, como: produto codificado pelo gene predito; presença de
tRNAs e rRNAs; busca por similaridade proteica e nucleotídica em
bancos de dados biológicos; visualização de prováveis domínios e
famílias proteicas conservadas; visualização de conteúdo GC, desvio
de uso de códon; e diversas outras funções. Esses dados podem ser
visualizados nas seis fases de leitura da tradução de DNA em proteí-
nas (RUTHERFORD et al., 2000).
Tal algoritmo é escrito na linguagem Java e está disponível
para os seguintes sistemas operacionais: UNIX, Macintosh e Win-
dows. O Artemis é capaz de processar os seguintes arquivos: no for-
mato .EMBL e .GENBANK ou, mesmo, sequências em formato
.FASTA.
15
vivian.dsf@gmail.com
Anotação básica de genomas procariotos utilizando o pr o-

grama ARTEMIS:
Nesse documento estão descritos alguns passos básicos para
o processo de anotação. Sugere-se a leitura do artigo: Meeting re-
port: a workshop on Best Practices in Genome Annotation
(RAMANA MADUPU et al., 2010), Database, vol. 2010, p. 2-17.
1. O programa Artemis pode ser obtido a partir do seguinte en-

dereço: http://www.sanger.ac.uk/resources/software/artemis
2. O programa Artemis reconhece basicamente dois tipos de ar-
quivos: arquivos .EMBL e .FASTA.
3. Na janela inicial do programa, verificar se a opção n. 11
(Bacterial and plant plastid) está selecionada; caso não esteja,
para organismos procariotos é preciso selecionar essa opção an-
tes de abrir seu arquivo.
4. Vá em Open  e abra seu arquivo .EMBL ou .FASTA.
IMPORTANTE: Caso o genoma tenha sido dividido em diversos

pedaços diferentes (os famosos arquivos .tab), o curador deve:
1. Executar os passos anteriores, abrindo primeiro o arquivo

.EMBL representativo do genoma completo.
2. Em seguida vá em File  Read an Entry  e abra seu ar-
quivo .tab. Essa opção permite que você não grave as infor-
mações do seu arquivo dentro do .EMBL previamente aberto,
mas apenas o use como base para abrir o seu .tab, na localiza-
ção genômica correta.
3. Todas as informações que um curador vai acrescentar ao
genoma, nesse caso, devem ser feitas apenas nas CDS do ar-
quivo .tab e não nas CDS do arquivo .EMBL.
4. Para ter acesso à janela de edição de cada CDS, basta clicar
em cima da CDS de interesse e pertar a tecla 'E'.
5. Para ter acesso offline aos resultados de busca por similari-

dade da CDS em questão previamente realizados, basta clicar
em cima da CDS de interesse a apertar a tecla 'B'.
6. Para ter acesso às informações de domínios, motivos e fa-
mílias proteicas conservadas preditas, basta apenas clicar em
cima do domínio de interesse e apertar a tecla “E”.
7. Uma vez aberta a janela de edição de uma CDS, o curador
deve acrescentar termos qualificadores ou qualifiers em todas
as CDS preditas no genoma. A seguir estão listados as featu-
res e os qualifiers frequentemente utilizados no processo de
anotação funcional.
Features básicas utilizadas em uma anotação funci onal:

1. CDS: feature utilizada para todo elemento do genoma que
provavelmente codifica uma proteína.
2. tRNA: feature utilizada para todo elemento do genoma que
provavelmente codifica um RNA transportador.
3. rRNA: feature utilizada para todo elemento do genoma que
provavelmente codifica um RNA ribossômico.
4. gene: feature utilizada para CDS que apresenta troca de
frame (frameshift) ou para pseudogenes.
5. misc_features: feature utilizada para qualquer outro ele-
mento do genoma que não se encaixa nas categorias anterior-
mente descritas, por exemplo domínios proteicos conserva-
dos, motivos proteicos, DNA repetitivo, entre outros.
Qualifiers (termos anotadores ou qualificadores) bás icos

utilizados em uma anotação funcional:
Todos os termos a seguir se referem aos campos que o cura-
dor obrigatoriamente deve acrescentar no processo de anotação fun-
cional:
1. locus_tag: nesse qualifier é colocado o nome que você de-

seja dar a cada CDS e que será disponibilizado publicamente
no NCBI, por exemplo: ufmg_0001.
2. protein_id: campo obrigatoriamente requerido pelo NCBI
para submissão. Deve estar presente apenas nas CDS válidas e
não em pseudogenes e outras features (rRNA, tRNA). Ele é
padrão e deve ser colocado da seguinte maneira: a nomencla-
tura exigida pelo NCBI gnl seguida de |, seguida do nome da
sua instituição ou grupo (ufmg) seguido de |, seguido do locus
tag de cada CDS: gnl|gbufmg|ufmg_0001.
3. gene: nesse campo, o curador deve colocar o nome do ge-
ne, o qual ele encontra realizando busca por similaridade em
bancos de dados de domínios públicos, por exemplo
BLASTp. O nome SEMPRE, SEMPRE, é composto por três
letras minúsculas seguidas por uma maiúscula. Pode haver um
número após as letras. Exemplo: dnaA. O que não pode acon-
tecer é o curador anotar: DnaA, nome de gene; nunca comece
com letra maiúscula.
4. product: campo no qual o curador deve colocar o provável
produto codificado por aquele gene, baseado em uma busca
por similaridade em nível proteico no NCBI – BLASTp. E-
xemplo: Chromosomal initiator of replication protein. Nesse
campo, o curador deve ser o mais descritivo possível; se a
busca por similaridade não retornou um produto descritivo o
suficiente, o curador pode recorrer à informação de domínios
conservados, caso haja para essa proteína.
5. curation: campo onde o curador insere seu nome.
6. colou: campo no qual o curador especifica se aquela prote-
ína está ok, com relação à proteína do banco de dados; nesse
caso, o curador deve colocar o número 3 (verde). Do contrá-
rio, caso a proteína apresente problemas relevantes, como
perda de um grande pedaço, ou troca de frame, por inserção
de um stop códon; deve-se usar a cor 2 (vermelho).
7. Similarity: este campo o curador irá preencher com a in-
formação obtida do primeiro resultado (best hit) da busca por
similaridade – BLASTp. Nesse campo, várias informações

devem ser colocadas:
1. Similar to (nome do organismo que deu similarida-
de, gênero, espécie, subespécie e linhagem), se tiver.
2. Produto que teve similaridade e tamanho em ami-
noácidos (nome do produto) (### aa).
3. Valor de e: e-value: 0.0.
4. porcentagem de identidade entre a sua proteína e a
proteína do banco de dados (### %) e o número de
aminoácidos que tiveram similaridade (in ### aa).
5. Padrão: “Similar to Corynebacterium pseudotuber-
culosis 1002, hypothetical protein Cp1002_00047
(345 aa), e-value: 0.0, 98% id in 344 aa” .
8. note: o curador pode acrescentar qualquer nota que ele
queira, caso seja necessário. Para isso, utiliza-se o campo no-
te.
9. pseudo: toda vez que uma proteína apresentar uma ou vá-
rias quebras, devido à inserção de um stop códon, deve-se co-
locar a tag pseudo. São as famosas proteínas com frameshifts
ou prováveis pseudogenes.
Todas essas features podem ser acrescentadas na hora da anotação,

uma a uma, ou antes de se começar a anotação, em todas as CDS,
de uma só vez, para isso:
1. Selecione todas as CDS: Vá em Select  All CDS featu-
res. Vá em Edit  Qualifiers of selected features  Change
 Vai abrir uma janela, vá selecionando todas as features an-
teriores e clicando no campo Insert qualifier, ao final, clique
no campo Add e dê Ok. Todas as CDS terão todos os campos
que o curador escolheu.
2. Feito isso, pode-se iniciar a anotação levando em conside-
ração as dicas e regras dadas.
Como criar o nome dos campos locus_tag e protein_id

1. Para criar o nome de cada CDS que vai dentro do
campo locus_tag ou protein_id: Selecione todas as CDS: Vá
em Select  All CDS features. Vá em Edit - Automati-
cally create gene names  Vai abrir uma janela, escrito: en-
ter the start characters... Coloque o nome que será dado a
cada CDS seguido de um underline _  ufmg_  Ok 
start counting at  coloque o número 1  Ok  increment
number by  coloque o número 1  Ok  enter a qualifier
gene to use  locus_tag ou protein_id (lembrando-se de que
se deve fazer isso para os dois, pois ambos são obrigatórios
na submissão do NCBI).  ok  number of digits -  co-
loque o número 4  Ok  append “c”  clique em No.
2. Todas as CDS terão o locus_tag sequencial. Para a fe-
ature protein_id, o nome em vez do exemplo utilizado,
ufmg_, deve ser gnl|gbufmg|ufmg_ .
Exemplo de como deve ficar a janela de edição da submi s-

são básica:
/gene="dnaA"
/product="Chromosomal replication initiation protein"
/locus_tag="Cp1002_0001"
/protein_id="gnl|ufmg|Cp1002_0001"
/colour=3
/curation="Vívian D'Afonseca"
/similarity="Similar to Corynebacterium pseudotuberculosis
frc41, Chromosomal replication initiation protein (603 aa), e-
value: 0.0, 98% id in 599 aa"
1. Logo que a anotação for iniciada, cada anotador deve

confirmar se as CDS apresentam metionina inicial e stop
códon. Para colocar stop códon, caso não haja, clique na
CDS em questão e vá em Edit  extend to selected featu-
re  to next stop códon and fix.
2. Para iniciar uma proteína ou acertar a metionina de acor-

do com a proteína do banco de dados, clique Control + Q,
a proteína vai para o primeiro aminoácido e control + Y;
acerta a proteína para começar em uma metionina.
Referências
1- RUTHERFORD, K.; PARKHILL, J.; CROOK, J.; HORSNELL, T.; RICE,
P.; RAJANDREAM, M.A.; BARRELL, B. 2000. Artemis: sequence visua-
lization and annotation. Bioinformatics (Oxford, England), 16:944-945.
2- MADUPU, R.; BRINKAC, L.M.; HARROW, J.; WILMING, L.G.;
BÖHME, U.; LAMESCH, P.; HANNICK, L.I. 2010. Meeting report: a
workshop on best practices in genome annotation. Database (Oxford),
2010. p. baq001.
3- BRENT, M.R. 2005. Genome annotation past, present, and future: how to
define an ORF at each locus. Genome Res., 15(12):1777-86, dec. review.
4- FRASER, A.G.; MARCOTTE, E.M. 2004. A probabilistic view of gene
function. Nat Genet., 36(6):559-64, jun. review.
5- ASHURST, J.L.; COLLINS, J.E. 2003. Gene annotation: prediction and
testing. Annu. Rev. Genomics Hum. Genet., 4:69-88.
6- WINNENBURG, R.; WÄCHTER, T.; PLAKE, C.; DOMS, A.;
SCHROEDER, M. 2008. Facts from text: can text mining help to scale-up
high-quality manual curation of gene products with ontologies? Brief Bio-
inform, 9(6):466-78, nov./dec. 6. Review.
Análises Comparativas In Silico
Ariel Amadio 16
ACT: Artemis Comparison Tool

Um passo importante na análise de genomas bacterianos é a
utilização de ferramentas que permitam, de maneira gráfica, mineirar
os dados obtidos da montagem final de um genoma. Uma análise rea-
lizada com frequência é a comparação entre genomas filogenetica-
mente próximos, a fim de se obterem dados de plasticidade genômica
entre espécies ou, até mesmo, entre linhagens.
Para tal, hoje uma ferramenta amplamente utilizada é o ACT,
disponível para download em
(http://www.sanger.ac.uk/Software/ACT). Diversas análises podem
ser realizadas via algoritmo ACT: visualização de regiões de perda,
ganho ou rearranjo de DNA entre diversos genomas; presença de ilhas
de patogenicidade ou ilhas genômicas; diferenças gênicas entre ge-
nomas; inversões; duplicações; entre outras comparações (CARVER
et al., 2005, 2008). ACT é baseado no Artemis (RUTHERFORD et
al., 2000; BERRIMAN; RUTHERFORD, 2003), de modo que a
visualização de anotações é intuitiva e gráfica.
Os arquivos utilizados para comparação entre genomas são o-
riundos de buscas de similaridades de sequências utilizando o algo-
ritmo Basic Local Alignment Search Tool (BLAST), disponível em:
<http://blast.ncbi.nlm.nih.gov/Blast.cgi>. Outros programas podem
ser usados para comparações, incluindo MUMmer (DELCHER et al.,
16
Biólogo, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
2002, 2003), scripts para encontrar a melhor correspondência

recíproca (reciprocal best match), WU-BLAST, entre outros.
Assim como o Artemis, o ACT é um programa escrito na lin-
guagem Java e está disponível para os seguintes sistemas operacio-
nais: UNIX, Macintosh e Windows. O ACT é capaz de processar ar-
quivos no formato .EMBL, .GENBANK e GFF ou, mesmo, sequên-
cias em formato .FASTA. Há uma versão web do ACT denominada
WebACT (ABBOTT et al., 2005, 2007), que permite visualizar as
comparações sem a necessidade de instalar nem um software para
comparação ou ACT (www.webact.org).
Instalação
ACT é instalado junto com o Artemis. Para executar, digitar
em terminal linux: act.
Comparação
O ACT exibe comparações de múltiplas sequências
(CARVER et al., 2005, 2008). A comparação é feita par a par, utili-
zando o programa BLAST, sendo capaz de exibir os dados por estes
gerados. A exibição das comparações é feita com o traçado de trapé-
zios delimitados pelas cadeias, que são semelhantes entre um par de
genomas (Figura 4). A coloração dos trapézios é feita de acordo com
o grau de similaridade das cadeias de nucleotídeos.
Para a comparação pelo BLAST, primeiro devemos criar um
diretório:
# mkdir act
# cd act
Em seguida, obter os arquivos que serão usados para

comparação:
Modelo de arquivo
Exemplo1.embl Arquivo completamente anotado em
formato EMBL
Exemplo1.fasta Genoma completo em formato fasta

Exemplo2.fasta Genoma completo em formato fasta
Agora, executar o bl2seq, que faz uma comparação entre duas

sequências sem a necessidade de banco de dados formatado.
Comparação utilizando BLAST

# bl2seq -p blastn -i exemplo1.fasta -j exemplo2.fasta -o e-
xemplo2_vs_exemplo1.fasta.blastn -e 1e-5 -D 1
Isso cria o arquivo exemplo2_vs_exemplo1.fasta.blastn, com

a saída tabular de blastn (-D 1) entre as duas sequências.
Para executar uma comparação em nível de proteína, um

computador mais potente é necessário. Para isso:
bl2seq -p tblastx -i exemplo1.fasta -j exemplo2.fasta -o exem-

plo2_vs_ exemplo1.tblastx -e 1e-5 -D 1
Isso cria o arquivo exemplo2_vs_ exemplo1.tblastx, com a

saída tabular de blastn (-D 1) entre as duas sequências traduzidas para
proteínas.
Alguns computadores não têm a capacidade de fazer as
comparações necessárias. Nesses casos, há o DoubleACT
(http://www.hpa-bioinfotools.org.uk/pise/double_act.html),.uma
ferramenta web para gerar os arquivos que serão usados para de
comparação.
Visualização
ACT permite visualizar a saída gerada pelo BLAST em

formato de tabela, e, para fazer isso, execute act no terminal.
São três os arquivos necessários. Dois arquivos são os

genomas completos, o arquivo (do centro) é necessário, pois é o
arquivo de comparação.
Então, clique em File  Open e load:
No primeiro campo, carregue o arquivo: exem-
plo2.fasta
No campo do meio: exemplo2_vs_exemplo1.fasta.blastn
para ver a comparação entre nucleotídeos
ou exemplo2_vs_exemplo1.fasta.tblastx
para ver a comparação
entre proteínas traduzidas.
No terceiro campo: exemplo1.embl (que tem a anotação)

A interface é semelhante à do Artemis, com as sequências e
sua anotação, e no meio as barras indicam as regiões de similaridade,
como mostrado na Figura 4.
Figura 1 - Análise de similaridade nucleotídica utilizando BLASTn –

NCBI, dos genomas de C. pseudotuberculosis.
Na Figura 1 está o genoma da linhagem 1002. A seguir, a li-

nhagem C231 de C. pseudotuberculosis. As barras vermelhas sinali-
zam as regiões de similaridade entre os genomas. As barras azuis ilus-
tram os eventos de translocação e inversão. As regiões em branco são
regiões de inserção e deleção. A figura 1 foi gerada pelo programa
ACT: Artemis Comparison Tool.
Referências
1- ABBOTT, J.C.; AANENSEN, D.M.; BENTLEY, S.D. 2007. WebACT: an
online genome comparison suite. Methods Mol. Biol., 395:57-74.
2- ABBOTT, J.C.; AANENSEN, D.M.; RUTHERFORD, K.; BUTCHER, S.;
SPRATT, B.G. 2005. WebACT--an online companion for the Artemis
Comparison Tool. Bioinformatics, 15;21(18):3665-6, sep.
3- BERRIMAN, M.; RUTHERFORD, K. 2003. Viewing and annotating
sequence data with Artemis. Brief Bioinform, jun. 4(2):124-32.
4- CARVER, T.; BERRIMAN, M.; TIVEY, A.; PATEL, C.; BÖHME, U.;
BARRELL, B.G.; PARKHILL, J.; RAJANDREAM, M.A. 2008. Artemis
and ACT: viewing, annotating and comparing sequences stored in a rela-
tional database. Bioinformatics, 1;24(23):2672-6, dec. Epub, oct. 9.
5- CARVER, T.J.; RUTHERFORD, K.M.; BERRIMAN, M.;
RAJANDREAM, M.A.; BARRELL, B.G.; PARKHILL, J. 2005. ACT: the
Artemis Comparison Tool. Bioinformatics, 15;21(16):3422-3, aug.
6- DELCHER, A.L.; PHILLIPPY, A.; CARLTON, J.; SALZBERG, S.L.
2002. Fast algorithms for large-scale genome alignment and comparison.
Nucleic Acids Res., 1;30(11):2478-83, jun.
7- DELCHER, A.L.; SALZBERG, S.L.; PHILLIPPY, A.M. 2003. Using
MUMmer to identify similar regions in large sequence sets. Curr. Protoc.
Bioinformatics, feb.;chapter 10:Unit 10.3.
8- RUTHERFORD, K.; PARKHILL, J.; CROOK, J.; HORSNELL, T.; RICE,
P.; RAJANDREAM, M.A.; BARRELL, B. Artemis: sequence visualiza-
tion and annotation. Bioinformatics, 16 (10):944-5.
Identificação In Silico de Proteínas

Transmembranas ou Secretadas
Proteínas secretadas por microrganismos podem estar envol-

vidas em diferentes funções, como detecção de sinais de ambiente,
ligação a substratos, comunicação celular, interações entre hospedeiro
e patógeno, adesão e diferentes processos relevantes ao hábitat e ni-
cho ecológico de um microrganismo. Com o advento do sequencia-
mento massivo de genomas de microrganismos, em especial dos pato-
gênicos, diversas metodologias foram desenvolvidas para a mineração
genômica de sequências com possível participação no processo pato-
gênico. Entre essas proteínas, as secretadas e as transmembranas
constituem possíveis fatores de virulência. Dessa forma, a predição da
localização celular de determinada proteína, seja ela secretada ou
associada à membrana, pode trazer indícios sobre a função dela.
A secreção de proteínas em bactérias é desempenhada por seis
grandes sistemas (nomeados de I a VI). Cada um apresenta particula-
ridades, as quais são utilizadas pelos algoritmos para predição das
proteínas secretadas. Em microrganismos eucarióticos, por sua vez, a
maioria dos estudos se reflete no sistema geral de secreção, que apre-
senta certas similaridades ao sistema do tipo II de bactérias. A inser-
ção de proteínas em membranas é dependente da sequência primária
de aminoácidos, as quais formam estruturas secundárias característi-
cas (α-hélices) que promovem a sua estabilização na bicamada lipídi-
ca. Os programas para a identificação de domínios de transmembrana
17
são baseados na predição da formação de α-hélices, podendo ainda

predizer os domínios citoplasmáticos e extracelulares de tais proteí-
nas.
Aplicações
Os programas atualmente disponíveis para a predição de pro-
teínas transmembranas ou secretadas se baseiam na identificação, com
base na sequência primária das proteínas, de domínio transmembrana,
de peptídeos sinal e de sítios canônicos para atividade de sinal pepti-
dases. Outra metodologia baseia-se na predição de sítios para adição
de lipídeos às proteínas, o que confere a essa lipoproteína a capacida-
de de se ancorar nas membranas. Portanto, como aplicações associa-
das a essas metodologias podem ser citadas a predição de (i) proteínas
secretadas, possíveis fatores de virulência ou antígenos; e (ii) proteí-
nas associadas à membrana ou parede celular, importantes componen-
tes de adesão ou de sinalização celular. Além disso, a predição da
localização de proteínas é um passo inicial na caracterização funcio-
nal da proteína, assim como auxiliar na anotação de genomas.
Programas para predição de proteínas

transmembrana
SVMT Predictor
Disponível em:
<http://ccb.imb.uq.edu.au/svmtm/svmtm_predictor.shtml>.
Realiza predição de domínios transmembrana (Figura 5). Os
resultados gerados são descritos em um gráfico de pontuação de jane-
las, em que os segmentos com maior pontuação têm grande probabili-
dade de estar inseridos em uma membrana (YUAN et al., 2004).
Figura 2 - Predição de localização subcelular de porções de C. pseu-

dotuberculosis, linhagem 1002, feita com o software de
predição de proteínas de membrana SVMtm Predictor – A
pontuação referente a determinado aminoácido é registrada
em vermelho (TM profile), e os traços preditos como
transmembrana são descritos como TM Segment (verde).
TMHMM 2.0
Disponível em: <http://www.cbs.dtu.dk/services/TMHMM>.
Permite realizar predições dos domínios intracelulares, extracelu-
lares, assim como o domínio transmembrana (Figura 6) (KROGH et al.,
2001).
Figura 3 - Predição de localização subcelular de porções de C. pseudotu-

berculosis, linhagem 1002, feita com o software de predição
de proteínas de membrana TMHMM 2.0. A probabilidade re-
ferente ao fato de determinado aminoácido estar em regiões
transmembranas, na face citoplasmática ou extracelular, é re-
gistrada em vermelho, azul e rosa, respectivamente.
TOPCONS
Disponível em: <http://topcons.cbr.su.se>.
Este programa realiza a predição da topologia da proteína (Fi-
gura 7) em relação à membrana, com base em cinco distintos algorit-
mos: SCAMPI (single sequence mode), SCAMPI (multiple sequence
mode), PRODIV-TMHMM, PRO-TMHMM e OCTOPUS. Prediz as
regiões transmembrana, extra e intracelular de uma proteína
(BERNSEL et al., 2009).

predição de proteínas de membrana TOPCONS. O menor
valor de G reflete regiões com alta probabilidade de se in-
serir na membrana. Regiões em azul e vermelho podem
estar na face externa ou citoplasmática, respectivamente.
TUPS
Disponível em:
<http://sparks.informatics.iupui.edu/Softwares-
Services_files/tups.htm>.
Este programa utiliza diversas metodologias de busca para a

descrição de regiões transmembranas de uma proteína. Não oferece
interface gráfica, e os resultados são descritos apenas em tabelas, nas
quais são indicados apenas os aminoácidos formadores das hélices
presentes nas regiões transmembranas (ZHOU et al., 2005).
PHOBIUS
Disponível em: <http://phobius.sbc.su.se>.
Este programa permite realizar predições dos domínios intra-
celulares e extracelulares (Figura 8), assim como o domínio trans-
membrana (KALL et al., 2004).

predição de proteínas de membrana PHOBIUS. A probabi-
lidade referente ao fato de determinado aminoácido estar
em regiões transmembranas, na face citoplasmática ou ex-
tracelular, é registrada em cinza, azul e verde, respectiva-
mente.
PSORT
Disponível em: <http://psort.hgc.jp>.
É um pacote de programas para a predição da localização de
proteínas em diferentes organismos: WOLF PSORT, para sequências
de fungos, animais e plantas (HORTON et al., 2007); PSORT II, para
sequências de leveduras e animais (NAKAI; HORTON, 1999);
PSORT, para sequências oriundas de bactérias e plantas (NAKAI;
HORTON, 1999); PSORT-B, para sequências oriundas de bactérias
Gram-positivas (GARDY et al., 2005). Os resultados são apresenta-
dos em tabela, com descrição dos possíveis domínios transmembrana,
citoplasmático ou extracelular.
Predição de proteínas secretadas

Software Surfg plus 1.0
Este software de predição do compartimento celular
(BARINOV et al., 2009) foi escrito na linguagem de desenvolvimento
JAVA, obtido e configurado de acordo com instruções dos autores.
Esse programa é específico para a predição do compartimento celular
de proteínas oriundas de genomas de procariotos, não existindo ainda
a versão para organismos eucarióticos. O Surfg plus é de fato o coor-
denador da execução de outras ferramentas de software largamente
utilizadas na bioinformática, a saber: LipoP (JUNCKER et al., 2003),
que faz a predição de lipoproteínas; SignalP (BENDTSEN et al.,
2004), que prediz motivos de peptídeo sinal; TMHMM (KROGH et
al., 2001), que prediz motivos transmembrânicos; e HMMER (EDDY,
1998), para buscas de motivos por meio de Modelos Ocultos de Mar-
kov (HMM). No programa Surfg foram criados oito profiles HMM
para a pesquisa por proteínas que pudessem ser retidas na membrana e
que são executados pelo Surfg plus, a exemplo de LPXTG. Não ofe-
rece interface gráfica, e os resultados são descritos em tabelas
(BARINOV et al., 2009).
SignalP
O método SignalP está disponível em:
<http://www.cbs.dtu.dk/services/SignalP>.
O SignalP v. 3.1. prediz a presença e localização dos sítios de
clivagem de peptídeo sinal em sequências de aminoácidos de diferen-
tes organismos: procariotos Gram-positivos e Gram-negativos e euca-
riotos. O método inclui uma predição de sítios de clivagem e de um
peptídeo sinal utilizando uma combinação entre redes neurais artifici-
ais e modelos ocultos de Markov.
Em contraste com outros métodos, SignalP também prediz o
sítio real de clivagem e, portanto, o peptídeo que é clivado durante a
translocação na membrana. O SignalP 3.0 é descrito como a melhor
ferramenta independente para a predição do peptídeo sinal, sendo a
pontuação D, relatada pelo método SignalP, a melhor medida para a
diferenciação entre proteínas secretadas e não secretadas (KLEE;
ELLIS, 2005).
Qual o significado dos escores de SignalP?

Muitas abordagens e ferramentas de predição bioinformática
não têm uma resposta fechada. Muitas vezes, o utilizador é confronta-
do com a interpretação dos resultados, que pode ser numérica ou grá-
fica. Por que isso? Nos exemplos bem definidos, não há dúvida se
esse é um peptídeo sinal! Mas, em casos-limite, é muitas vezes útil ter
mais informações do que uma resposta fechada. Essa saída gráfica
pode ajudar a interpretar a resposta correta. Um exemplo disso é mos-
trado na Figura 9 (BENDTSEN et al., 2004).
Figura 6 - Saída gráfica do método SignalP utilizando como entrada a

proteína de C. pseudotuberculosis, linhagem 1002, feita
com o software SignalP. A probabilidade referente a uma
ligação peptídica em ser hidrolisada pela Sinal peptidase é
mostrada em vermelho.
A saída gráfica do SignalP (rede neural) comprime três esco-

res diferentes, C, S e Y. Existem ainda dois escores adicionais de
saída SignalP3-NN, chamados de média S e escore D, mas estes são
apenas relatados como valores numéricos.
Para cada tipo de organismo em SignalP: eucarióticos, Gram-
negativos e Gram-positivos, são utilizadas duas diferentes redes neu-
rais, uma para predição do peptídeo sinal real e outra para a predição
da posição do sítio de clivagem da peptidase sinal I (Spa I). O escore
S para a predição de peptídeos sinal é relatado para cada posição de
um único aminoácido na sequência apresentada, com um escore ele-
vado, indicando que o aminoácido correspondente faz parte do peptí-
deo sinal, e menor escore evidencia que o aminoácido é parte de uma
proteína madura.
O escore C e a pontuação de "clivagem": para cada posição na
sequência apresentada é relatado um escore C, que só deve ser signi-
ficativamente mais elevado no sítio de clivagem. Frequentemente é
observada confusão com o número da posição do sítio de clivagem.
Quando uma posição no sítio de clivagem é referida por um número
único, esse número indica o primeiro resíduo na proteína madura. Isso

significa que o sítio de clivagem relatado entre os aminoácidos 26 e
27 corresponde ao início da proteína madura na posição 27.
Y-max é derivado do escore C, combinado com o escore S,
resultando em melhor predição do sítio de clivagem do que somente o
escore C. Isso é devido ao fato de que vários picos de alto escore C
podem ser encontrados em uma sequência, quando apenas um é o
verdadeiro local de clivagem. O sítio de clivagem é atribuído a partir
do escore Y, em que o gradiente do escore S é abrupto e um escore C
é significativo.
EXEMPLO
1. Ir para o terminal no sistema operacional Linux e localizar
o arquivo de proteínas em formato fasta a ser utilizado:
cd /home/user/Desktop/protein_input_file
2. Digitar o comando:
signalp -t gram+ -short -method nn protein_input_file.fasta >

saida-signalp-all
Parâmetros
* 'organismo' - (Obrigatório)
"euk" organismo eucarioto
"gram-" organismo procarioto Gram-negativo
"gram+" organismo procarioto Gram-positivo
* 'method' – método de predição (opcional)
"nn"
"hmm"
"nn+hmm" ambos os metodos (default)
- t →Saída no formato texto.
- gram+ →Algoritmo calibrado para organismos procariotos.
- short→Saída no formato tabular.

- method nn→Metodo por rede neural.
- teste_AA.fasta→Arquivo de entrada.
- >saída-signalp-all →Arquivo de saída.
3. Verificar se o arquivo de saída foi gerado corretamente:

cat saida-signalp-all
4. Filtrar apenas os resultados positivos:

egrep Y$ saida-signalp-all > saida-signalp
5. Verificar a filtragem:
cat saida-signalp
TatP
Disponível em: <http://www.cbs.dtu.dk/services/TatP>.
Predição de proteínas secretadas (Figura 10) pelo sistema
Twin arginine transporter (Tat), o qual é independente do sistema de
translocação Sec. O sistema Tat secreta as proteínas pelo reconheci-
mento de um peptídeo sinal característico, o qual é o alvo da predição
(BENDTSEN et al., 2005).
Figura 7 - Predição de peptídeo sinal em proteína de C. pseudotuber-

culosis, linhagem 1002, feita com o software TatP. A pro-
babilidade de uma ligação peptídica ser hidrolisada pela
Sinal peptidase é mostrada em vermelho e a referente a um
peptídeo sinal, em verde.
LipoP
Disponível em: <http://www.cbs.dtu.dk/services/LipoP>.
Predição de lipoproteínas (Figura 11) em procariotos Gram-
negativos. Calcula a probabilidade de secreção e clivagem pelo siste-
ma não convencional de Sinal peptidase II (JUNCKER et al., 2003).
Figura 8 - Resultado do programa LipoP. A probabilidade de uma

ligação peptídica em uma lipoproteína ser hidrolisada pela
Sinal peptidase II é mostrada em verde.
Secretome P
Disponível em:
<http://www.cbs.dtu.dk/services/SecretomeP>.
Predições ab initio de proteínas secretadas por vias não con-
vencionais, como a
mediada por peptídeo sinal e a atividade de sinal peptidase. A predi-
ção é baseada em uma compilação de proteínas de diversos organis-
mos que são secretadas, mas não apresentam
peptídeo sinal na sua sequência (BENDTSEN et al., 2005).
Referências
1- BARINOV, A.; LOUX, V.; HAMMANI, A.; NICOLAS, P.;
LANGELLA, P.; EHRLICH, D.; MAGUIN, E.; van de GUCHTE, M.
2009. Prediction of surface exposed proteins in Streptococcus pyogenes,
with a potential application to other Gram-positive bacteria. Proteomics,
9:61-73.
2- BENDTSEN, J.D.; KIEMER, L.; FAUSBØLL, A.; BRUNAK, S. 2005.
Non-classical protein secretion in bacteria. BMC Microbiology, 5:58.
3- BENDTSEN, J.D.; NIELSEN, H.; von HEIJNE, G.; BRUNAK, S. 2004.
Improved prediction of signal peptides: SignalP 3.0. Journal of Molecu-
lar Biology, 340:783-795.
4- BERNSEL, A.; DALEY, D.O. 2009. Exploring the inner membrane prote-
ome of Escherichia coli: which proteins are eluding detection and why?
Trends in Microbiology, 17:444-449.
5- HORTON, P.; PARK, K.; OBAYASHI, T.; FUJITA, N.; HARADA, H.;
ADAMS-COLLIER, C.J.; NAKAI, K. 2007. WoLF PSORT: protein loca-
lization predictor. Nucleic Acids Research, 35:W585-7.
6- JUNCKER, A.S.; WILLENBROCK, H.; von HEIJNE, G.; BRUNAK, S.;
NIELSEN, H.; KROGH, A. 2003. Prediction of lipoprotein signal peptides
in Gram-negative bacteria. Protein Science: a publication of the protein
Society, 12:1652-1662.
7- KÄLL, L.; KROGH, A.; SONNHAMMER, E.L.L. 2004. A combined
transmembrane topology and signal peptide prediction method. Journal of
Molecular Biology, 338: 1027-1036.
8- KROGH, A.; LARSSON, B.; VON HEIJNE, G.; SONNHAMMER, E.L.

2001. Predicting transmembrane protein topology with a hidden Markov
model: application to complete genomes. Journal of Molecular Biology,
305:567-580.
9- NAKAI, K.; HORTON, P. 1999. PSORT: a program for detecting sorting
signals in proteins and predicting their subcellular localization. Trends in
Biochemical Sciences, 24:34-36.
10- YUAN, Z.; MATTICK, J.S.; TEASDALE, R.D. 2004. SVMtm: support
vector machines to predict transmembrane segments. J. Comput Chem.,
25(5):632-636.
Predição de Epítopos
NetMHC Server 3.2

Disponível em: <http://www.cbs.dtu.dk/services/NetMHC>.
O servidor NetMHC 3.2 prediz ligação de peptídeos a uma sé-
rie de alelos HLA diferentes usando redes neurais artificiais (ANNs) e
matrizes de peso. Todas as versões anteriores estão disponíveis on-
line para comparação e referência. As ANNs foram treinadas por 57
diferentes MHC Humanos (HLA), representando todos os 12 alelos
HLA supertipos A e B definidos por Lund et al. (2004). Além disso,
22 alelos animais (macaco e rato) têm predições disponíveis.
Os valores de predição de ANN são dados em valores nM
IC50. Para predição de matrizes de peso, é dado um valor como esco-
re de aptidão, de modo que pontuação de aptidão elevada é correla-
cionada a forte ligação.
Predições de tamanho 8-11: As predições podem ser feitas
para tamanhos entre 8 e 11 em todos os alelos usando um algoritmo
ANNs treinado em peptídeos 9mer. Provavelmente por causa da quan-
tidade limitada de dados 10mer disponíveis, esse método tem melhor
valor de predição utilizando um algoritmo ANNs treinado em dados
10mer. No entanto, cuidado deve ser tomado para predições 8mer, já
que alguns alelos podem não se ligar a 8mer em qualquer extensão
significativa.
18
Peptídeos ligantes são indicados na saída como fortes (SB) e

fracos (WB). Na janela de seleção para os alelos HLA, o alelo reco-
mendado para cada supertipo HLA é indicado (LUNDEGAARD et
al., 2008).
Figura 1 - Predição de epítopos ligantes de MHC de classe I. Peptí-

deos ligantes são indicados na saída como fortes (SB) e
fracos (WB).
Net MHCII 2.2

Disponível em: <http://www.cbs.dtu.dk/services/NetMHCII>.
O servidor NetMHCII 2.2 prediz peptídeos ligantes de alelos

MHC classe II HLA-DR, HLA-DQ, HLA-DP e camundongo utilizan-
do as redes neurais artificiais (ANNs).
Predições podem ser obtidas para 14 alelos HLA-DR, abran-
gendo os nove supertipos HLA-DR, seis HLA-DQ, seis HLA-DP e
dois alelos H2 de classe II de camundongo.
Os valores de predição são dados em valores nM IC50 e
em%-Rank para um conjunto aleatório de 1.000.000 de peptídeos
naturais. Peptídeos ligantes fortes e fracos são indicados no arquivo
de saída (NIELSEN et al., 2007).
Figura 2 - Predição de epítopos ligantes de MHC de classe II. Peptí-

deos ligantes são indicados na saída como fortes (SB) e
fracos (WB).
EXEMPLO
Ir para o terminal no sistema operacional Linux e localizar o
arquivo de proteínas em formato fasta a ser utilizado:
Digitar o comando:
netMHCII -a <nome do alelo> -s teste > aluno_saidanetmhc2
Parâmetros
# [-a filename] DRB1_0101 Allele name
# [-t float] -99.900002 Threshold for output
# [-s] 0 Sort output on descending affinity
# [-wt float] 500.000000 Threshold for weak binders
# [-st float] 50.000000 Threshold for strong binders
# [-l int] 15 Peptide length
# [-list] 0 List alleles covered by NetMHCII method
BepiPred 1.0
Disponível em: <http://www.cbs.dtu.dk/services/BepiPred>.
BepiPred 1.0 server realiza a predição de localização de epí-
topos lineares de células B.
Figura 9 - Predição de epítopos lineares de célula B utilizando Bepi-

pred. Regiões de antigenicidade estão representadas em
amarelo.
EXEMPLO
Ir para o terminal no sistema operacional Linux e localizar o
arquivo de proteínas em formato fasta a ser utilizado:
Digitar o comando:
bepipred -t 0.40 -s teste > aluno_saidabepipred
Parâmetros
-s include the input sequence(s) in the output"
-t # score threshold for positive prediction\n"
Referências
1- NIELSEN, M.; LUNDEGAARD, C.; LUND, O. 2007. Prediction of MHC
class II binding affinity using SMM-align, a novel stabilization matrix
alignment method. BMC Bioinformatics, 8:238.
2- NIELSEN, M.; LUND, O. 2007. NN-align. A neural network-based align-

ment algorithm for MHC class II peptide binding prediction. BMC Bioin-
formatics, 8:238.
3- LARSEN, J.; PONTOPPIDAN, E.; LUND, O.; NIELSEN, M. 2006. Im-
proved method for predicting linear B-cell epitopes. Immunome Re-
search, 2:2.
4- BUUS, S.; LAUEMOLLER, S.L.; WORNING, P.; KESMIR, C.;
FRIMURER, T.; CORBET, S.; FOMSGAARD, A.; HILDEN, J.; HOLM,
A.; BRUNAK, S. 2003. Sensitive quantitative predictions of peptide-MHC
binding by a 'Query by Committee' artificial neural network approach. Tis-
sue Antigens, 62:378-84.
5- NIELSEN, M.; LUNDEGAARD, C.; WORNING, P.; LAUEMOLLER,
S.L.; LAMBERTH, K.; BUUS, S.; BRUNAK, S.; LUND, O. 2003. Relia-
ble prediction of T-cell epitopes using neural networks with novel se-
quence representations. Protein Sci., 12:1007-17.
6- LUNDEGAARD, C.; LAMBERTH, K.; HARNDAHL, M.; BUUS, S.;
LUND, O.; NIELSEN, M. 2008. NetMHC-3.0: accurate web accessible
predictions of human, mouse and monkey MHC class I affinities for pep-
tides of length 8-11. Nucleic Acids Res., 1;36(Web Server issue):W509-
12.
7- LUNDEGAARD, C.; LUND, O.; NIELSEN, M. 2008. Accurate approxi-
mation method for prediction of class I MHC affinities for peptides of
length 8, 10 and 11 using prediction tools trained on 9mers. Bioinforma-
tics, 24(11):1397-98.
Submissão de um Genoma
Procarioto ao NCBI: National Center
for Biotechnology Information
Vivian D’Afonseca 19
Preparação do arquivo para o NCBI:
1. Geralmente, o arquivo que é gerado durante o processo de

anotação manual deve passar por revisão detalhada, pois o NCBI é
exigente em diversos aspectos.
2. Sobreposição de ORFs: A primeira modificação é: o
NCBI não aceita nenhuma proteína com sobreposição completa a
outra. Se isso ocorre, a menor CDS deve ser deletada nessa versão do
genoma que será depositada no NCBI.
3. Sobreposição de ORFs na região de rRNA: o NCBI não
aceita CDSs que estejam sobre operons de rRNA. Qualquer CDS nes-
sa região deve ser deletada.
4. Locus_tag das CDSs: deve conter um nome descritivo da
espécie e linhagem seguido de underline. O NCBI não aceita ponto,
nem traço, nem outro caractere, apenas underline após o nome. E-
xemplo: Cp1002_0001.
5. Locus_tag dos rRNAs: os locus_tag dos rRNAs devem ser
exclusivos para eles e da seguinte maneira: ex.: Cp1002_r02. E dentro
de cada feature rRNA deve conter as seguintes informações:
1. /note="23s_rRNA"
19
2. /locus_tag="Cp1002_r02"
6. Locus_tag dos tRNAs: os locus_tag dos rRNAs devem ser
exclusivos para eles e da seguinte maneira: ex.: Cp1002_t01. E dentro
de cada feature tRNA deve conter as seguintes informações:
1. /product="tRNA-Ile"
2. /note="Anticodon..atc"
3. /locus_tag="Cp1002_t01"
7. Prováveis pseudogenes: todas as proteínas que apresenta-
ram problema de mudança de fase de leitura (frameshift) devem ser
classificadas como gene e não como CDS, bem como constar em sua
anotação a tag /pseudo=. É importante ter na frente dessa tag /pseudo
o símbolo '=' . Caso no Artemis o símbolo não seja adicionado, deve-
se editar o arquivo .embl, em todos os prováveis pseudogenes, após a
tag pseudo, e ter o símbolo =. Além disso, devem-se remover no cam-
po da coordenada (location) todas as coordenadas de cada pedaço,
deixando apenas a primeira e a última, como mostrado no exemplo a
seguir:
1. Para pseudogenes da fita direta: como estará - Loca-
tion: join (1..1812, 1832..2347, 2349..2550). Como deve ficar –
Location: 1.2550. Removem-se a palavra join, os parênteses e
todas as coordenadas do meio, deixando apenas a inicial e a fi-
nal.
2. Para pseudogenes da fita reversa: como estará – Lo-
cation: complement(join (1..1812, 1832..2347, 2349..2550)).
Como deve ficar – Location: complement(1..2550). Removem-
se a palavra join, os parênteses de dentro e todas as coordena-
das do meio, deixando apenas a palavra complement, um dos
pares de parênteses, e as coordenadas inicial e final.
3. Os pseudogenes devem entrar na contagem quando fo-
rem criados os locus_tags e protein_ids, porém, após reverter os
pseudogenes de CDS para gene e retirar as quebras, devem-se
remover os protein_id dos pseudogenes. Eles devem ficar da
seguinte maneira:
1. /gene="dnaA"
2. /product="Chromosomal replication initiation pro-
tein"
3. /locus_tag="Cp1002_0001"
4. /pseudo=
8. Nome de genes: deve-se conferir na anotação se todos os

genes contêm nomes únicos; caso haja repetição de nome de genes,
deve-se remover a informação duplicada.
9. CDS normais: para a submissão, deve-se retirar a informa-
ção de similarity, curation e colour. Cade CDS deve conter:
1. /gene="dnaA"
2. /product="Chromosomal replication initiation pro-
tein"
3. /locus_tag="Cp1002_0001"
4. /protein_id="gnl|ufmg|Cp1002_0001"
Criação do arquivo .sqn para submissão no NCBI:

Para a submissão do genoma ao NCBI é necessário gerar, a
partir da anotação, um arquivo .sqn. Esse arquivo é, então, editado em
um programa do NCBI chamado de Sequin, que pode ser obtido a
partir do endereço <http://www.ncbi.nlm.nih.gov/Sequin>. O Sequin
pode ser utilizado no Windows e no Linux, mas a parte gráfica do
Windows ajudou bastante.
Para a geração do arquivo .sqn são necessários três arquivos:
um arquivo fasta contendo a fita de DNA completa do genoma na
extensão .fsa (exemplo: Cp1002.fsa); um arquivo denominado templa-
te.sbt (contendo todas as informações de autores, título do projeto e
endereços para contato); e um arquivo Cp1002.tbl (arquivo tabular
oriundo do .embl revisado, que é gerado no Artemis). Esses três ar-
quivos vão servir de entrada no programa tbl2asn.pl do NCBI para
gerar o arquivo .sqn. O script tbl2ASN pode ser obtido no seguinte
endereço:
ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_progra
m/tbl2asn/
1. Arquivo .fsa: o arquivo .fsa é a fita de DNA completa do

genoma. A seguir, um trecho de como é esse arquivo:
>Cp1002
gtgtcggaggctccatcgacatggaacgagcggtggcaagaagttactaatgagctgctgtc
acagtctcaggacccggaaagtggtatttccattacgcgacagcaaagcgcctacctgcgtct
ggttaaaccagttgcttttgtagagggtattgccgttttaagcgttcctcacgcccgagcgaaaa
aagagattgaaactacgctgggacctgttatcacagaggtattgtctcgtagactaggtcgac
aatacagtcttgcagtgagcgttcatgctccagaggaaaatccagaagtatcctcggccactc
cagatgctgtgtctgattaccaggaacaatctgcagtttctggacaatacggagcaacttcagc
caatgctgacttccagaatcaacaaagcacgatatatcgcaagccacaggagtcgcagtatc
ctgtgacttttggtgcttcttcatacggaaatgagaagtaccaggaaaattcccaagaccaggg
catttctcatcatccttatggttttaatgaggct
2. Arquivo .sbt: este arquivo é gerado no programa Se-

quin. É o primeiro passo da submissão. Nele estão contidas todas
as informações sobre nome de autores, título do trabalho e conta-
to. É obrigatória a geração desse arquivo com nome de templa-
te.sbt. assim que o Sequin é aberto. A seguir, um trecho de como
é esse arquivo:
Submit-block ::= {
contact {
contact {
name
name {
last "Azevedo" ,
first "Vasco" ,
initials "V." } ,
affil
std {
affil "Federal University of Minas Gerais" ,
div "General Biology" ,
city "Belo Horizonte" ,
sub "Minas Gerais" ,
country "Brazil" ,
street "Av Antonio Carlos 6627 Pampulha" ,
email "vasco@icb.ufmg.br" ,
fax "00 55 31 34092610" ,
phone "00 55 31 34092610" ,
postal-code "31270-901" } } } ,
Abra o programa Sequin e escolha a opção Database for sub-

mission: Genbank e Start New Submission.
a) Escolha a opção se o genoma será liberado imediatamente a-

pós a submissão (Immediatelly after processing) ou dê uma da-
ta-limite (Release date). Depois disso, coloque o provável títu-
lo do trabalho.
Na aba contact, coloque o nome do pesquisador res-

ponsável, que será o contato do trabalho.
b) Na aba authors, coloque o nome de todos os envolvidos no

projeto, respeitando a ordem de autoria.
Na aba Affiliation, coloque todas as informações sobre a ins-

tituição responsável.
c) Após preencher todas essas informações, aparecerá a tela a se-

guir. Clique nas opções marcadas, como mostra a janela.
d) Vá em file e salve o arquivo template com o nome

template.sbt.
3. Arquivo .tbl: este arquivo é gerado no Artemis e é um

arquivo tabular contendo cinco colunas, as quais se refe-
rem às características contidas em cada feature do geno-
ma, presentes no arquivo .embl revisado. Para gerá-lo, a-

bra o arquivo .embl no Artemis, vá em File  Save file as
 Sequin table format. O nome do arquivo deve ser idên-
tico ao do arquivo .fsa seguido de .tbl. A seguir, um tre-
cho de como é esse arquivo:
>Feature Cp1002_v13
1 1812 CDS
gene dnaA
product Chromosomal replication initiation
protein
locus_tag Cp1002_0001
protein_id gnl|ufmg|Cp1002_0001
1970 1821 CDS
Gene
product Hypothetical protein
locus_tag Cp1002_0002
protein_id gnl|ufmg|Cp1002_0002
IMPORTANTE: Quando esse arquivo é gerado, em seu ca-

beçalho aparece o nome do arquivo .embl (por exemplo >Fea-
ture Cp1002_v13.embl). Antes de gerar o arquivo .sqn, deve-
se remover do nome a extensão .embl, assim como mostrado
no exemplo anterior, ficando apenas (por exemplo >Feature
Cp1002_v13), se não o arquivo .sqn não será gerado.
Geração do arquivo .sqn

Após a geração dos três arquivos necessários para a submis-
são, é preciso usar o programa Tbl2ASN, que é encontrado no site do
NCBI:
ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2a
sn. Ele pode ser utilizado tanto no Linux quanto no Windows, mas no
Linux é mais fácil e rápido.
A linha de comando utilizada é: linux.tbl2asn –p [caminho do

diretório onde estão o arquivo .fsa e .tbl] –r [caminho do diretório
onde serão gerados os arquivos de saída] –t [template.sbt] –V b – km
 O Parâmetro –V b gera um arquivo de saída .gbk, e o parâmetro –k
m permite que start códons alternativos iniciem uma proteína, caso
necessário.
Feito isso, no diretório de saída que foi especificado na li-
nha de comando será criado o arquivo .sqn. Abra esse arquivo no
Sequin (utilizando o Sequin versão do Windows é melhor).
Validação do arquivo .sqn no Sequin

Ao abrir o arquivo .sqn no Sequin, clique na opção Read Exis-
ting Record e abra seu arquivo .sqn.
1. Tabela do código genético 11: para abrir uma janela, vá

em Annotate  Batch Feature Apply  Add Qualifier e
adicione a todas as CDS o qualifier: /transl_table=11 
Accept  Save. Nesse passo, todas as CDS terão como
código genético a Tabela 11, de bactérias.
2) Detalhando as informações moleculares sobre o DNA:

vá em Annotate  Descriptors  Molecular Description
 Pode-se criar uma nova clicando em Create New, caso
seja a primeira vez  Ou editar uma informação antiga
 Edit old.
Logo após, vai aparecer a janela a seguir, para colocar as in-

formações pertinentes ao DNA. Todas as informações necessárias
estão presentes nessa janela. Clique em Accept.
3. Detalhando as informações sobre o organismo: vá em

Annotate  Descriptors  Biological Source  Pode-
se criar uma nova clicando em Create New; caso seja a
primeira vez  Ou editar uma informação antiga  Edit
old.
a) Coloque o nome do organismo na aba Names.

b) Coloque a localização do organismo na aba Location, uti-

lizando as opções que estão na janela.
c) Escolha o código genético de bactérias na aba Genetic

Code.
d) Detalhe das informações a respeito da linhagem na aba

Lineage.
e) Na aba Modifiers, dê informações a respeito do país onde

o microrganismo foi isolado, de que fonte foi isolado e
de qual hospedeiro, de acordo com a janela a seguir:
f) Dentro da aba Modifiers, na aba Organism, dê informa-

ções a respeito de qual linhagem é o microrganismo, qual
o biovar e hospedeiro de onde foi isolado, assim como a
janela a seguir. Feito isso, clique em Accept  File 
Save.
4. Validando o arquivo .sqn: depois de detalhadas todas as

informações anteriores, vá em Search  validate. Se o arquivo estiver
Ok, ele dará o e-mail para o qual se deve mandar o arquivo .sqn (gb-
sub@ncbi.nlm.nih.gov). Caso o arquivo apresente erros, a seguinte
janela aparecerá:
a) No campo severity, escolha apenas a categoria Error. A op-

ção Info e Warn não é importante. Apenas os erros devem ser
corrigidos. Para corrigi-los, dê um duplo clique acima da des-
crição do erro, conforme mostrado na figura a seguir; aí vai

abrir a janela que lhe permitirá reparar o erro que estiver o-
correndo.
b) O erro mais frequente que encontramos foi a perda da me-

tionina inicial em muitas proteínas (quase 1.000 proteínas).
Isso acontece porque, em algum momento, o programa não u-
tilizou o código genético de bactérias e, sim, o código genéti-

co standard. Para corrigir o erro, dê um duplo clique na des-
crição do erro, como está na janela anterior; vai aparecer a se-
quência da proteína. Vá em genetic code e mude de Standard
para Bacterial and plant plastid. Clique em translate produt e
em accept. A proteína será corrigida.
c) Após corrigir todos os erros, clique na aba revalidate. O

programa vai avisar que os erros foram corrigidos e que o ar-
quivo pode ser enviado para o endereço gb-
sub@ncbi.nlm.nih.gov.
d) Agora é só enviar o arquivo .sqn validado para o endereço

mostrado.
Referências
1- Bacterial Genome Submission Guide:
http://www.ncbi.nlm.nih.gov/genbank/genomesubmit.html
2- Eukaryotic Genome Submission Guide:
http://www.ncbi.nlm.nih.gov/genbank/eukaryotic_genome_submission.html

Manual Prático - Teórico Bioinfo PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Manual Prático - Teórico Bioinfo PDF

Transféré par

Droits d'auteur :

Formats disponibles

Manual Prático – Teórico: Sequenciamento...

Manual Prático – Teórico:

Vasco Ariston de Carvalho Azevedo

Maria Paula Schneider

Artur Luiz da Costa da Silva

Manual Prático – Teórico:

Ficha catalográfica preparada pela Seção de Catalogação e Classificação da

Organizador para Correspondência

ANÁLISES COMPARATIVAS IN SILICO ............................................119

tiplos genomas, análise de expressão gênica, entre outras inúmeras

Estado do Pará (FAPESPA) e a Fundação de Amparo à Pesquisa do

transformação de color-space, em formato double-encoded, para

Construção das Bibliotecas Mate-

Maria Silvanira R. Barbosa 1

O protocolo para construção das bibliotecas genômicas tem

A próxima etapa consiste na circularização do inserto, a qual

Jose Miguel Ortega 2

Alguns conceitos e definições se fazem importantes antes de

Linux: É um sistema operacional que foi desenvolvido pelo

A distribuição CentOS é indicada para servidores.

Como se conectar a partir de Windows

 Conexão direta SSH: Putty [6].

Acessando uma conta em um servidor usando o programa Putty

Figura 1 - Tela inicial do programa Putty.

De agora em diante, com um duplo clique no nome escolhido

Figura 2 - Terminal de linha de comando no Linux.

Nas versões personal computer PC do Linux, todas são

comando e interface gráfica. Mas mesmo com a interface gráfica,

Exemplos de uso dos comandos

Imprime na tela o conteúdo de readme.txt, assim como:

Informações do Sistema (Hardware e Processos)

 free – Este comando exibe a quantidade de memória livre e

”M” - Ordena os processos pelo uso da memória residente.

 ls - Comando utilizado para listar o conteúdo de um diretório.

 clear – Limpa a tela movendo o cursor para a primeira linha.

Ctrl + s = Inibe a exibição de informações na tela de saída.

Outros comandos importantes

Editor de texto (vi)

Comandos básicos de inserção de texto

Comandos para salvar o texto

Veja o conteúdo do arquivo.

Pratique com outras sequências presentes no mais conhecido

Figura 3 - Website do National Center for Biotechnology Information.

Escolha uma sequência proveniente do resultado da busca e,

$ more /home/ nomeDoUsuário/arquivoMultiFasta.fasta (aperte

$ cat /home/ nomeDoUsuário/arquivoMultiFasta.fasta | grep “>” |

$ cat /home/ nomeDoUsuário/arquivoMultiFasta.fasta | grep “>”

Pronto, agora você já sabe contar rapidamente sequências em um ar-

Banco de dados de sequências e busca de similaridade BLAST no

Funcionamento do BLAST e valor de e-value

base os pareamentos PERFEITOS da seed. A seed não pode ser muito

Formatando a Database para uso do BLAST em sua máquina

O significado de alguns parâmetros BLAST

14- STEPHEN, F.; ALTSCHUL, Warren Gish; WEBB, Miller; EUGENE,

Mysql – Banco de Dados para

José Miguel Ortega 5

O volume de dados gerados em projetos de Bioinformática é

possuem linhas e colunas. A sintaxe do MySQL permite escolher

databases formatadas. Para formatar tumor.seq, rode o

Execute megablast sobre o conjunto de d ados

Interprete o resultado com comandos de Shell

sort –n = entende valores como números

Selecione algum hit e procure a identificação no a rquivo