Académique Documents
Professionnel Documents
Culture Documents
Anderson Miyoshi
Professor do curso de Pós-Graduação em Genética da Universidade Federal de Minas Gerais
Aluízio Borém
Professor de Pós-Graduação em Genética e Melhoramento da Universidade Federal de Viçosa
Organizadores
Belo Horizonte, MG
Manual Prático – Teórico: Sequenciamento... 3
2011
2011 by Vasco Ariston de Carvalho Azevedo e outros
Todos os direitos reservados. Nenhuma parte desta publicação pode ser re-
produzida sem a autorização escrita e prévia dos detentores do copyright.
Impresso no Brasil
Revisão linguística
Edir Barbosa – Editora UFV
Diagramação
José Roberto da Silva Lana
E-mail: vascoariston@gmail.com
Autores Contribuintes
Adriana Ribeiro Carneiro: Biomédica, M.Sc. e doutoranda na Universidade
Federal do Pará. E-mail: carneiroar@gmail.com
Anderson Rodrigues dos Santos: Cientista da Computação, M.Sc. e doutoran-
do na Universidade Federal de Minas Gerais. E-mail: ander-
son2010@gmail.com
Ariel Amadio: M.Sc., Ph.D. e professor do Institute of Microbiology and
Agricultural Zoology, Argentina. E-mail: aamadio@rafaela.inta.gov.ar
Henrique Velloso Ferreira Melo: Doutorando na Universidade Federal de
Minas Gerais. E-mail: hvmelo@gmail.com
José Miguel Ortega: Professor Associado da Universidade Federal de Minas
Gerais. E-mail: miguel@icb.ufmg.br
Louise Teixeira Cerdeira: Cientista da Computação, M.Sc. e doutoranda na
Universidade Federal do Pará. E-mail: lcerdeira@gmail.com
Maria Silvanira Ribeiro Barbosa: Bióloga e Técnica do Laboratório de Poli-
morfismo de DNA da Universidade Federal do Pará. E-mail: nirabarbo-
sa@gmail.com
Rafael Lucas Muniz Guedes: Doutorando na Universidade Federal de Minas
Gerais. E-mail: rafaelmguedes@yahoo.com.br
Rodrigo Santos de Oliveira: Biólogo. E-mail: rodrigodeolivei-
ra01@gmail.com
Rommel Thiago Jucá Ramos: Analista de Sistemas, M.Sc. e doutorando na
Universidade Federal do Pará. E-mail: rommelthiago@gmail.com
Sintia Silva de Almeida: Bióloga, M.Sc. e doutoranda na Universidade Fede-
ral de Minas Gerais. E-mail: sintiaalmeida@gmail.com
Vinícius A. C. Abreu: Cientista da Computação e doutorando na Universida-
de Federal de Minas Gerais. E-mail: vini.abreu@gmail.com
Vivian D’Afonseca: Bióloga, M.Sc. e doutoranda na Universidade Federal de
Minas Gerais. E-mail: vivian.dsf@gmail.com
Manual Prático – Teórico: Sequenciamento... 5
6 Vasco Azevedo et al.
Sumário
APRESENTAÇÃO.........................................................................................9
CONSTRUÇÃO DAS BIBLIOTECAS MATE-PAIRED PARA
SEQUENCIAMENTO SOLID....................................................................13
INTRODUÇÃO AO LINUX .......................................................................17
DISTRIBUIÇÕES DO LINUX ...............................................................................18
COMO SE CONECTAR A PARTIR DO WINDOWS .................................................18
COMANDOS LINUX ..........................................................................................20
CONSULTANDO O NCBI ..................................................................................33
MYSQL – BANCO DE DADOS PARA ORGANIZAR E
INTERPRETAR SEUS DADOS .................................................................39
MONTAGEM, GERAÇÃO DE SCAFFOLDS E FINALIZAÇÃO DE
GENOMAS PROCARIOTOS IN SILICO ................................................ 59
ANALISANDO A QUALIDADE DO SEQÜENCIAMENTO .................................61
MONTAGEM DE GENOMAS PROCARIOTOS ........................................................62
GERAÇÃO DE SCAFFOLD .................................................................................66
UTILIZAÇÃO DE LEITURAS CURTAS PARA ELIMINAÇÃO DE GAPS ......................67
SOLID RUN ANALYSIS ...........................................................................75
PREDIÇÃO GÊNICA ................................................................................83
FGENESB – SUÍTE DE PROGRAMAS PARA PREDIÇÃO GÊNICA E BUSCA DE
OPERON BACTERIANO .....................................................................................83
PREDIÇÃO DE DNA REPETITIVO .......................................................................87
PREDIÇÃO DE RRNA .......................................................................................87
PREDIÇÃO DE TRNA .......................................................................................88
ANOTAÇÃO FUNCIONAL DE GENOMAS REALIZADA
COMPUTACIONALMENTE ....................................................................91
ANOTAÇÃO GENÔMICA – CURADORIA MANUAL .......................111
ARTEMIS: DNA SEQUENCE VIEW AND ANNOTATION TOOL ....................111
Manual Prático – Teórico: Sequenciamento... 7
Apresentação
A palavra GENOMA foi inventada em 1920 pelo Dr. H.
Winkler, que fundiu a palavra “GENes e cromossOMAs”. O termo
GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi
proposta a criação de uma nova disciplina e de uma nova revista
científica. Muitas definições foram propostas para a Genômica, como:
Coleção de genes de um organismo; Casamento entre a biologia
celular e molecular com a genética clássica e a adoção da ciência da
computação; Biologia molecular em grande escala; Rol de tecnologias
capazes de decodificar a sequência de DNA de qualquer organismo;
uma nova ciência que estuda todo o genoma, integrando disciplinas
tradicionais como citologia, genética mendeliana, quantitativa, de
populações e molecular com novas tecnologias derivadas da
informática e de sistemas robóticos automatizados.
As técnicas de sequenciamento de DNA, que surgiram no fi-
nal da década de 1970, foram também um marco importante da Ge-
nômica. O desenvolvimento dessas técnicas está em constante evolu-
ção. Hoje, elas são mais acuradas e menos dispendiosas para atender à
demanda de projetos no campo da genômica. Durante essas três déca-
das, houve espantoso crescimento na capacidade, velocidade da gera-
ção e depósito de dados genômicos. As técnicas evoluíram significati-
vamente desde a resolução de pequeno genoma de um vírus, bacterió-
fago (5.386 pb) até o sequenciamento do genoma humano completo
com aproximadamente 3 bilhões de pares de base. Além disso, rapi-
dez, custo, acurácia e aumento na quantidade de dados gerados foram
atributos que obtiveram melhorias nas plataformas de sequenciamen-
to. Como armazenar e tratar os dados gerados tornou-se questão cru-
cial imposta pela Genômica para a comunidade científica? Dessa for-
ma, a busca de soluções para o armazenamento e tratamento de dados
levou à necessidade de desenvolver softwares para identificação de
genes, predição de estruturas de proteínas, identificação de inibidores
de enzimas, construção de árvores filogenéticas, comparação de múl-
Manual Prático – Teórico: Sequenciamento... 9
Os organizadores.
12 Vasco Azevedo et al.
1
Bióloga, técnica do Laboratório de Polimorfismo de DNA da Universidade Federal
do Pará. E-mail: nirabarbosa@gmail.com.
Manual Prático – Teórico: Sequenciamento... 13
Referências
1- SOLiD System Mate-Paired Libraries Detect and Define Large Genetic
Rearrangements. Disponível em:
<http://www3.appliedbiosystems.com/cms/groups/mcb_marketing/docume
nts/generaldocuments/cms_057555.pdf>.
2- Mate pair sequencing assay. Disponível em:
<http://www.illumina.com/technology/mate_pair_sequencing_assay.ilmn
3- Preparing 2–5kb Samples for Mate Pair Library Sequencing>.
http://grcf.jhmi.edu/hts/protocols/MatePair_2-
5kbSamplePrep_1005363_RevB.pdf
4- Mate pair
http://chip.dfci.harvard.edu/index2.php?option=com_content&do_pdf=1&
id=72
SOLiD System Barcoding
http://www3.appliedbiosystems.com/cms/groups/mcb_marketing/documen
ts/generaldocuments/cms_057554.pdf
5- SOLiD™ System Sequencing and 2 Base Encoding
http://www3.appliedbiosystems.com/cms/groups/mcb_marketing/documen
ts/generaldocuments/cms_057810.pdf
6- Mate pair
http://chip.dfci.harvard.edu/index.php?option=com_content&task=view&i
d=72&Itemid=114
Manual Prático – Teórico: Sequenciamento... 15
16 Vasco Azevedo et al.
Introdução ao Linux
2
Professor Associado da Universidade Federal de Minas Gerais. E-mail:
miguel@icb.ufmg.br.
3
Doutorando na Universidade Federal de Minas Gerais. E-mail: rafaelmgue-
des@yahoo.com.br.
4
Cientista da Computação e doutorando na Universidade Federal de Minas Gerais.
E-mail: vini.abreu@gmail.com.
Manual Prático – Teórico: Sequenciamento... 17
Distribuições do Linux
Em Bioinformática é comum o uso de computadores que uti-
lizam sistemas operacionais baseados em Linux [1]. Os sistemas ope-
racionais relacionados a seguir são todos baseados nessa plataforma e
possuem acesso gratuito:
CentOS (distribuição gratuita do RedHat Enterprise) [2]
Fedora [3]
Ubuntu [4]
Comandos Linux
Para trabalhar com Linux, alguns comandos de uso rotineiro
precisam ser aprendidos. Comandos são ordens passadas ao sistema
operacional para executar determinada tarefa. O sistema operacional
Linux permite, através de uma linha de comando Shell (CLI), a reali-
zação de inúmeras tarefas, seja de manipulação de arquivos, gerenci-
amento de usuários ou simplesmente a chamada de algum outro apli-
cativo. É importante frisar que sempre é usado um espaço depois do
comando para separá-lo de uma opção ou parâmetro que será passado
para o processamento.
Para exibir uma descrição de cada comando, abra um console
(Figura 2) ou xterm e digite o comando man ou --help.
Documentação
man - Formata e exibe uma página man (man page). O
comando man é usado para mostrar o manual de outros
comandos. Tente "man man" para ver a página do manual do
próprio man. Veja a seção "Man & Getting Help" para mais
informações.
Help - Exibe informações sobre os comandos internos do
Bash. Ex.: ”help logout”.
info - Exibe documentação no formato Info, sendo a
navegação pelo documento feito por meio de comandos
internos do Info. Ex.: ”info emacs”.
Data e Hora
date - Exibe e edita a data e a hora atuais do sistema.
cal - Exibe um simples calendário.
hwclock - Consulta ou define o relógio do hardware
(Hardware Clock).
Arquivos e Diretórios
pwd - O comando pwd permite sabermos em qual diretório
estamos no momento, em que pwd significa "print working
directory".
cd - Este comando nos permite deslocar na árvore de
diretórios do sistema. Quando abrimos um terminal ou seção
shell, entramos direto nosso diretório pessoal. Para movermos
pelo sistema de arquivos, devemos usar o cd.
o cd. - Muda-se do diretório corrente para um diretório
acima.
cp – Copia arquivos e diretórios.
mv - Este comando move arquivos e diretórios, sendo muito
usado também para renomear arquivo.
24 Vasco Azevedo et al.
Sistema de Arquivos
mount – Monta um sistema de arquivos, tornando-o disponível
para as operações de E/S (Entrada/Saída) em arquivos, ou exibe
uma lista dos sistemas de arquivos atualmente montados.
umount – Desmonta um sistema de arquivos previamente
montado que não esteja em uso.
fdisk – Gerencia, por meio de uma simples interface de texto
orientada por menus, as partições de um disco.
badblocks – Procura por blocos ruins em um dispositivo,
geralmente uma partição de disco.
Usuários e Grupos
useradd – Cria um novo usuário ou atualiza as informações-
padrão de um usuário no sistema Linux. O comando useradd
cria uma entrada para o usuário no arquivo “/etc/passwd” com
informações do seu login, o user identification (UID), group
identification (GID), shell e diretório pessoal; a senha
criptografada desse usuário é armazenada no arquivo
“/etc/shadow”.
userdel – Usado para remover uma conta de usuário do
sistema, deletando todas as entradas deste usuário nos
arquivos /etc/passwd, /etc/shadow e /etc/group.
usermod – Altera as informações de um usuário, editando
diretamente as informações dos arquivos /etc/passwd,
/etc/shadow e /etc/group.
passwd – Altera a senha de um usuário exibindo um prompt
para que a nova senha seja fornecida e logo depois repetida
para confirmação. O usuário logado pode alterar a própria
senha digitando apenas ”passwd”.
groupadd – Cria um novo grupo no sistema. Devem-se
remover os usuários do grupo, antes de apagar o grupo, pois o
Linux não faz nenhum tipo de verificação nesse sentido.
groupdel – Exclui um grupo no sistema.
groupmod – Altera as informações de um grupo do sistema.
26 Vasco Azevedo et al.
Utilitários de Texto
cat – Utilizado para concatenar arquivos exibindo o resultado
na tela, sendo também usado para exibir o conteúdo de
arquivos.
less – Faz a paginação de saídas muito extensas exibindo uma
tela por vez.
more – Semelhante ao comando less, também faz a paginação
de uma saída muito grande na tela, inclusive as teclas de
navegação e o redirecionamento com uso do “|” (pipe).
more readme.txt - O Linux imprime na tela o conteúdo do
arquivo; nesse caso, readme.txt.
head readme.txt - Imprime as primeiras linhas do arquivo.
grep – Usado para procurar por linhas em um arquivo que
contenha expressões que satisfaçam determinado padrão de
busca.
tail – Exibe as últimas linhas da saída de um arquivo. Por
padrão, se nenhum parâmetro diferente for passado ao
comando, serão exibidas as últimas 10 linhas do arquivo.
tail readme.txt - Imprime as primeiras linhas do arquivo.
Monitoramento de Acesso
w – Mostra quem está logado no sistema e o que está fazendo.
Usuário do comando – Serão exibidas informações de todos
os usuários logados.
who – Semelhante ao comando w, mostra quais usuários estão
logados no sistema.
last – Mostra todas as informações referentes às entradas
(login) e saídas (logout) de usuários do sistema.
lastlog – Exibe informações referentes ao último login de
cada usuário cadastrado no sistema.
Manual Prático – Teórico: Sequenciamento... 27
Rede
ifconfig – Permite configurar as interfaces de rede, sendo o
comando utilizado na inicialização do sistema para
configuração dessas interfaces. Caso nenhum argumento seja
passado junto com o comando, ele apenas irá exibir o estado
das interfaces atualmente definidas.
ping – Envia requisições ICMP para determinado host. É
ferramenta largamente utilizada para testar a conectividade
entre uma máquina/rede local e máquinas/redes remotas.
route – Permite exibir a tabela de roteamento (configuração
das rotas) IP do kernel, e o uso das opções add e del permite
também modificar essa tabela, inserindo ou deletando
registros.
login - Permite ao usuário efetuar o logon (estabelecer uma
conexão) no sistema, bem como ser utilizado para efetuar o
logon com um usuário diferente do atual.
logout – Finaliza um login shell no console ou terminal. No
modo gráfico, este comando encerra a sessão do usuário,
podendo fechar a janela do terminal, e em modo texto encerra
a sessão do usuário, levando-o de volta ao prompt de login do
sistema ”logout”. O mesmo resultado pode ser alcançado
executando o comando ”exit”.
su – Permite alternar entre os usuários cadastrados do sistema,
alterando o ID de usuário e grupo do atual usuário para outro
usuário especificado.
sudo – Permite ao usuário autorizado, conforme configurado
no arquivo “/etc/sudoers”, executar comandos como se fosse
o superusuário (root) ou outro usuário qualquer.
uname – Exibe várias informações sobre o sistema.
which – Exibe o caminho completo na hierarquia de diretórios
para os comandos do sistema.
”which firefox” – Exibe o diretório onde se encontra o
programa “firefox”.
28 Vasco Azevedo et al.
Opções
O comportamento-padrão para um comando pode ser
modificado por adicionar uma opção para o comando. O comando ls,
por exemplo, tem a opção -s , de forma que "ls -s" incluirá o tamanho
dos arquivos na listagem realizada. Há também uma opção -h para que
esses dados estejam em um formato "legível para humanos". As
opções podem ser agrupadas, sendo possível, por exemplo, usar "ls -
sh", que funcionará exatamente da mesma forma que "ls -s -h". Muitas
opções têm versão longa, prefixadas por dois traços em vez de um;
assim, "ls --size --human-readable" é o mesmo comando dado
anteriormente.
Dicas e Truques
Teclas de controle e atalhos:
Ctrl + f = Move o cursor uma palavra para frente.
Ctrl + b = Move o cursor uma palavra para trás.
Ctrl + a + = Para ir ao início da linha de comando.
Ctrl + e = Para ir ao final da linha de comando.
Ctrl + t = Inverte o caractere sob o cursor com o anterior.
Ctrl + u - Limpa a linha de comando corrente.
Ctrl + y = Reinsere o último trecho de comando apagado.
Ctrl + r = Faz uma busca incremental no histórico de comandos
utilizados.
Ctrl + c = Termina a execução do comando corrente.
Ctrl + d = Encerra a entrada de dados pelo teclado, fazendo logout.
Ctrl + m = Equivalente à tecla Enter.
Ctrl + l = Limpa a tela, equivalente ao comando clear.
Manual Prático – Teórico: Sequenciamento... 29
Exemplo
Acesse o conteúdo disponível em:
<http://biodados.icb.ufmg.br/tutorial2011/Linux>, ou utilize arquivos
próprios para executar os comandos a seguir em um terminal Linux.
mkdir treinamento.
cd treinamento [copie todo o conteúdo do link acima para esta
pasta].
Ls.
Consultando o NCBI
Uma consulta simples como a exemplificada na Figura 3 ge-
ralmente retorna quantidade numerosa de dados, o que pode ser um
complicador para obtenção dos dados desejados.
Para filtrar uma consulta, existem diferentes recursos que po-
dem ser adicionados que ajudam a limitar e direcionar o resultado.
Por exemplo, as consultas a seguir combinam palavras-chave contidas
entre colchetes e operadores lógicos (AND, OR e NOT) para direcio-
nar a busca.
Einstein[Author] AND relativity theory[Title].
PGM1[Gene Name] AND Homo sapiens[Organism] OR Mus
musculus NOT fragment.
GREP
Em termos simples, o global regular expression print (GREP)
é uma pequena família de comandos que pesquisa arquivos de entrada
para uma sequência de pesquisa e imprime as linhas que combinem
com ele. Embora isso possa não parecer um comando muito útil no
início, grep é considerado um dos comandos mais úteis em qualquer
sistema Unix.
No dia a dia da bioinformática, sempre nos deparamos com
arquivos enormes, como multifasta, resultados de microarray, entre
outros tipos de arquivos. O grep é um comando que, concatenado com
outros, pode auxiliar quanto a esse tipo de situação.
Exemplo 1
$ ls /home/nomeDoUsuário/arquivoMultiFasta.fasta
Como já sabemos, esse comando vai listar o arquivo caso ele
exista.
Manual Prático – Teórico: Sequenciamento... 33
Exemplo 2
Observe o arquivo db.fasta:
more db.fasta (aperte “q” para sair)
Para descobrir quantas sequências proteicas existem nesse ar-
quivo, poderíamos simplesmente contar, o que seria uma tarefa fácil
em arquivo pequeno como esse. Após a contagem, descobrimos que
existem 16 sequências. Mas se pensarmos em arquivo contendo todas
as proteínas humanas, essa tarefa já seria inviável. Para simplificar,
podemos utilizar o comando grep, que identifica rapidamente linhas
que possuem os caracteres especificados dentro de um arquivo. Como
cada sequência proteica apresentada em formato FASTA é precedida
do sinal de “maior que” (>), podemos simplesmente contar quantos
desses sinais existem.
grep “>” db.fasta –c
A opção –c é utilizada para especificar que desejamos apenas a
contagem final. Caso essa opção fosse retirada, o usuário observaria
uma listagem das linhas que contêm o conteúdo especificado dentro
das aspas. Teste sem o –c.
34 Vasco Azevedo et al.
>seunome
acgatcgatcgatcgatcgatcgtagctacgtacg...
Logo após, clique em Run BLAST. Vamos ver qual valor de
E-value você consegue obter? O que isso significa?
Referências
1- Linux: http://br-linux.org/
2- CentOS: http://www.centos.org/
3- Fedora: http://fedoraproject.org/pt/
4- Ubuntu: http://www.ubuntu-br.org/
5- SSH Secure Shell: http://cromatina.icb.ufmg.br/ssh/
6- Putty: http://www.putty.org/
7- NCBI: http://www.ncbi.nlm.nih.gov/
8- Tutorial em inglês para uso da ferramenta BLAST:
http://www.ncbi.nlm.nih.gov/books/NBK21097/
9- Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers and
David J. Lipmanl: Basic Local Alignment Search Tool. J. Mol. Bio
(1990) 215, 403-410.
10- SSH Secure Shell: http://cromatina.icb.ufmg.br/ssh/
11- Putty: http://www.putty.org/
12- NCBI: http://www.ncbi.nlm.nih.gov/
13- Tutorial em inglês para uso da ferramenta BLAST:
http://www.ncbi.nlm.nih.gov/books/NBK21097/
Manual Prático – Teórico: Sequenciamento... 37
Preparação
Crie uma pasta local denominada 'mysql_aula'. Os arquivos deste
tutorial serão copiados para essa pasta, e a partir dela os
comandos serão executados.
Faça o download dos dois arquivos abaixo e copie-os para a pasta
mysql_aula, criada anteriormente:
http://biodados.icb.ufmg.br/tutorial2011/MySQL/tumor.zi
p
http://biodados.icb.ufmg.br/tutorial2011/MySQL/cds.zip
Descompacte os arquivos baixados utilizando o programa unzip:
unzip tumor.zip
unzip cds.zip
Agora você também terá no seu diretório os arquivos tumor.seq e
h.sapiens.nuc, que correspondem aos FASTAs de tumor de
mama e CDS humanos, respectivamente. Se desejar, você
pode apagar os arquivos .zip nesse ponto, no intuito de
economizar espaço em disco.
rm *.zip
O arquivo tumor.seq precisa, agora, ser formatado utilizando a
ferramenta do toolkit BLAST denominada formatdb [4]. Esse
passo é necessário, pois os programas BLAST só aceitam
40 Vasco Azevedo et al.
-D 3 = saída tabulada
-F F = filtro de baixa complexidade desligado (F =
False)
-a 4 = use 4 processadores
-p 96 = mínima identidade 96%
(sequenciamento pode ter até 4% de erro)
-s 100 = mínimo escore 100
-o = nome do arquivo de saída
O comando gera o arquivo 'megakegg' como saída. Esse ar-
quivo está em formato tabulado, e suas linhas contêm os CDS, que
tiveram bom alinhamento com sequências da base de tumor de mama.
+------------+----------------------+----------+--------+-------+
| cds | subject | identity | evalue | score |
+------------+----------------------+----------+--------+-------+
| hsa:5701 | lcl|000079_1820_0215 | 100.00 | 7e-68 | 260 |
| hsa:55255 | lcl|000457_0385_0605 | 97.90 | 1e-118 | 428 |
| hsa:23412 | lcl|000520_0240_2623 | 98.54 | 5e-67 | 256 |
| hsa:55744 | lcl|000560_1868_2572 | 98.56 | 4e-107 | 389 |
| hsa:79020 | lcl|000907_0864_1433 | 100.00 | 4e-125 | 450 |
| hsa:6122 | lcl|001079_0272_2374 | 99.51 | 1e-109 | 398 |
| hsa:10200 | lcl|001332_0216_1609 | 98.81 | 2e-133 | 476 |
| hsa:10200 | lcl|001412_1052_3310 | 100.00 | 6e-60 | 232 |
| hsa:157313 | lcl|001527_1414_2084 | 100.00 | 2e-70 | 270 |
| hsa:90799 | lcl|001654_1300_0808 | 100.00 | 2e-131 | 472 |
+------------+----------------------+----------+--------+-------+
Com esse resultado, verificamos que o conteúdo do arquivo
megakegg_tab agora está em colunas na tabela result_blast.
- É possível verificar o total de registros na tabela utilizando a
cláusula count(*) logo após o comando select. Execute o
seguinte comando:
mysql> select count(*) from result_blast;
O resultado será:
+----------+
| count(*) |
+----------+
| 254999 |
+----------+
Manual Prático – Teórico: Sequenciamento... 49
grupo. Nesse caso, a soma total é obtida da coluna hits. Dessa forma,
obtemos o número total de hits de cada KO. Na tabela resultante, essa
coluna é nomeada total_hits.
- Usando select e order by, verifique os 10 KOs que possuem o
maior número de hits.
mysql> select * from ko_hits order by total_hits desc limit 10;
O resultado será:
+--------+-----------+------------+
| ko | total_cds | total_hits |
+--------+-----------+------------+
| K00799 | 13 | 1758 |
| K03105 | 1| 1386 |
| K02951 | 1| 1314 |
| K12586 | 1| 1278 |
| K06635 | 2| 1190 |
| K02871 | 1| 1164 |
| K02137 | 1| 1124 |
| K02984 | 1| 1046 |
| K03767 | 1| 921 |
| K05687 | 1| 908 |
+--------+-----------+------------+
Referências
1- MySQL: http://www.mysql.com
2- BLAST: http://www.ncbi.nlm.nih.gov/BLAST
3- Cygwin: http://www.cygwin.com
4- Formatdb:
http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/formatdb_fastacmd.html
5- OPPEL, A.; SHELDON, R. SQL: um guia para iniciantes. 3. ed. Ciência
Moderna.
6- MySQL http://php.net/manual/en/book.mysql.php
Manual Prático – Teórico: Sequenciamento... 57
58 Vasco Azevedo et al.
8
Biomédica, M.S. e doutoranda na Universidade Federal do Pará. E-mail:
carneiroar@gmail.com
9
Cientista da Computação e mestranda na Universidade Federal do Pará. E-mail:
lcerdeira@gmail.com
10
Biólogo. E-mail: rodrigodeoliveira01@gmail.com
11
Analista de Sistemas e mestrando na Universidade Federal do Pará. E-mail:
rommelthiago@gmail.com
Manual Prático – Teórico: Sequenciamento... 59
Analisando a qualidade do
sequenciamento
Avaliar a qualidade das sequências obtidas a partir de um se-
quenciamento aumenta a acurácia dos alinhamentos (SMITH et al.,
2008), o que favorece a confiabilidade das montagens de genomas,
tanto para a abordagem ab initio quanto para reference assembly.
Li et al. (2010) observaram redução de 50% dos erros de ali-
nhamento quando há bases com qualidade, o que torna essa prepara-
ção importante para a obtenção de resultados mais eficientes. Assim, é
preciso analisar e avaliar os dados de um sequenciamento antes de
iniciar o processo de montagem.
Para leituras de sequenciadores NGS, quando estes possuem o
tamanho fixo (SOLid e Illumina) pode-se utilizar o software Quality
Assessment (Figura 1), disponível em
http://qualevaluato.sourceforge.net, onde o usuário pode analisar a
qualidade das leituras e gerar gráficos de distribuição (Figura 2), além
de simular filtros baseados no valor PHRED de qualidade (EWING et
al., 1998), possibilitando, assim, economia de tempo e seleção de
parâmetros mais precisos.
Manual Prático – Teórico: Sequenciamento... 61
Montagem ab initio
A estratégia ab initio tem como objetivo a montagem de ge-
nomas sem a utilização de qualquer outra informação, além das leitu-
ras geradas pelo processo de sequenciamento genômico. As limita-
ções das abordagens de montagem ab initio se associam diretamente
às limitações tecnológicas relacionadas às características dos dados
gerados pelos sequenciadores de nova geração, como o tamanho das
leituras e o volume de dados gerados, o que aumenta exponencialmen-
te o tempo de processamento e, às vezes, inviabiliza a montagem.
Neste Manual, descrevemos uma estratégia de montagem ab
initio de um genoma sequenciado na plataforma SOLiD versão 2,
utilizando uma combinação de contigs resultante das melhores mon-
tagens dos programas Velvet e Edena.
Geração de scaffold
A geração do scaffold consiste na ordenação e orientação dos
contigs obtidos no processo de montagem de genomas, sendo esse o
primeiro passo do processo de finalização da montagem, conhecido
por finishing (POP et al., 2002).
Referências
1- ALTSCHUL, S.F.; GISH, W.; MILLER, W.; MYERS, E.W.; LIPMAN,
D.J. 1990. Basic local alignment search tool. J. Mol. Biol., 215:403-410.
2- APPLIED BIOSYSTEMS INCORPORATED. A THEORETICAL
UNDERSTANDING OF 2 BASE COLOR CODES AND ITS
APPLICATION TO ANNOTATION, ERROR DETECTION, AND
ERROR CORRECTION. 2009. Disponível em:
[http://www3.appliedbiosystems.com/ cms/ groups/ mcb_marketing/ doc-
uments/ generaldocuments/ cms_058265.pdf]. Acesso em: dez. 2009.
3- APPLIED BIOSYSTEMS INCORPORATED. SOLiD TM accuracy
enhancement tool. Disponível em:
[http://solidsoftwaretools.com/gf/download/ docmanfilever-
sion/225/899/SAET_Tool_Documentation.pdf]. Acesso em: fev. 2010.
4- CHAISSON, M.J.; BRINZA, D.; PEVZNER, P.A. 2009. De novo frag-
ment assembly with short mate-paired reads: does the read length matter?
Genome Research, 19:336-46.
5- DOHM, J.C.; LOTTAZ, C.; BORODINA, T. et al. 2007. SHARCGS, a
fast and highly accurate short-read assembly algorithm for de novo genom-
ic sequencing. Genome Research, 17:1697-706.
6- EWING, B.; GREEN, P. 1998. Base-calling of automated sequencer traces
using phred. II. Error probabilities. BMC Bioinformatics, 8:186-194.
7- HERNANDEZ, D.; FRANÇOIS, P.; FARINELLI, L. et al. 2008. De novo
bacterial genome sequencing: millions of very short reads assembled on a
desktop computer. Genome Research, 18:802-9.
8- JECK, W.R.; REINHARDT, J.A.; BALTRUS, D.A. et al. 2007. Extending
assembly of short DNA sequences to handle error. Bioinformatics,
23:2942-4.
9- KRUMSIEK, J.; ARNOLD, R.; RATTEI, T. 2007. Gepard: a rapid and
sensitive tool for creating dotplots on genome scale. Bioinformatics,
23:1026-1028.
10- LEMOS, M.; BASÍLIO, A.; CASANOVA, A. 2003. Um estudo dos
algoritmos de montagem de fragmentos de DNA. Rio de Janeiro: PUC.
11- LI, H.; HOMER, N. 2010. A survey of sequence alignment algorithms for
next-generation sequencing. Briefings in bioinformatics, 11:473-483.
12- MAcCALLUM, I.; PRZYBYLSKI, D.; GNERRE, S. et al. 2009.
ALLPATHS 2: small genomes assembled accurately and with high conti-
72 Vasco Azevedo et al.
25- SMITH, A. D.; XUAN, Z.; ZHANG, M.Q. 2008. Using quality
scores and longer reads improves accuracy of Solexa read map-
ping. BMC bioinformatics, 9:128.
26- TSAI, I.J.; OTTO, D.T.; BERRIMAN, M. 2010. Improving draft
assemblies by iterative mapping and assembly of short reads to
eliminate gaps. Genome Biology, 11:R41.
27- WARREN, R.L.; SUTTON, G.G.; JONES, S.J.; HOLT, R.A.
2007. Assembling millions of short DNA sequences using
SSAKE. Bioinformatics, 23:500-1.
28- ZERBINO, D.R.; BIRNEY, E. 2008. Velvet: algorithms for de
novo short read assembly using de Bruijn graphs. Genome Re-
search, 18:821-9.
29- ZERBINO, D.R.; MCEWEN, G.K.; MARGULIES, E.H.;
BIRNEY, E. 2009. Pebble and rock band: heuristic resolution of
repeats and scaffolding in the velvet short-read de novo assembler.
PLoS One, 4:e8407.
74 Vasco Azevedo et al.
Ariel Amadio 12
12
Biólogo, M.S., Ph.D. e professor do Institute of Microbiology and Agricultural
Zoology – Argentina. E-mail: aamadio@rafaela.inta.gov.ar
Manual Prático – Teórico: Sequenciamento... 75
Run velvet
Velvet é um programa que realiza montagem de leituras cur-
tas (ZERBINO; BIRNEY, 2008). Ele usa o gráfico de Bruijn para
montagem das leituras. Velvet é um pacote open source e pode ser
obtido em: http://www.ebi.ac.uk/~zerbino/velvet.
O Velvet é composto de dois programas: velveth e velvetg.
Quando usando leituras color-spaced, o Velvet precisa ser compilado
Manual Prático – Teórico: Sequenciamento... 77
# velvetg_de folder_output
Parâmetros
O parâmetro mais importante para otimizar o comprimento do
hash, ou k-mer, corresponde ao tamanho da palavra (Word), que é
comparada e armazenada no gráfico de de Bruijn. Ela deve ser sempre
ímpar e menor que o comprimento da maior parte das sequências
obtidas. Encontrar o valor ideal é alcançar um equilíbrio entre
sensibilidade e especificidade. Quanto maior, mais simples será o
gráfico de de Bruijn. Entretanto, quanto menor, maior é a
sensibilidade para fechar os gaps. Outro parâmetro crítico é chamado
de expected coverage. O mesmo refere-se à cobertura de cada um dos
contigs, permitindo ao Velvet diferenciar quais sequências são únicas
e quais são repetitivas. Existe um script para que o Velvet
automaticamente determine os parâmetros ideais de corridas. Para
corrê-lo, execute:
Run denovopostprocessor
Este script analisa as informações das leituras oriundas do
Velvet e combina com as sequências colorspace individuais para criar
um arquivo de entrada para o programa de novo adaptor. Ele ajuda a
melhorar scaffolds. Para executar:
Manual Prático – Teórico: Sequenciamento... 79
Run denovoadp
Agora é a hora de converter arquivos double encoded para
nucleotídeos. Para executar:
# denovoadp folder_output/read_tracking_file 3600000 >
contigs.fasta
Então, o arquivo contigs.fasta contém os contigs finais na
montagem, como nucleotídeo.
Visualização da montagem
Existem vários visualizadores de montagem para next-gen,
incluindo HawkEye (SCHATZ et al., 2007), Tablet (MILNE et al.,
2010), Eagleview (HUANG; MARTH, 2008), Gap5 (BONFIELD;
WHITWHAM, 2010), entre outros.
Referências
1- ZERBINO, D.R.; BIRNEY, E. 2008. Velvet: algorithms for de novo short
read assembly using de Bruijn graphs. Genome Res., 18(5):821-9, may.
2- ZERBINO, D.R. 2010. Using the Velvet de novo assembler for short-read
sequencing technologies. Curr. Protoc. Bioinformatics, Sep., Chapter
11: Unit 11.5.
3- PEVZNER, P.A.; TANG, H.; WATERMAN, M. S. 2001. An eulerian path
approach to DNA fragment assembly. Proc. Natl. Acad. Sci., USA,
14;98(17):9748-53, aug.
4- MacCALLUM, I.; PRZYBYLSKI, D.; GNERRE, S.; BURTON, J.;
SHLYAKHTER, I.; GNIRKE, A.; MALEK, J.; MCKERNAN, K.;
RANADE, S.; SHEA, T.P.; WILLIAMS, L.; YOUNG, S.; NUSBAUM,
C.; JAFFE, D.B. 2009. ALLPATHS 2: small genomes assembled accu-
rately and with high continuity from short paired reads. Genome Biol.,
10(10):R103.
80 Vasco Azevedo et al.
Predição Gênica
13
Bióloga, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
sintiaalmeida@gmail.com
Manual Prático – Teórico: Sequenciamento... 83
/gene="Ala TGC"
tRNA 11077..11152
/gene="Ala TGC"
/product="tRNA-Val"
/note="Ala TGC 0 0"
gene 11233..14154
/gene="AF267882 [D:1..2922]"
rRNA 11233..14154
/gene="AF267882 [D:1..2922]"
/product="23S ribossomal RNA"
Predição de rRNA
RNAmmer
Recente estudo comparando diferentes métodos de predição
de RNA não codificantes, incluindo RNA ribossomal (rRNA), conclu-
iu que a maioria desses métodos gera resultados com pouca acurácia
Manual Prático – Teórico: Sequenciamento... 87
Predição de tRNA
tRNAscan-SE
Este programa foi criado para predição de RNAs transporta-
dores (tRNAs) com grande sensibilidade, identificando 99 a 100% de
tRNAs com menos de um falso-positivo a cada 15 gigabases. O tR-
NAscan-SE proporciona um fluxo de informação obtido via três pro-
gramas (três passos) de predição de tRNA independentes. Os três
programas juntos apresentam características não disponíveis quando
separados (LOWE; EDDY, 1997).
O tRNAscan-SE combina a especificidade do modelo de co-
variância pelo programa covels (EDDY; DURBIN, 1994) com a velo-
cidade e sensibilidade do tRNAscan 1.3 (FICHANT; BURKS, 1991)
junto com a implementação do algoritmo descrito por Pavesi et al.
(1994). No primeiro passo, executam-se o tRNAscan 1.3 e o algorit-
mo Pavesi na sequência de entrada, unindo os possíveis candidatos à
tRNA em uma lista. A pesquisa é feita na sequência linear, e a infor-
mação de íntrons, em caso de eucariotos, é descartada. O segundo
passo extrai os subsequentes candidatos à tRNA mais 14 sequências
flanqueadoras utilizando o modelo de covariância, análogo ao Hidden
88 Vasco Azevedo et al.
Interproscan
Para obter informações detalhadas sobre funções específicas
de proteínas, é necessário realizar análises de similaridade em bancos
de dados biológicos secundários (também conhecidos como bancos de
dados de padrões ou de assinaturas). Os resultados dessas análises
corroboram a identificação de proteínas não redundantes, como tam-
bém direcionam na inferência de função de proteínas espécie-
específica.
Tais análises de domínios proteicos serão realizadas no banco
de dados Interpro através da ferramenta Interproscan
(http://www.ebi.ac.uk/Tools/InterProscan). O Interpro alberga vários
bancos de dados de domínios, motivos e famílias proteicas, como
ProDom, SMART, TIGRFAMS, Pfam, SUPERFAMILY, PANTHER
e SignalPHMM, diminuindo, assim, a redundância de dados e aumen-
tando a acurácia da predição. O Interproscan pode ser configurado
tanto para organismos procariotos quanto eucariotos (QUEVILLON
et al., 2005; HUNTER et al., 2009).
Referências
1- EDDY, S.R.; DURBIN, R. 1994. RNA sequence analysis using covariance
models. Nucleic Acids Research, 22:2079-2088.
2- FICHANT, G.A.; BURKS, C. 1991. Identifying potential tRNA genes in
genomic DNA sequences. Journal of Molecular Biology, 220:659-671.
Manual Prático – Teórico: Sequenciamento... 89
Anderson Santos 14
14
Cientista da Computação, M.S. e doutorando na Universidade Federal de Minas
Gerais. E-mail: anderson2010@gmail.com
Manual Prático – Teórico: Sequenciamento... 91
Ferramentas
A seguir apresentamos algumas ferramentas de anotação au-
tomática de genomas completos com uma breve descrição de suas
principais funcionalidades e instruções de como utilizá-las.
1. GenDB
Uma das características do GenDB que o fazem figurar num
conjunto seleto de ferramentas de anotação automática de genomas é
o fato de ele ser desenvolvido para a plataforma web (MEYER et al.,
2003). Um grupo de pesquisas geograficamente disperso pode-se be-
neficiar de interfaces web utilizando ferramentas padronizadas e uma
base de dados centralizada. A versão 2.4 do GenDB possui três módu-
los: core, web e gui. O módulo core possui programas escritos em
linguagem perl que permitem a criação de um projeto de anotação,
94 Vasco Azevedo et al.
2. BLAST2GO (B2G)
Essa ferramenta foi concebida como interface para o Gene
Ontology (GO), mas funcionalidades adicionais a transformaram em
uma plataforma de anotação mais abrangente
(APARÍCIO et al., 2006). Os menus do programa permitem executar
diversas etapas de uma anotação automática, a começar pelo primeiro
alinhamento de sequências de um genoma contra a base de proteínas
não redundantes (NR) do NCBI, passando pela predição de domínios
conservados (InterPRO-scan), classificações do GO até a anotação do
Manual Prático – Teórico: Sequenciamento... 95
8. ls /home/cbab/CpDBcourse/blastp/* >
/home/cbab/CpDBcourse/files.list
9. cd /home/cbab/CpDBcourse
10. ./parseblastpfiles files.list
11. Um arquivo 'similarto.tab' é criado na pasta
/home/cbab/CpDBcourse/
Referências
1- ALTSCHUL, S.F.; MADDEN, T.L.; SCHÄFFER, A.A.; ZHANG, J.;
ZHANG, Z. et al. 1997. Gapped BLAST and PSI-BLAST: a new genera-
tion of protein database search programs. Nucleic Acids Res, 25:3389-
3402.
2- APARICIO, G.; GÖTZ, S.; CONESA, A.; SEGRELLES, D.; BLANQUER, I.
et al. 2006. Blast2GO goes grid: developing a grid-enabled prototype for func-
tional genomics analysis. Stud Health Technol Inform, 120:194-204.
3- BENDTSEN, J.D.; NIELSEN, H.; VON HEIJNE, G.; BRUNAK, S. 2004.
Improved prediction of signal peptides: SignalP 3.0. J. Mol. Biol.,
340:783-795.
4- BENSON, D.A.; KARSCH-MIZRACHI, I.; LIPMAN, D.J.; OSTELL, J.;
WHEELER, D.L. 2008. GenBank. Nucleic Acids Res., 36:D25-30.
5- DATTA, S.; DATTA, S.; KIM, S.; CHAKRABORTY, S.; GILL, R.S.
2010. Statistical analyses of next generation sequence data: a partial over-
view. J. Proteomics Bioinform, 3:183-190.
6- DAVIDSEN, T.; BECK, E.; GANAPATHY, A.; MONTGOMERY, R.;
ZAFAR, N. et al. 2010. The comprehensive microbial resource. Nucleic
Acids Res., 38:D340-5.
7- ENGELHARDT, B.E.; JORDAN, M.I.; REPO, S.T.; BRENNER, S.E.
2009. Phylogenetic molecular function annotation. J. Phys., 180:12024.
Manual Prático – Teórico: Sequenciamento... 107
20- ZHAO, J.; GRANT, S.F. 2011. Advances in whole genome sequencing
technology. Curr Pharm Biotechnol. 12(2):293-305.
21- ZHOU, K.; PANISKO, E.A.; MAGNUSON, J.K.; BAKER, S.E.;
GRIGORIEV, I.V. 2009. Proteomics for validation of automated gene
model predictions. Methods Mol. Biol., 492: 447-452.
Manual Prático – Teórico: Sequenciamento... 109
110 Vasco Azevedo et al.
Vivian D’Afonseca 15
15
Bióloga, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
vivian.dsf@gmail.com
Manual Prático – Teórico: Sequenciamento... 111
Referências
1- RUTHERFORD, K.; PARKHILL, J.; CROOK, J.; HORSNELL, T.; RICE,
P.; RAJANDREAM, M.A.; BARRELL, B. 2000. Artemis: sequence visua-
lization and annotation. Bioinformatics (Oxford, England), 16:944-945.
2- MADUPU, R.; BRINKAC, L.M.; HARROW, J.; WILMING, L.G.;
BÖHME, U.; LAMESCH, P.; HANNICK, L.I. 2010. Meeting report: a
workshop on best practices in genome annotation. Database (Oxford),
2010. p. baq001.
3- BRENT, M.R. 2005. Genome annotation past, present, and future: how to
define an ORF at each locus. Genome Res., 15(12):1777-86, dec. review.
4- FRASER, A.G.; MARCOTTE, E.M. 2004. A probabilistic view of gene
function. Nat Genet., 36(6):559-64, jun. review.
5- ASHURST, J.L.; COLLINS, J.E. 2003. Gene annotation: prediction and
testing. Annu. Rev. Genomics Hum. Genet., 4:69-88.
6- WINNENBURG, R.; WÄCHTER, T.; PLAKE, C.; DOMS, A.;
SCHROEDER, M. 2008. Facts from text: can text mining help to scale-up
high-quality manual curation of gene products with ontologies? Brief Bio-
inform, 9(6):466-78, nov./dec. 6. Review.
Manual Prático – Teórico: Sequenciamento... 117
118 Vasco Azevedo et al.
Ariel Amadio 16
Instalação
ACT é instalado junto com o Artemis. Para executar, digitar
em terminal linux: act.
Comparação
O ACT exibe comparações de múltiplas sequências
(CARVER et al., 2005, 2008). A comparação é feita par a par, utili-
zando o programa BLAST, sendo capaz de exibir os dados por estes
gerados. A exibição das comparações é feita com o traçado de trapé-
zios delimitados pelas cadeias, que são semelhantes entre um par de
genomas (Figura 4). A coloração dos trapézios é feita de acordo com
o grau de similaridade das cadeias de nucleotídeos.
Para a comparação pelo BLAST, primeiro devemos criar um
diretório:
# mkdir act
# cd act
Modelo de arquivo
Exemplo1.embl Arquivo completamente anotado em
formato EMBL
120 Vasco Azevedo et al.
Visualização
Referências
1- ABBOTT, J.C.; AANENSEN, D.M.; BENTLEY, S.D. 2007. WebACT: an
online genome comparison suite. Methods Mol. Biol., 395:57-74.
2- ABBOTT, J.C.; AANENSEN, D.M.; RUTHERFORD, K.; BUTCHER, S.;
SPRATT, B.G. 2005. WebACT--an online companion for the Artemis
Comparison Tool. Bioinformatics, 15;21(18):3665-6, sep.
3- BERRIMAN, M.; RUTHERFORD, K. 2003. Viewing and annotating
sequence data with Artemis. Brief Bioinform, jun. 4(2):124-32.
4- CARVER, T.; BERRIMAN, M.; TIVEY, A.; PATEL, C.; BÖHME, U.;
BARRELL, B.G.; PARKHILL, J.; RAJANDREAM, M.A. 2008. Artemis
and ACT: viewing, annotating and comparing sequences stored in a rela-
tional database. Bioinformatics, 1;24(23):2672-6, dec. Epub, oct. 9.
5- CARVER, T.J.; RUTHERFORD, K.M.; BERRIMAN, M.;
RAJANDREAM, M.A.; BARRELL, B.G.; PARKHILL, J. 2005. ACT: the
Artemis Comparison Tool. Bioinformatics, 15;21(16):3422-3, aug.
6- DELCHER, A.L.; PHILLIPPY, A.; CARLTON, J.; SALZBERG, S.L.
2002. Fast algorithms for large-scale genome alignment and comparison.
Nucleic Acids Res., 1;30(11):2478-83, jun.
7- DELCHER, A.L.; SALZBERG, S.L.; PHILLIPPY, A.M. 2003. Using
MUMmer to identify similar regions in large sequence sets. Curr. Protoc.
Bioinformatics, feb.;chapter 10:Unit 10.3.
8- RUTHERFORD, K.; PARKHILL, J.; CROOK, J.; HORSNELL, T.; RICE,
P.; RAJANDREAM, M.A.; BARRELL, B. Artemis: sequence visualiza-
tion and annotation. Bioinformatics, 16 (10):944-5.
Manual Prático – Teórico: Sequenciamento... 123
124 Vasco Azevedo et al.
17
Bióloga, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
sintiaalmeida@gmail.com
Manual Prático – Teórico: Sequenciamento... 125
Aplicações
Os programas atualmente disponíveis para a predição de pro-
teínas transmembranas ou secretadas se baseiam na identificação, com
base na sequência primária das proteínas, de domínio transmembrana,
de peptídeos sinal e de sítios canônicos para atividade de sinal pepti-
dases. Outra metodologia baseia-se na predição de sítios para adição
de lipídeos às proteínas, o que confere a essa lipoproteína a capacida-
de de se ancorar nas membranas. Portanto, como aplicações associa-
das a essas metodologias podem ser citadas a predição de (i) proteínas
secretadas, possíveis fatores de virulência ou antígenos; e (ii) proteí-
nas associadas à membrana ou parede celular, importantes componen-
tes de adesão ou de sinalização celular. Além disso, a predição da
localização de proteínas é um passo inicial na caracterização funcio-
nal da proteína, assim como auxiliar na anotação de genomas.
TMHMM 2.0
Disponível em: <http://www.cbs.dtu.dk/services/TMHMM>.
Permite realizar predições dos domínios intracelulares, extracelu-
lares, assim como o domínio transmembrana (Figura 6) (KROGH et al.,
2001).
TOPCONS
Disponível em: <http://topcons.cbr.su.se>.
Este programa realiza a predição da topologia da proteína (Fi-
gura 7) em relação à membrana, com base em cinco distintos algorit-
mos: SCAMPI (single sequence mode), SCAMPI (multiple sequence
mode), PRODIV-TMHMM, PRO-TMHMM e OCTOPUS. Prediz as
regiões transmembrana, extra e intracelular de uma proteína
(BERNSEL et al., 2009).
TUPS
Disponível em:
<http://sparks.informatics.iupui.edu/Softwares-
Services_files/tups.htm>.
128 Vasco Azevedo et al.
PHOBIUS
Disponível em: <http://phobius.sbc.su.se>.
Este programa permite realizar predições dos domínios intra-
celulares e extracelulares (Figura 8), assim como o domínio trans-
membrana (KALL et al., 2004).
PSORT
Disponível em: <http://psort.hgc.jp>.
É um pacote de programas para a predição da localização de
proteínas em diferentes organismos: WOLF PSORT, para sequências
de fungos, animais e plantas (HORTON et al., 2007); PSORT II, para
sequências de leveduras e animais (NAKAI; HORTON, 1999);
PSORT, para sequências oriundas de bactérias e plantas (NAKAI;
HORTON, 1999); PSORT-B, para sequências oriundas de bactérias
Gram-positivas (GARDY et al., 2005). Os resultados são apresenta-
dos em tabela, com descrição dos possíveis domínios transmembrana,
citoplasmático ou extracelular.
SignalP
O método SignalP está disponível em:
<http://www.cbs.dtu.dk/services/SignalP>.
O SignalP v. 3.1. prediz a presença e localização dos sítios de
clivagem de peptídeo sinal em sequências de aminoácidos de diferen-
tes organismos: procariotos Gram-positivos e Gram-negativos e euca-
riotos. O método inclui uma predição de sítios de clivagem e de um
peptídeo sinal utilizando uma combinação entre redes neurais artifici-
ais e modelos ocultos de Markov.
Em contraste com outros métodos, SignalP também prediz o
sítio real de clivagem e, portanto, o peptídeo que é clivado durante a
translocação na membrana. O SignalP 3.0 é descrito como a melhor
ferramenta independente para a predição do peptídeo sinal, sendo a
pontuação D, relatada pelo método SignalP, a melhor medida para a
diferenciação entre proteínas secretadas e não secretadas (KLEE;
ELLIS, 2005).
EXEMPLO
1. Ir para o terminal no sistema operacional Linux e localizar
o arquivo de proteínas em formato fasta a ser utilizado:
cd /home/user/Desktop/protein_input_file
2. Digitar o comando:
Parâmetros
* 'organismo' - (Obrigatório)
"euk" organismo eucarioto
"gram-" organismo procarioto Gram-negativo
"gram+" organismo procarioto Gram-positivo
* 'method' – método de predição (opcional)
"nn"
"hmm"
"nn+hmm" ambos os metodos (default)
- t →Saída no formato texto.
- gram+ →Algoritmo calibrado para organismos procariotos.
Manual Prático – Teórico: Sequenciamento... 133
5. Verificar a filtragem:
cat saida-signalp
TatP
Disponível em: <http://www.cbs.dtu.dk/services/TatP>.
Predição de proteínas secretadas (Figura 10) pelo sistema
Twin arginine transporter (Tat), o qual é independente do sistema de
translocação Sec. O sistema Tat secreta as proteínas pelo reconheci-
mento de um peptídeo sinal característico, o qual é o alvo da predição
(BENDTSEN et al., 2005).
134 Vasco Azevedo et al.
LipoP
Disponível em: <http://www.cbs.dtu.dk/services/LipoP>.
Predição de lipoproteínas (Figura 11) em procariotos Gram-
negativos. Calcula a probabilidade de secreção e clivagem pelo siste-
ma não convencional de Sinal peptidase II (JUNCKER et al., 2003).
Secretome P
Disponível em:
<http://www.cbs.dtu.dk/services/SecretomeP>.
Predições ab initio de proteínas secretadas por vias não con-
vencionais, como a
mediada por peptídeo sinal e a atividade de sinal peptidase. A predi-
ção é baseada em uma compilação de proteínas de diversos organis-
mos que são secretadas, mas não apresentam
peptídeo sinal na sua sequência (BENDTSEN et al., 2005).
Referências
1- BARINOV, A.; LOUX, V.; HAMMANI, A.; NICOLAS, P.;
LANGELLA, P.; EHRLICH, D.; MAGUIN, E.; van de GUCHTE, M.
2009. Prediction of surface exposed proteins in Streptococcus pyogenes,
with a potential application to other Gram-positive bacteria. Proteomics,
9:61-73.
2- BENDTSEN, J.D.; KIEMER, L.; FAUSBØLL, A.; BRUNAK, S. 2005.
Non-classical protein secretion in bacteria. BMC Microbiology, 5:58.
3- BENDTSEN, J.D.; NIELSEN, H.; von HEIJNE, G.; BRUNAK, S. 2004.
Improved prediction of signal peptides: SignalP 3.0. Journal of Molecu-
lar Biology, 340:783-795.
4- BERNSEL, A.; DALEY, D.O. 2009. Exploring the inner membrane prote-
ome of Escherichia coli: which proteins are eluding detection and why?
Trends in Microbiology, 17:444-449.
5- HORTON, P.; PARK, K.; OBAYASHI, T.; FUJITA, N.; HARADA, H.;
ADAMS-COLLIER, C.J.; NAKAI, K. 2007. WoLF PSORT: protein loca-
lization predictor. Nucleic Acids Research, 35:W585-7.
6- JUNCKER, A.S.; WILLENBROCK, H.; von HEIJNE, G.; BRUNAK, S.;
NIELSEN, H.; KROGH, A. 2003. Prediction of lipoprotein signal peptides
in Gram-negative bacteria. Protein Science: a publication of the protein
Society, 12:1652-1662.
7- KÄLL, L.; KROGH, A.; SONNHAMMER, E.L.L. 2004. A combined
transmembrane topology and signal peptide prediction method. Journal of
Molecular Biology, 338: 1027-1036.
136 Vasco Azevedo et al.
Predição de Epítopos
18
Bióloga, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
sintiaalmeida@gmail.com
Manual Prático – Teórico: Sequenciamento... 139
EXEMPLO
Ir para o terminal no sistema operacional Linux e localizar o
arquivo de proteínas em formato fasta a ser utilizado:
cd /home/user/Desktop/protein_input_file
Digitar o comando:
Parâmetros
# [-a filename] DRB1_0101 Allele name
# [-t float] -99.900002 Threshold for output
# [-s] 0 Sort output on descending affinity
# [-wt float] 500.000000 Threshold for weak binders
# [-st float] 50.000000 Threshold for strong binders
# [-l int] 15 Peptide length
# [-list] 0 List alleles covered by NetMHCII method
BepiPred 1.0
Disponível em: <http://www.cbs.dtu.dk/services/BepiPred>.
BepiPred 1.0 server realiza a predição de localização de epí-
topos lineares de células B.
142 Vasco Azevedo et al.
EXEMPLO
Ir para o terminal no sistema operacional Linux e localizar o
arquivo de proteínas em formato fasta a ser utilizado:
cd /home/user/Desktop/protein_input_file
Digitar o comando:
bepipred -t 0.40 -s teste > aluno_saidabepipred
Parâmetros
-s include the input sequence(s) in the output"
-t # score threshold for positive prediction\n"
Referências
1- NIELSEN, M.; LUNDEGAARD, C.; LUND, O. 2007. Prediction of MHC
class II binding affinity using SMM-align, a novel stabilization matrix
alignment method. BMC Bioinformatics, 8:238.
Manual Prático – Teórico: Sequenciamento... 143
Submissão de um Genoma
Procarioto ao NCBI: National Center
for Biotechnology Information
Vivian D’Afonseca 19
19
Bióloga, M.S. e doutoranda na Universidade Federal de Minas Gerais. E-mail:
vivian.dsf@gmail.com
Manual Prático – Teórico: Sequenciamento... 145
2. /locus_tag="Cp1002_r02"
6. Locus_tag dos tRNAs: os locus_tag dos rRNAs devem ser
exclusivos para eles e da seguinte maneira: ex.: Cp1002_t01. E dentro
de cada feature tRNA deve conter as seguintes informações:
1. /product="tRNA-Ile"
2. /note="Anticodon..atc"
3. /locus_tag="Cp1002_t01"
7. Prováveis pseudogenes: todas as proteínas que apresenta-
ram problema de mudança de fase de leitura (frameshift) devem ser
classificadas como gene e não como CDS, bem como constar em sua
anotação a tag /pseudo=. É importante ter na frente dessa tag /pseudo
o símbolo '=' . Caso no Artemis o símbolo não seja adicionado, deve-
se editar o arquivo .embl, em todos os prováveis pseudogenes, após a
tag pseudo, e ter o símbolo =. Além disso, devem-se remover no cam-
po da coordenada (location) todas as coordenadas de cada pedaço,
deixando apenas a primeira e a última, como mostrado no exemplo a
seguir:
1. Para pseudogenes da fita direta: como estará - Loca-
tion: join (1..1812, 1832..2347, 2349..2550). Como deve ficar –
Location: 1.2550. Removem-se a palavra join, os parênteses e
todas as coordenadas do meio, deixando apenas a inicial e a fi-
nal.
2. Para pseudogenes da fita reversa: como estará – Lo-
cation: complement(join (1..1812, 1832..2347, 2349..2550)).
Como deve ficar – Location: complement(1..2550). Removem-
se a palavra join, os parênteses de dentro e todas as coordena-
das do meio, deixando apenas a palavra complement, um dos
pares de parênteses, e as coordenadas inicial e final.
3. Os pseudogenes devem entrar na contagem quando fo-
rem criados os locus_tags e protein_ids, porém, após reverter os
pseudogenes de CDS para gene e retirar as quebras, devem-se
remover os protein_id dos pseudogenes. Eles devem ficar da
seguinte maneira:
1. /gene="dnaA"
2. /product="Chromosomal replication initiation pro-
tein"
3. /locus_tag="Cp1002_0001"
4. /pseudo=
146 Vasco Azevedo et al.
>Cp1002
gtgtcggaggctccatcgacatggaacgagcggtggcaagaagttactaatgagctgctgtc
acagtctcaggacccggaaagtggtatttccattacgcgacagcaaagcgcctacctgcgtct
ggttaaaccagttgcttttgtagagggtattgccgttttaagcgttcctcacgcccgagcgaaaa
Manual Prático – Teórico: Sequenciamento... 147
aagagattgaaactacgctgggacctgttatcacagaggtattgtctcgtagactaggtcgac
aatacagtcttgcagtgagcgttcatgctccagaggaaaatccagaagtatcctcggccactc
cagatgctgtgtctgattaccaggaacaatctgcagtttctggacaatacggagcaacttcagc
caatgctgacttccagaatcaacaaagcacgatatatcgcaagccacaggagtcgcagtatc
ctgtgacttttggtgcttcttcatacggaaatgagaagtaccaggaaaattcccaagaccaggg
catttctcatcatccttatggttttaatgaggct
Submit-block ::= {
contact {
contact {
name
name {
last "Azevedo" ,
first "Vasco" ,
initials "V." } ,
affil
std {
affil "Federal University of Minas Gerais" ,
div "General Biology" ,
city "Belo Horizonte" ,
sub "Minas Gerais" ,
country "Brazil" ,
street "Av Antonio Carlos 6627 Pampulha" ,
email "vasco@icb.ufmg.br" ,
fax "00 55 31 34092610" ,
phone "00 55 31 34092610" ,
postal-code "31270-901" } } } ,
>Feature Cp1002_v13
1 1812 CDS
gene dnaA
product Chromosomal replication initiation
protein
locus_tag Cp1002_0001
protein_id gnl|ufmg|Cp1002_0001
Gene
product Hypothetical protein
locus_tag Cp1002_0002
protein_id gnl|ufmg|Cp1002_0002
Referências
1- Bacterial Genome Submission Guide:
http://www.ncbi.nlm.nih.gov/genbank/genomesubmit.html
2- Eukaryotic Genome Submission Guide:
http://www.ncbi.nlm.nih.gov/genbank/eukaryotic_genome_submission.html