Vous êtes sur la page 1sur 53

Banco de Dados Biolgicos

Marclio C. P. de Souto

DIMAp/UFRN
2
Banco de Dados (BD) Biolgicos
Por que?

Disponibilizar dados biolgicos para os cientistas
O mximo possvel de um tipo particular de informao deveria
estar disponvel em um nico lugar
Dados publicados podem ser difceis de encontrar ou acessar
Coleta-los da literatura consume muito tempo

Disponibilizar dados em formato que possa ser lido por um
computador
3
BD de Seqncias
H uma quantidade gigantesca de informao sobre biomolculas em BD pblicos
Mais de 348 BD
BD de seqncias de nucleotdeos
EMBL (http://www.ebi.ac.uk/embl)
GenBank (http://www.ncbi.nlm.nih.gov/GenBank)
DDBJ (http://www.ddbj.nig.ac.jp)
UniGene (http://www.ncbi.nlm.nih.gov/UniGene)
BD de seqncias de protenas
SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)
PIR (http://pir.georgetown.edu)
BD de motivos
Pfam (http://www.sanger.ac.uk/Software/Pfam)
PROSITE (http://www.expansy.ch/prosite)
BD de estruturas macromoleculares 3D
PDB (http://www.rcsb.org/pdb)
4
Usos de BD de Seqncias
O que se pode descobrir sobre um gene por meio de uma busca a um
BD?

Informao evolutiva: genes homlogos, freqncias dos alelos, ...
Informao genmica: localizao no cromossomo, intros, UTRs, regies
reguladoras, ...
Informao estrutural: estruturas da protena correspondente, tipos de
folds, domnios estruturais, ...
Informao de expresso: expresso especfica a um dado tecido,
fentipos, doenas, ...
Informao funcional: funo molecular/enzimtica, papel em diferentes
rotas, papel em doenas, ...
5
Busca de Informao
Busca de informao sobre genes e produtos gnicos

Gene e produtos gnicos so geralmente organizados por
seqncia

Seqncias genmicas codificam todas caractersticas de um
organismo
Produtos gnicos so descritos unicamente por sua seqncia
Seqncias similares entre biomolculas indica tanto uma
funo similar quanto um relacionamento evolutivo

Seqncias de macromolculas proporciona chaves biologicamente
significativas para busca em BD
6
Busca em BD de Seqncias
Comece com uma seqncia, encontre informao sobre ela

Muitos tipos de seqncias de entrada
Pode ser uma seqncia de aminocido ou de nucleotdeo
Genmica, cDNA/mRNA, protena
Completa ou fragmentada

Matches exatos so raros
Em geral, o objetivo recuperar um conjunto de seqncias
similares
7
Busca em BD de Seqncias
O que queremos saber sobre a seqncia?

Ela similar ao algum gene conhecido? Quo prximo o melhor
match? Significncia?

O que sabemos sobre este gene?
Genmica (localizao no cromossomo, regies reguladoras, ...)
Estrutural (estrutura conhecida? ...)
Funcional (molecular, celular e doena)

Informao evolutiva
Este gene encontrado em outros organismos?
Qual sua rvore taxonmica?
8
NCBI e Entrez
A mais usada interface para a recuperao de informao de BD biolgicos o
sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez)
NCBI (National Center for Biotechnology Information)
O sistema Entrez tira vantagem do fato que h relacionamentos lgicos pr-
existentes entre as entradas indviduas encontradas em diversos BD pblicos
Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento de
um gene cuja seqncia aparece no GenBank
A seqncia de nucleotdeos, por sua vez, pode codificar o produto de uma
protena cuja seqncia est armazenada em um BD de protenas
A estrutura 3D desta protena pode ser conhecida - as coordenadas da
estrutura podem aparecer em um BD de estruturas
Finalmente, o gene pode ter sido mapeado para uma regio especfica do
cromossomo - BD de mapeamento
A existncia dessas conexes naturais, levou ao desenvolvimento de um mtodo
por meio do qual toda a informao poderia ser encontrada sem ter que visitar
sequencialmente BD distintos
9
O Sistema Entrez (1/2)
Para ser claro, Entrez no um BD

a interface por meio da qual todos os seus BDs componentes
podem ser acessados

O espao de informao do Entrez inclui
Registros do PubMed
Dados sobre seqncias de nucleotdeos e protenas
Informao sobre estruturas 3D
Informao de mapeamento

A vantagem do Entrez est no fato que toda esta informao pode
ser acessada por meio de apenas uma query (consulta)
10
O Sistema Entrez (2/2)
11
BLAST: Busca com uma Seqncia
O objetivo encontrar outras seqncias que so mais similares a
query (consulta) do que seria esperado por ter acontecido ao acaso

Homologia

Pode comear com seqncias de nucleotdeos ou aminocidos
Pode fazer a busca por nucleotdeos/aminocidos

12
BLAST
13
Mais que NCBI
Links para anotaes funcionais fora do NCBI

Gene Ontology - nomes padres para:
Funes moleculares
Localizao celular
Processos

Links para BD de enzimas
Funes da enzimas

Links para o BD KEGG (vias)
14
KEGG
15
Referncias

A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a
practical guide to the analysis of genes e proteins. John Wiley & Sons.
2001.

The Molecular Biology Database Collection: 2003 update -- Nucleic
Acids Research 31(1):1-12

Busca em Banco de Dados
Marclio C. P. de Souto

DIMAp/UFRN
17
Primeiro Atrs da Tela
Banco de dados so muito usados para buscas
Integridade, segurana, ...

Busca significa receber uma query (consulta) e recuperar algum
entrada do banco de dados que match (case) com ela
Comparao inexata de seqncias (alinhamento)
Programao dinmica e BLAST search

Eficincia fundamental
Queremos encontrar coisas rpidas, independentemente de quo
grande o banco de dados se torne
18
Alinhamento de Seqncias
Possibilitar ao pesquisador determinar se duas seqncias apresentam
suficiente similaridade tal que um inferncia sobre homologia pode ser
justificada
Homologia: significa dizer que duas (ou mais) seqncias tem um
ancestral comum
Histria evolutiva
Similaridade: uma medida da qualidade do alinhamento entre duas
seqncias, baseada em algum critrio
No se refere a nenhum processo histrico
Apenas uma comparao das seqncias com algum mtodo
uma afirmao logicamente mais fraca
Em bioinformtica, esses dois termos so muitas vezes confundidos
A razo provavelmente porque uma similaridade significativa um forte
argumento para homologia e, a partir disso, para a deduo de que as
seqncias codificam um gene com uma funo biolgica similar
19
Bases Evolucionrias
Mutaes
Os eventos mais simples que ocorrem durante o curso da evoluo molecular so
substituies de um nucleotdeo por outro e a deleo ou insero de uma par
de base
Quando uma alinhamento de seqncias refletem genuinamente a histria
evolutiva de dois genes ou protenas
Resduos que foram alinhados mas no so idnticos representaria uma
substituio
Regies onde os resduos de uma seqncia no correspondem a nada na outra
seria interpretado como ou uma insero uma seqncia ou uma deleo na outra





A L I G N M E N T
| | | | | | |
- L I G A M E N T
20
Relao entre Sequncias
21
Similaridade
Similaridade pode ser definida contando posies que so idnticas
entre duas seqncias
Gaps (inseres/delees) podem ser importantes
G A A T T C A G T T A
| | | | | | |
G G A T T C G - A
22
Substituies
Nem todo mismatch (substituies) so iguais

Alguns aminocidos so mais substituvel entre si
Serina e treonina so mais parecidos do que triptofan e alanina
Podemos adicionar um custo diferente para cada tipo de mismatch
(substituio)

Em geral, no usamos custos diferentes para os mismatches no
alinhamento de nucleotdeos
Nenhuma substituio, por si, melhor do que outra
23
Gaps
Sem gaps, h N*M possveis alinhamentos entre seqncias de
comprimentos N e M


Uma vez gaps so permitidos, isto se torna um nmero muito grande
O nmero de possveis alinhamentos torna-se exponencial no tamanho
das seqncias
Logo, no podemos experimentar todos

24
Alinhamento Aleatrios
A introduo de gaps tambm pode levar a alinhamentos sem sentido

S O M E T I M E S Q U I P S E N T I C E
| | | | | | | |
S - - E - - - Q U - - - E N - - C E
necessrio distinguir entre alinhamentos que ocorreram devido
a homologia daqueles que so esperados a acontecer ao acaso
Defina um esquema (funo) de score (pontuao) que leve em
considerao ambos mismatches e penalidades para gaps
25
Match Scores
Match scores so em geral calculados
com base na freqncia de mutaes
particulares em seqncias muito similares
26
Alinhamento Global e Local (1/2)
Global
Seqncias so comparadas como um todo
til quando temos seqncias que diferem pouco entre si
Inclui gaps

Local
O alinhamento localiza fragmentos de seqncias que so mais similares
Algumas vezes no inclui gaps
Muitas protenas no apresentam um padro global de similaridade
Mosaico de domnios modulares
Alinhamento de seqncias de nucleotdeos de um mRNA processado
(spliced) com sua seqencia genmica (Exon/Intron)
27
Alinhamento Global e Local (2/2)
28
Score do Alinhamento
Um score (pontuao) do alinhamento a soma de todos
os match scores, com a penalidade subtrada para cada
gap
A B C D E F G
| | | |
A C C - F G match gap score
score
8 2 8 8 8 => 34 - (10+2) = 22
29
Mtodos de Alinhamento de Seqncias
Dado um par de seqncias e funo de score (pontuao), identifique
o alinhamento que obteve o melhor score

Alinhamento timo
Lembre, h um nmero exponencial de alinhamentos possveis
A maioria deles com scores muito ruins

Alinhamento de pares de seqncias

Matriz de pontos (dot matrix)
Programao dinmica
Dicionrio de palavras ou k-tuplas (BLAST)
30
Matriz de Pontos
Permite a inspeo visual de um possvel alinhamento entre duas
seqncias

Permite que repeats e inverses sejam detectadas

Permite a identificao de regies auto-complementares (e.g., RNA
com estrutura secundria)

O alinhamento no produzido

31
Exemplo
Seqncias:
a) ATGCGTCGTT
b) ATCCGCGAT
A T G C G T C G T T
A
T
C
C
G
C
G
A
T
Passos
1. Organize as seqncias em uma
matriz
2. Coloque um ponto em cada lugar
que houver um match entre duas
bases
3. Trechos diagonais (indicados por
linhas) so reas de alinhamento
4. Mais de um alinhamento pode
surgir
32
Programao Dinmica (PD)
Mtodo computacional que calcula o melhor alinhamento possvel entre
sequncias

Abordagem indutiva, em que so definidos os scores para as seqncias
menores, e a partir dessas, novos scores so computados os scores de
cadeias maiores

Sejam s e t duas seqncias, com |s|=m e |t|=n, construir uma
matriz (m+1) x (n+1), em que M(i, j) contm a similaridade entre
s[1..i] e t[1..j]

Algoritmo de Needleman-Wunch

33
Exemplo (1/12)
Sequence 1: GAATTCAGTTA (m = 11)
Sequence 2: GGATCGA (n = 7)

Esquema de Pontuao (scoring):

S(a
i
b
j
) = +2 if a
i
= b
j
(match score)
S(a
i
b
j
) = -1 if a
i
b
j
(mismatch score)
w = -2 (gap penalty)

Pontuao Mxima na posio i,j da matriz:

M
i,j
= MAX[
M
i-1, j-1
+ s(a
i,
b
j
) (match/mismatch),
M
i,j-1
+ w (gap na seqncia #1),
M
i-1,j
+ w (gap na seqncia #2)]
34
Exemplo (2/12)
Inicializao
Crie uma matriz com m+1 colunas e n+1 linhas, em que m e n
correspondem ao tamanho das seqncias a serem alinhadas
A primeira linha e a primeira coluna podem ser inicialmente preenchidas
com 0
35
Exemplo (3/12)
Preenchimento da Matriz
M
1,1
= MAX[M
0,0
+ 2, M
1,0
- 2, M
0,1
- 2] = MAX[2, -2, -2]

36
Exemplo (4/12)
Preenchimento da Matriz
M
1,2
= MAX[M
0,1
+ 2, M
1,1
- 2, M
0,2
- 2] = MAX[0+2, 2-2, 0-2] =
MAX[2, 0, -2]


37
Exemplo (5/12)
Preenchimento da Matriz
M
1,3
= MAX[M
0,2
- 1, M
1,2
- 2, M
0,3
- 2] = MAX[0-1, 2-2, 0-2] =
MAX[-1, 0, -2]



38
Exemplo (6/12)
Preenchimento da Matriz
M
32
= MAX[M
21
- 1, M
31
- 2, M
22
- 2] = MAX[0-1, -1 - 2, 1-2] =
MAX[-1, -3, -1]


39
Exemplo (7/12)
Preenchimento da Matriz
Dois caminhos diferentes para se obter o score mximo para clula M
32



40
Exemplo (8/12)
Preenchimento da Matriz
Matriz Final

41
Exemplo (9/12)
Traceback


A
|
A
42
Exemplo (10/12)
Traceback


T C A G T T A
| | | |
T C G - A
43
Exemplo (11/12)
Traceback


G A A T T C A G T T A
| | | | | |
G G A T C G - A
44
Exemplo (12/12)
Traceback


G A A T T C A G T T A
| | | | | |
G G A T - C G - A
45
Score do Alinhamento
G A A T T C A G T T A
| | | | | |
G G A T C G - A

+ - + - + + - + - - +
2 1 2 2 2 2 2 2 2 2 2

2 1 + 2 2 + 2 + 2 2 + 2 2 2 + 2 = 3
46
Significncia de um Alinhamento
Teste de significncia um ramo da estatstica que se preocupa com a
avaliao da probabilidade que um resultado particular poderia ter
acontecido ao acaso

Como podemos calcular a probabilidade de que um alinhamento
aconteceu por acaso?

Com um modelo de evoluo
Empiricamente, por meio do embaralhamento de nossas
seqncias e o clculo dos scores nessas seqncias aleatrias
47
Busca em BD por Similaridade (1/2)
At agora o foco era sobre o alinhamento de pares especficos de seqncias
Porm, para uma seqncia nova determinada, geralmente no como saber
qual seqncia (ou seqncias) apropriada para a comparao
Busca em BD por similaridade nos permite determinar quais das vrias
seqncias so potencialmente relacionadas a uma seqncia particular de
interesse
Este processo pode levar a descobertas inesperadas
Um dos primeiros resultados com esse processo venho com a descoberta
de que o oncogene viral v-sis uma forma modificada de um gene celular
normal
Naquela poca, as bases de dados de seqncias eram pequenos o
suficiente tal que esse achado pode ser considerado um fato
surpreendente
Hoje, porm, seria mais surpreendente fazer uma busca em um BD e no
encontrar nenhum hit
48
Busca em BD por Similaridade (2/2)
A operao bsica sequencialmente alinhar uma seqncia query
com cada seqncia subject no BD
Os resultados so apresentados como uma lista de ranks seguida por
uma srie de alinhamento individuais de seqncias, mais vrios
scores e estatsticas


ADICIONAR FIGURA
49
Mtodos Heursticos
Solues de programao dinmica para problemas de alinhamento so relativamente
lentas
No levam a buscas eficientes nos imensos BD de seqncias
Necessidade de uma tcnica para fazer busca em grandes BD para encontrar seqncias
que tenha um match inexato com a seqncia query
Solues competidoras: FASTA & BLAST
Mtodos heursticos (aproximao) de programao dinmica
Baseado na estratgia de quebrar uma seqncia em cadeias pequenas de
letras consecutivas, chamadas de palavras
Idia: alinhamento representando um relacionamento verdadeiro entre as
seqncias conter pelo menos uma palavra que comum a ambas seqncias
Estas palavras hits podem ser identificadas rapidamente pre-indexando todas
as palavras da query e ento consultando o ndece na medida que o BD
pecorrido
Programao dinmica encontra relacionamentos em seqncias distantemente
relacionada que aproximaes no conseguem
50
BLAST
O BLAST uma heurstica para comparao local mais utilizada
Basic Local Aligment Search Tool (Altschull et al., 1990)
H vrias variantes do BLAST, dependendo do tipo da seqncia query
(DNA ou protenas) e do BD sendo consultado
PROGRAMA QUERY DB
BLASTP Protena Protena
BLASTN Nucleotdeo Nucleotdeo
BLASTX Nucleotdeo
(Traduzido)
Protena
TBLASTN Proteina Nucleotdeo (Traduzido)
TBLASTX Nucleotdeo
(Traduzido)
Nucleotdeo (Traduzido)
51
Referncias
A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a
practical guide to the analysis of genes e proteins. John Wiley & Sons.
2001.
M. S. Waterman. Introduction to Computational Biology: maps,
sequences and genomes. Chapman & Hall. 2000.
http://www.sbc.su.se/~per/molbioinfo2001/seqali-dyn.html (timo
tutorial sobre programao dinmica)

52
Anlise de Genomas
Ento, o que fazer com um genoma completo? Afinal, um genoma
sequenciado consiste apenas de um infinidade de bases em uma ordem
definida
Anlise obviamente necessria a fim de se obter informaes biologicamente
interessantes. A anlise de um genoma cobre muitos aspectos diferentes
Definio da localizao dos genes (regies codificadoras, regies reguladoras):
identificao de gene
Predio de genes ab initio usando software baseado em regras e padres.
Identificao de genes por meio de alinhamento com protenas conhecidas
e seqncias EST
Predio de genes por meio de similaridade com protenas e seqncias
ESTem outros organismos
Predio de genes por meio de comparao com outros genomas
Regies conservadas so provavelmente regies codificadoras ou
reguladoras
53
Anlise de Genomas
Anotao de genes: comparar com genes/protenas com funes conhecidas em
outros organismos. Essencialmente o mesmo que rotular um gene.
Classificao funcional. Grupos amplos de caracterizao funcional, tais como
protenas ribossomais, ....
Vias metablica
H

Vous aimerez peut-être aussi