Académique Documents
Professionnel Documents
Culture Documents
\
ndice general
Prlogo V
2. Alineamiento de secuencias 5
2.1. Distancia entre cadenas . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. La distancia de Hamming . . . . . . . . . . . . . . . . . . . . . . . 5
2.3. Distancia de edicin . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4. El algoritmo de Smith-Waterman . . . . . . . . . . . . . . . . . . . 9
2.5. Affine gap penalty . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
III
IV NDICE GENERAL
Prlogo
V
VI PRLOGO
CAPTULO 1
Formatos para datos biolgicos
Existen muchos tipos de archivos para almacenar datos biolgicos. Gran parte
de archivos con los que se trabaja en bioinformtica son archivos de texto.
Por ejemplo, podemos estar interesados en almacenar
estructuras moleculares
etc.
1.1. Secuencias
Una secuencia de nucletidos o la estructura primaria de una protena son
ejemplos de secuencias biolgicas. Si nos olvidamos de la estructura molecular
de dichas entidades, podemos representarlas simplemente como una sucesin de
caracteres o, lo que es lo mismo, cadenas. En esta seccin veremos algunos formatos
frecuentemente empleados para almacenar secuencias biolgicas.
>sequence_1
TGACTGATCGTATCGTATGAGTGTACGTGTGTATAGGAGGCGTAGCGATA
GATCGATCGATCGAGTCTTATACTCGAGTCTATCGTATGCTGACTATCGT
TGATCGATCGATCGTATCTGATGCTAGTGCGATCTGATCTAGCATCACAT
TAGCAGCTA
1
2 CAPTULO 1. FORMATOS PARA DATOS BIOLGICOS
Como en el caso del formato FASTA, un registro del formato FASTQ empieza
con un encabezado contiendo, entre otras cosas, el identificador de la secuencia.
Despus del identificador, puede incluirse informacin adicional, hasta el final de
la lnea.
En la siguiente lnea viene la secuencia en s. Por lo general, la secuencia est
contenida en slo una lnea de texto, aunque la secuencia puede extenderse por
ms de una lnea. Luego de la secuencia, viene el carcter + en una lnea de texto.
Despus de este carcter, y en la misma lnea, opcionalmente se puede encontrar
informacin adicional hasta el final de la lnea.
Luego, la siguiente lnea contiene informacin sobre la calidad de las lecturas
posicin a posicin. Cada carcter de esta lnea se corresponde con una posicin de
la secuencia del registro en cuestin.
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
Q = 10 log10 P
Entonces, podemos expresar la probabilidad de error en Phred como
1
Q = 10 log10 = 40
10000
que a su vez codificamos como carcter sumndole 33 y dando como resultado el
carcter I, que es lo que encontramos en el archivo FASTQ.
En general, mientras ms alta sea la puntuacin Phred, mayor es la calidad de
la lectura. O en otras palabras, menor la probabilidad de error.
Es bastante frecuente, despus de secuenciar DNA y obtener las lecturas del
dispositivo secuenciador, filtrar las lecturas por calidad, descartando aquellas de
muy baja calidad, es decir, una puntuacin Phred baja. Por ejemplo, podemos elegir
descartar todas las lecturas con puntuaciones Phred menores a un umbral de 30.
4 CAPTULO 1. FORMATOS PARA DATOS BIOLGICOS
CAPTULO 2
Alineamiento de secuencias
CTGCATCTA
CTGTATATA
CTGCATCTA
ACTGCATCT
5
6 CAPTULO 2. ALINEAMIENTO DE SECUENCIAS
En este ejemplo, vemos que si bien la distancia de Hamming entre estas cadenas
es 9, es decir, que los caracteres son distintos en cada posicin, es evidente que
ambas cadenas son bastante similares. Si introducimos un espacio al inicio de la
primera cadena, obtenemos lo siguiente:
CTGCATCTA
ACTGCATCT
con lo que queda claro que este no es precisamente el mejor criterio para comparar
cadenas biolgicas.
CTGCATCTA
CTGCATCA
CTGCATCT
CTGCATCA
CTGCATCA
CTGCATCA
CTGCATCTA
ACTGCATCT
Vimos que era evidente que se parecan bastante. De hecho, podemos considerar
la segunda cadena como el resultado de insertar una A al inicio y borrar el ltimo
carcter. En realidad, no importa el orden de las operaciones. Lo que importa es el
nmero mnimo de operaciones.
Ahora, cmo hallamos este nmero mnimo? El caso trivial es comparar una
cadena vaca, que denotamos con , y una cadena no vaca s. En este caso, la
distancia de edicin es la longitud de s, porque para convertir en s, habr que
hacer tantas inserciones en como caracteres tenga s.
2.3. DISTANCIA DE EDICIN 7
C T G C A T C T A
0 1 2 3 4 5 6 7 8 9
A 1
C 2
T 3
G 4
C 5
A 6
T 7
C 8
T 9
Di1,j1 Di1,j
Di,j1 Di,j
C T G C A T C T A
0 1 2 3 4 5 6 7 8 9
A 1 1 2 3 4 4 5 6 7 8
C 2 1 2 3 3 4 5 5 6 7
T 3 2 1 2 3 4 4 5 5 6
G 4 3 2 1 2 3 4 5 6 6
C 5 4 3 2 1 2 3 4 5 6
A 6 5 4 3 2 1 2 3 4 5
T 7 6 5 4 3 2 1 2 3 4
C 8 7 6 5 4 3 2 1 2 3
T 9 8 7 6 5 4 3 2 1 2
De esta tabla, nos interesa la ltima celda. El valor de esta celda es 2, que es la
distancia de edicin entre estas cadenas.
H(i, 0) = 0, 0 i m
H(0, j) = 0, 0 j n
0
H(i 1, j 1) + s(ai , bj ) Sustitucin
H(i, j) = max , 1 i m, 1 j n
maxk1 {H(i k, j) + W } Eliminacin
maxl1 {H(i, j l) + W } Insercin
p = gap_open + l gap_extend
10 CAPTULO 2. ALINEAMIENTO DE SECUENCIAS
H(i, 0) = 0 0im
H(0, j) = 0 0jn
0
H(i 1, j 1) + s(ai , bj )
H(i, j) = max 1 i m, 1 j n
Ei,j
Fi,j
0 j=0
E(i, j) = Hi,j1 Q
max j>0
Ei,j1 R
0 i=0
F (i, j) = Hi1,j Q
max i>0
Ei1,j R
Como de costumbre, H es la tabla de puntuaciones. E y F son las penalidades
acumuladas para los huecos. Q es la penalidad para la apertura del hueco y R es la
penalidad por extenderlo.
De igual forma, se debe buscar la celda con la mayor puntuacin y saltar de
celda en celda hasta encontrar un 0.