Vous êtes sur la page 1sur 24

Lope Andrs Flrez Weidinger http://bioinformate.uniandes.edu.co/cap5.

htm

Captulo 5: Introduccin a los alineamientos de secuencias


Vistazo ................................................................................................................................... 2 Introduccin .......................................................................................................................... 2 Conceptos importantes: ....................................................................................................... 3 Alineamientos ...................................................................................................................... 3 Homologa vs. Similitud ....................................................................................................... 4 Identidad.............................................................................................................................. 4 Cuestionario: ......................................................................................................................... 5 Primera pregunta: ................................................................................................................ 5 Segunda pregunta: .............................................................................................................. 5 Tercera pregunta: ................................................................................................................ 5 Practiejemplos: ..................................................................................................................... 6 1. Visualizando similitud entre secuencias........................................................................... 6 Practiejemplo A - El Dotplot ............................................................................................. 6 Practiejemplo B Dotlet: visualizacin que vara sensibilidad y selectividad ................... 7 2. Tipos de alineamientos.................................................................................................. 10 Practiejemplo A Alineamientos globales ..................................................................... 10 Practiejemplo B Alineamientos locales........................................................................ 11 Practiejemplo C Cmo encontrar secuencias en bases de datos mediante alineamientos?............................................................................................................... 13 Practiejemplo D Alineamientos mltiples .................................................................... 15 3. Aplicaciones basadas en alineamientos ........................................................................ 17 Practiejemplo A Encontrar exones e intrones a partir de la protena y su ADN correspondiente ............................................................................................................. 17 Practiejemplo B HomoloGene: una base de datos de genes homlogos .................... 19 Ejercicios ............................................................................................................................. 21 Introduccin ....................................................................................................................... 21 Primer ejercicio.................................................................................................................. 21 Segundo ejercicio .............................................................................................................. 21 Tercer ejercicio .................................................................................................................. 22 Cuarto ejercicio.................................................................................................................. 22 Quinto ejercicio.................................................................................................................. 22 Sexto ejercicio ................................................................................................................... 23 Profundizacin .................................................................................................................... 23 MUMmer............................................................................................................................ 23 NCBI PopSet ..................................................................................................................... 24 Base de datos de COGs.................................................................................................... 24

Vistazo
Los alineamientos de secuencias de nucletidos y protenas sern tratados en este captulo. Para empezar, aprenderemos a encontrar patrones repetidos en una secuencia o entre un par de secuencias mediante una herramienta grfica llamada Dotplot. Posteriormente conoceremos los diferentes tipos de alineamientos que existen (locales y globales) y veremos dos medidas de similitud entre secuencias (el e-value y el Score). Tambin haremos una breve introduccin a las dos herramientas de alineamiento ms usadas en bioinformtica: BLAST y ClustalW. La primera nos permite encontrar secuencias similares a un query en una base de datos y la segunda nos permite realizar alineamientos mltiples y, en algunos casos, hacer inferencias evolutivas. Conoceremos un programa que hace uso de alineamientos para reconocer intrones de un gen partiendo de la secuencia de ADN y la protena que codifica. Finalizaremos aprendiendo a usar una base de datos de secuencias homlogas en el NCBI, llamada HomoloGene.

Introduccin
La mera formulacin de un problema es la mayora de las veces ms importante que su solucin, que puede ser simplemente una cuestin de habilidad matemtica o experimental. Formular nuevas preguntas, nuevas posibilidades, mirar problemas antiguos desde un nuevo ngulo, requiere una imaginacin creativa y marca verdaderos avances en la ciencia. Albert Einstein La ciencia se fundamenta en la experimentacin: si no hay evidencia emprica, no hay verdad. Se pueden formular hiptesis, incluso con un altsimo grado de detalle, pero hasta no ser probados en el mundo real siguen siendo poco ms que artificios de nuestra imaginacin. La forma usual de ejecutar un experimento es cambiar o controlar los parmetros y ver qu ocurre despus de ese control. Aqu la bioinformtica juega un papel importante, proponiendo qu cambios deben hacerse y qu variables controlar. Si bien no ser tratado en este captulo, la bioinformtica est descifrando patrones de expresin relacionados con ciertos tipos de cncer (con la ayuda de una tecnologa conocida con el nombre de microarreglos). De esta forma, permite focalizar las investigaciones en estos tipos especficos de cncer. Sin embargo, este mtodo directo de investigacin no puede usarse en todos los casos. Darwin, autor de los fundamentos de la teora de la evolucin actual, nos sugiere una forma de aproximarse a ciertos problemas, que Douglas Futuyma la resume as: Darwin propuso una hiptesis (p.ej. seleccin natural), dedujo predicciones de qu deberamos ver si fuera verdadera o falsa, y juzg su validez comparando observaciones con las predicciones. Este mtodo hipottico-deductivo ahora es usado ampliamente en ciencia. [1] Es en este mtodo hipottico-deductivo donde el anlisis bioinformtico se vuelve fundamental: El es un lente a travs del cul podemos observar la informacin presente en grandes volmenes de datos. Tomemos un ejemplo frecuente: establecer las relaciones filogenticas (esto es, el parentesco evolutivo) de un conjunto de especies biolgicas. Partimos de la hiptesis (fundamentada por autores anteriores), que si dos especies son cercanas filogenticamente, entonces deben tener una secuencia de ADN similar. A partir de esta hiptesis nos preguntamos: qu deberamos observar si las especies de verdad estn relacionadas? Concluimos que, si seleccionamos segmentos adecuados de ADN

de las dos especies y los secuenciamos (o extraemos esta informacin de bases de datos de secuencias biolgicas como GenBank), debemos observar similitud entre las secuencias. Surge entonces la pregunta: Cmo observamos que dos secuencias son similares? Los alineamientos, que son el tema de este captulo, nos proporcionan una primera respuesta. Un alineamiento es [...] la identificacin de correspondencias residuo-residuo. Cualquier asignacin de correspondencias que preserve el orden de los residuos dentro de las secuencias es un alineamiento. [2] Si los residuos de una secuencia tienen un alto grado de correspondencia con residuos de la otra secuencia, son similares y por tanto su cercana evolutiva es probable. Hacer estas comparaciones a mano es dispendioso y poco prctico. Afortunadamente, el desarrollo de los computadores de manera indirecta ha trado consigo la solucin a este problema: La bsqueda en Internet, por ejemplo usando Google, requiere encontrar cadenas de texto similares al trmino de inters y ya se han desarrollado mtodos de computador que permiten visualizar (grficamente o por medio de la estadstica) la similitud entre dos cadenas de texto. Dado que el ADN se puede escribir como una cadena de texto en un alfabeto de cuatro letras y las protenas se pueden codificar usando un alfabeto de 20 letras, es posible usar las mismas herramientas que han desarrollado los ingenieros de sistemas y los matemticos, para fines biolgicos. Este captulo muestra varios mtodos de alineamiento disponibles en lnea y algunas aplicaciones comunes de stos en la bioinformtica. Saber escoger el mtodo se vuelve de suma importancia, pues cada uno parte de supuestos diferentes. Esto ser descrito con ms detalle en la introduccin del siguiente captulo. Por ahora basta recordar que si nuestros mtodos son errneos, nuestras conclusiones tambin lo son. [1] Futuyma, D., Evolutionary Biology, Tercera edicin, Sinnauer Associates Inc., 1998, pg. 30 [2] Lesk, AM., Bioinformatics, Primera edicin, Oxford University Press, 2002, pg. 161

Conceptos importantes:
Alineamientos
[...] la identificacin de correspondencias residuo-residuo. Cualquier asignacin de correspondencias que preserve el orden de los residuos dentro de las secuencias es un alineamiento. Lesk, AM., Bioinformatics, Primera edicin, Oxford University Press, 2002, pg. 161 En trminos coloquiales, alinear dos secuencias es poner una junto a la otra de forma que se resalten las diferencias y similitudes, pero sin cambiar el orden de los residuos. Hay varias maneras de hacer esto, aunque unas se prestan ms a anlisis que otras. Si queremos saber cul de las dos secuencias es ms larga, podemos simplemente alinear el primer residuo de la primera cadena con el primer residuo de la segunda y as sucesivamente para todos los residuos. El resultado es algo ms o menos as: ESTOESUN ALINEAMIENTO De aqu se concluye rpidamente que la primera secuencia es ms corta que la segunda. Sin embargo, usualmente nos interesa ms saber si dos secuencias tienen subsecuencias iguales en el mismo orden. Por ejemplo, las palabras incrementado y cemento son muy similares en este sentido:

I N C R E M E N T A D O - - C E M E N T - - O De aqu conclumos que ambas comparten la subsecuencia EMENT y que las otras letras de la palabra cemento (especficamente la c y la o) aparecen en el mismo orden en incrementado. Otra forma de alinear estas dos secuencias sera: I N C R E M E N T A D O - C E - - - - M E N T O Sin embargo, este alineamiento no me permitira ver la similitud que tienen las dos secuencias. Por tanto, nuestros anlisis dependern de la calidad del alineamiento.

Homologa vs. Similitud


Similitud es la observacin o medicin de parecido y diferencia, independiente del origen de ese parecido. Homologa significa, especficamente, que las secuencias y los organismos en los que estn presentes, descienden de un ancestro comn [...] Lesk, AM., Bioinformatics, Primera edicin, Oxford University Press, 2002, pg. 27 En sentido estricto, la homologa se refiere nicamente a un origen comn entre dos caracteres. Por tanto, dos secuencias son homlogas o no homlogas y no hay ninguna gradacin intermedia. Una situacin similar del mundo real es el embarazo: una mujer no puede estar 50% embarazada: o est o no est, o no se sabe. Similitud, en cambio, es una medida del parecido entre dos secuencias que puede cuantificarse (por ejemplo, mediante el porcentaje de identidad). Si bien no se ha adoptado consistentemente esta diferencia de trminos en la literatura cientfica (algunos autores siguen usando la palabra homologa cuando se refieren a similitud), es conveniente hacerla. Dos secuencias pueden ser muy similares y sin embargo no ser homlogas (as como las alas de un murcilago y de una mariposa parecen iguales, pero no hay un ancestro comn entre las mariposas y los murcilagos que tenga alas). De la misma manera, dos secuencias homlogas pueden haber divergido mucho en la historia evolutiva, hacindolas poco similares. Debido a que se ha usado la palabra homologa en el contexto de similitud en muchas publicaciones, algunos autores han optado por usar los trminos ortlogas y parlogas al referirse a secuencias con origen evolutivo comn, que son ms especficos. Dos secuencias son ortlogas si fueron adquiridas por descendencia vertical (por ejemplo, de madre a hijo) y son parlogas si estn presentes en ms de una copia en el mismo organismo y tuvieron el mismo origen (por ejemplo los genes y sus respectivos pseudogenes).

Identidad
Identidad: [...] Cualidad de idntico. Diccionario de la Real Academia de la Lengua Espaola Dos secuencias son idnticas si son iguales residuo a residuo. Sin embargo, para secuencias que no son idnticas es til tener una medida de qu tanto se alejan de serlo. Para esto se hace un alineamiento entre las dos secuencias, se cuenta el nmero de residuos que son idnticos y se divide por la longitud del alineamiento. Esto da el porcentaje de identidad.

Por ejemplo, un alineamiento donde dos secuencias tienen la mitad de los residuos idnticos alineados uno con el otro (como el siguiente): HOLA BOTA Tiene un porcentaje de identidad del 50%.

Cuestionario:
Primera pregunta:
Cul de los siguientes necesariamente es un par de caractersticas homlogas? a) Dos secuencias que alineadas tienen una identidad del 100% b) El cromosoma Y de dos hermanos (varones) del mismo padre c) Dos protenas que cumplen exactamente la misma funcin celular en dos organismos diferentes Respuesta: La respuesta correcta es la b), ya que un padre slo tiene una copia de su cromosoma Y en cada clula y hereda este cromosoma a todos sus hijos varones. Los dos cromosomas Y, por tanto tienen un inmediato ancestro comn. El hecho que dos secuencias sean idnticas no las hace automticamente homlogas (aunque lo hace muy probable). Los telmeros son extremos de los cromosomas que se van acortando en cada replicacin celular. Existe una enzima llamada telomerasa que los alarga, con una secuencia especfica. Esta secuencia de ADN es idntica en todos los humanos, sin embargo no es homloga entre dos personas, pues es una repeticin no presente en el ancestro comn entre ellos. De la misma forma se pueden nombrar protenas que cumplen la misma funcin en organismos distintos, y no son homlogas.

Segunda pregunta:
Cul de los siguientes pares de palabras presenta mayor identidad al alinearse? a) b) c) d) CALIBRE COLIBRI MATERIA LIBERIA COLEGIO CARTERA GUANTES DIENTES

Respuesta: La respuesta correcta es la a), pues tienen un porcentaje de identidad del 71% (=5 residuos compartidos dividido por 7 residuos en total).

Tercera pregunta:
Verdadero o Falso: Ordenar alfabticamente los residuos de cada secuencia y juntar los residuos iguales en cada una es un alineamiento?

Ejemplo: ALFABETO y FABRICA A A B - E F - L O T - (ALFABETO) A A B C F I - - - R (FABRICA) Respuesta: Falso. El orden de los residuos en cada secuencia debe preservarse y en este caso, al ordenar alfabticamente, esto no ocurre. La primera B de fbrica, por ejemplo, est antes de la F y despus de la segunda A en el alineamiento, cuando el orden correcto es FaBricA.

Practiejemplos:
1. Visualizando similitud entre secuencias
Practiejemplo A - El Dotplot
El alineamiento de secuencias es la herramienta ms importante de la bioinformtica actualmente. Para empezar a entender porqu conviene realizar alineamientos, empecemos explorando una herramienta para visualizar el parecido entre dos secuencias: el Dotplot. 1. Ingrese a la siguiente pgina Web, que contiene un pequeo tutorial acerca del Dotplot: http://imagebeat.com/dotplot/ Si bien no est pensada para explicar las aplicaciones biolgicas de un Dotplot, sirve para ilustrar el concepto. 2. Haga clic en el vnculo Overview que se encuentra en la parte inferior de la pgina. Esto lo lleva a la descripcin de qu es un Dotplot. 3. Como notar, es una forma de representar la similitud entre dos secuencias de texto mediante tablas. En el ejemplo con el texto to be or not to be la tabla tiene un punto en todas las celdas (esto es, cruces entre fila y columna) en donde la palabra en la fila y la columna es la misma. Naturalmente, todas las celdas en la diagonal principal de la tabla tendrn un punto. Pero lo interesante es ver lo que ocurre por fuera de la diagonal o cuando tenemos una secuencia en orden vertical y otra diferente en orden horizontal. 4. Haga clic en el vnculo interpretation de la parte inferior. Esta pgina resume algunos patrones comunes que se pueden visualizar. 5. Note, por ejemplo, cmo identificar si una sub-secuencia est repetida dentro de la secuencia completa (el ejemplo de abcdefghiabcdefghi). La sub-secuencia que se repite aparece como un par de lneas paralelas a la diagonal principal. 6. Tambin existe la posibilidad de encontrar inserciones en una de las sub-secuencias que se repiten. En lugar de tener una lnea continua (paralela a la diagonal principal), se tiene una lnea fragmentada como si hubieran cortado y movido un pedazo de la lnea original. 7. Estudie tambin la forma de visualizar reordenamientos. Cmo describira este patrn?

8. Otro aspecto a resaltar son los cuadrados. No se necesita tener una secuencia con repeticin consecutiva de una sola letra (por ejemplo aaaaaaaaaa) para obtener un patrn en forma de cuadrado. Mire el dibujo de la izquierda que est junto al ttulo Shuffling. Como notar, los cuadrados permiten reconocer letras que estn sobrerepresentadas en una muestra, sin importar si son consecutivas o no. 9. Ahora vuelva a la pgina principal haciendo clic en dotplot. Desde ah haga clic en el vnculo try a simplified perl version of dotplot. 10. Ingrese la frase LAS CATARATAS DEL NIAGARA en la casilla de texto, y haga clic en el botn build dotplot!. Notar que hay zonas con ms densidad de puntos y zonas con menos densidad. Esto se debe a que en las zonas de ms intensidad est ms representada la letra A que en las otras. Ahora imagine que en lugar del texto LAS CATARATAS DEL NIAGARA tenemos la secuencia corriente arriba de un gen. Si hay una regin en donde las letras A y T estn sobre-representadas, podramos empezar a sospechar de la existencia de cajas TATA: una primera aplicacin biolgica del dotplot. Qu es la secuencia corriente arriba de un gen y la caja TATA? Los genes tienen un inicio de transcripcin que es el lugar en el ADN donde empieza a sintetizarse el primer nucletido del mRNA. Todo el ADN que est antes del inicio de transcripcin se conoce como la regin corriente arriba del gen. En los eucariontes (organismos con sistema de membranas internos, es decir, no bacterias ni arqueobacterias) hay un regin conocida como la caja TATA (llamada as por la sobre-representacin de los nucletidos Adenina y Timina), que facilita la transcripcin del gen. Si en lugar de Timina y Adenina tenemos otros nucletidos en esta parte especial de la secuencia, la cantidad de mRNA que se sintetizar ser menor. Ejercicio: Ingrese la palabra RECONOCER dentro de la casilla de texto y presione build dotplot!. Qu logra reconocer acerca de esta palabra mirando el patrn? Qu relacin guarda con las secuencias de reconocimiento de una enzima de restriccin?

Practiejemplo B Dotlet: visualizacin que vara sensibilidad y selectividad


Uno de los inconvenientes del Dotplot a la hora de analizar dos secuencias de ADN es que ste se compone nicamente de cuatro letras: A, T, G, C. Esto hace que el nmero de coincidencias sea muy alto. Para arreglar este problema se ha creado Dotlet. En esencia es un Dotplot, pero permite graduar la selectividad/sensibilidad de nuestra vista para mostrar u ocultar patrones especficos. En este ejemplo aprenderemos a cargar y visualizar una secuencia en Dotlet. 1. Haga clic en el siguiente vnculo para ir a la pgina de Dotlet. http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html Necesita tener instalada en su computador la mquina virtual de Java para poder usar Dotlet. Si no tiene Java instalado, puede descargarlo aqu: http://www.java.com/es/

2. Vamos a dar los primeros pasos en la visualizacin. Para entenderlos mejor puede visitar la pgina de ayuda (haciendo clic en el vnculo need help?). 3. Todo inicia con la barra de men de Dotlet. Si no ha introducido ninguna secuencia an, el nico botn activo es input. Presione este botn. 4. Aparece una ventana donde debe pegar su secuencia. Haga clic en el siguiente vnculo para abrir la ventana que contiene la secuencia que va a pegar ah: http://bioinformate.uniandes.edu.co/Secuencias/Dotlet01.txt Pngale el nombre Dotlet01. Cuando haya pegado la secuencia e ingresado el nombre haga clic en OK. Esta secuencia corresponde a una protena de Drosophila melanogaster que tiene repeticin de dominios. 5. Note que los mens desplegables ahora estn habilitados. En nuestro caso, los primeros dos no son de mucha utilidad, pues slo hemos ingresado una secuencia. Si requiere alinear dos secuencias diferentes una contra la otra (por ejemplo, un mRNA con su ADN respectivo), debe ingresarlas una tras otra presionando el botn input y luego seleccionar de estos mens las secuencias a comparar. El men desplegable tres presenta diferentes opciones: Identity, Blosum, PAM, Gonnet. Por ahora nos quedaremos con la opcin Identity que, como el nombre lo indica, pone un punto en la tabla slo si los residuos de la fila y la columna son idnticos. Las matrices Blosum y PAM sern estudiadas en el captulo 6 y no entraremos en detalles de ellas aqu. El siguiente men desplegable es el primer nivel de filtrado del que disponemos y se llama tamao de ventana. Qu es el tamao de ventana? La ventana es una de las caractersticas que diferencia al Dotlet del Dotplot, que aumenta la astringencia (selectividad). Recordemos que en el Dotplot se dibuja un punto donde coinciden los residuos de ambas cadenas. Esto genera un patrn muy difcil de leer si las coincidencias son frecuentes. El Dotlet en cambio, no compara residuo a residuo sino en grupos de n residuos contra n residuos, donde n es el tamao de ventana. Si los n residuos son iguales, dibuja un punto negro. Si ningn residuo est compartido, dibuja un punto blanco. Si la cantidad de residuos est entre 0 y n1, dibuja un punto gris, cuya intensidad depende de la cantidad de identidades. Si, por ejemplo, tenemos una ventana de 3 residuos y tenemos como palabras: ABCDEFGH JKCDEFGM Se dibujar un punto negro en el cruce entre las dos D, las dos E y las dos F, ya que sus dos residuos vecinos tambin coinciden. Adems, se dibujarn puntos grises en la interseccin de las letras C y G, pues si bien coinciden, no estn en un grupo de 3 residuos consecutivos. Por el momento dejemos ese parmetro en 15.

El ltimo men desplegable permite graduar el Zoom. Para este ejemplo particular, escojamos un Zoom de 1:5. 6. Al hacer clic en compute se genera nuestra representacin grfica. Es evidente la lnea blanca en la diagonal principal, que es la misma que vimos en todos los Dotplot del ejemplo pasado. Sin embargo, las otras lneas se ven difusas. Para mejorar esto usemos los controles que estn a la derecha del grfico. En ella, se ve un histograma en la parte central, y dos barras de deslizamiento: una arriba y otra abajo. Ajuste la barra de deslizamiento superior movindola totalmente a la izquierda y la barra de desplazamiento inferior completamente a la derecha. Hasta ahora slo cambi el color, de forma que lo que era blanco ahora es negro y viceversa. Luego, mueva poco a poco las barras de desplazamiento hacia el centro, y note que mientras lo hace van desapareciendo las lneas ms claras y resaltndose las ms oscuras. Con algo de prctica, la imagen se parecer a la que se encuentra en la siguiente pgina Web: http://www.isrec.isb-sib.ch/java/dotlet/repeats.html Lea el texto que aparece en esta pgina. Nota como se pueden distinguir dominios repetidos en una protena mediante Dotlet? 7. En la parte inferior de la pgina del Dotlet est el alineamiento entre los residuos. Si hace clic (con suficiente precisin) sobre una de las lneas oscuras, ver en la parte inferior cules residuos son idnticos alrededor de esa fila-columa particular. Pruebe lo siguiente: haga clic cerca de la diagonal principal y presione las flechas en el teclado hasta estar seguro que el cursor se encuentra sobre sta. Ve como todos los residuos se alinean unos con otros, resaltados en azul? Ahora presione alguna de las flechas del teclado, para tener como referencia un alineamiento corrido en un residuo. Nota la diferencia en la cantidad de identidades? En este ejemplo logr identificar dominios repetidos en una protena usando nicamente la secuencia. Note la diferencia que supone esto con analizar la estructura tridimensional de la molcula mediante cristalografa de rayos X, que es un procedimiento largo y complicado. Sin embargo, no sobra recalcar que mediante Dotlet slo podemos plantear la hiptesis de que hay dominios repetidos. Para comprobarlo es necesario un experimento, como determinar la estructura tridimensional. Dos conceptos que vimos en el captulo 1 adquieren aqu especial importancia: selectividad y sensibilidad. Para poder resaltar las caractersticas de la molcula debemos ocultar selectivamente el ruido, pero ser suficientemente sensibles para ver ms que slo la identidad de la diagonal principal. Ejercicio: Repita el ejercicio, esta vez con las secuencias que se encuentran en la pgina: http://www.isrec.isb-sib.ch/java/dotlet/exonintron.html Requiere presionar el botn input dos veces, para poder ingresar las dos secuencias. Debe poder ver la imagen de forma casi idntica a la del ejemplo.

2. Tipos de alineamientos
Practiejemplo A Alineamientos globales
El Dotplot es una herramienta sumamente til para visualizar patrones generales entre dos secuencias o una secuencia consigo misma. Sin embargo, es poco prctico si lo que se quiere es determinar qu aminocidos especficos estn compartidos en las dos secuencias. En este caso, lo ms conveniente es alinear las dos secuencias y comparar los cambios residuo a residuo. En este captulo veremos la primera de estas herramientas: LAlign. Veremos que hay varias formas de poner una secuencia junto a la otra, cada una ms o menos til dependiendo del problema que estudiemos. Vamos a empezar con el siguiente ejemplo: Suponga que se tienen dos secuencias que usted sabe que son homlogas, pero que han cambiado mucho entre s debido a mutaciones. Cmo identifica las mutaciones que ocurrieron? Para simular esto, tenemos la secuencia de la cadena beta de la hemoglobina original y una cadena a la que he aadido algunas mutaciones: http://bioinformate.uniandes.edu.co/Secuencias/LAlign01.txt Vamos a explorar la forma de encontrar las mutaciones. 1. Empiece en la pgina de LAlign haciendo clic en: http://www.ch.embnet.org/software/LALIGN_form.html 2. Desde ah seleccione la opcin global que nos permite alinear la totalidad de las dos secuencias. 3. Por el momento no cambie ms parmetros. Slo ingrese las secuencias en los recuadros correspondientes (ingrselas sin la lnea inicial de descripcin) y pngales nombre, como por ejemplo Silvestre y Mutante. Luego haga clic en Run LAlign para realizar el alineamiento. Resaltando conceptos: Alineamiento El resultado que aparece tras hacer clic en Run LAlign es un alineamiento entre las secuencias. En este caso contamos con el mejor alineamiento que se puede realizar entre las dos secuencias de forma que estn representados todos los residuos de cada una (de ah el trmino global). 4. La pgina que aparece empieza con un resumen del alineamiento, mostrando el nmero de aminocidos de cada secuencia junto con el porcentaje de identidad en el alineamiento. En este caso es del 85%. Debajo aparece el alineamiento. Si dos residuos son idnticos, hay dos puntos que las unen. Adems, si hay un aminocido que no tiene contraparte en la otra cadena (que es el caso cuando hay inserciones o deleciones) aparece un guin llamado gap. Cuantas mutaciones puntuales hay? Cuntas inserciones y deleciones? De qu tamao son estas inserciones?

10

Resaltando conceptos: Identidad Si cuenta los aminocidos que estn alineados idnticamente, notar que son 130. Dividiendo este valor por la longitud del alineamiento, que es 153 (147 aminocidos + 6 gaps) obtiene 0,8497 85%. Es exactamente el valor de identidad que aparece en el resumen. 5. Adems de los aminocidos alineados idnticamente, algunos aminocidos estn conectados con un punto, por ejemplo el aminocido 11 de la cadena silvestre (A Alanina) y el aminocido 10 de la cadena mutante (V Valina). Esto ocurre, porque la Alanina y la Valina tienen propiedades fisicoqumicas similares. Ambos son aminocidos alifticos pequeos. Un cambio de este estilo en una protena probablemente no afectar mucho la funcin, a no ser que ocurra en el sitio activo. En cambio, el aminocido 135 de la cadena silvestre (V - Valina) y el aminocido 134 de la cadena mutante (K Lisina) tienen propiedades muy diferentes. El primero es pequeo y aliftico y el segundo es relativamente grande y cargado positivamente. Debido a esta diferencia no hay ningn smbolo entre estos aminocidos. El punto es mostrar que la representacin grfica del alineamiento (con dos puntos entre identidades y un punto entre aminocidos con propiedades similares) es una fuente de informacin adicional. En este ejercicio se aprendi a hacer alineamientos globales y a conocer los gaps. Los alineamientos globales son especialmente tiles a la hora de comparar dos genes en toda su longitud o al momento de establecer sobrelapamientos (ver el ejercicio para un caso de este estilo). Sin embargo, cuando debemos suponer que slo algunas regiones estn conservadas es mejor usar otro mtodo de alineamiento, que es el tema del siguiente practiejemplo. Ejercicio: En el siguiente vnculo encontrar dos secuencias: Una de un mRNA y la otra de la regin de DNA correspondiente: http://bioinformate.uniandes.edu.co/Secuencias/LAlign02.txt Cuntos intrones (secuencias presentes en el ADN pero no en el mRNA) hay? Cul es la longitud en pares de bases del primer intrn?

Practiejemplo B Alineamientos locales


En el ejemplo se introdujeron mutaciones en la protena de manera indiscriminada. Sin embargo, en la naturaleza esto no suele ser as. Las mutaciones tienden a acumularse ms difcilmente en zonas cercanas al sitio activo de la protena, pues las mutaciones en este sitio suelen afectar su funcin y por tanto a ser excluidas de la poblacin por seleccin natural. Alinear globalmente nos permitira detectar que hay cambios en las dos secuencias, pero no nos permitira resaltar aquellas regiones que tienen alta conservacin, independientemente de la secuencia que las rodea. Es posible que al alinear globalmente nuestras dos secuencias hallemos regiones conservadas, pero al alinear globalmente debemos preservar el orden de nuestras secuencias y esto puede ocultarnos informacin. Alinear localmente en cambio, nos permite encontrar sub-secuencias que tienen alta similitud. Veamos un ejemplo donde es ms conveniente hacer alineamientos locales. 1. Inicie en el formulario principal de LAlign: http://www.ch.embnet.org/software/LALIGN_form.html

11

2. Desde ah, seleccione inicialmente la opcin global e inserte las siguientes secuencias en las casillas de texto respectivas: http://bioinformate.uniandes.edu.co/Secuencias/LAlign03.txt Luego haga clic en Run lalign 3. Notar que las secuencias (alineadas globalmente) son moderadamente similares. Tienen un porcentaje de identidad del 33.3% y son especialmente conservadas en los extremos. Parecera que la regin del medio no contiene identidades interesantes. 4. Ahora vuelva al formulario haciendo clic en el botn atrs de su navegador y seleccione la opcin local (default). Vuelva a hacer clic sobre el botn Run lalign. 5. Contrario a lo que concluimos en el alineamiento global, hay zonas con alto grado de identidad. Hay una sub-secuencia con un 95% de identidad extendida por 40 aminocidos, as como hay una sub-secuencia con un 100% de identidad con 37 aminocidos de longitud. Tmese su tiempo Puede verificar esta afirmacin en Dotlet. Hgalo (usando un tamao de ventana grande y seleccionando la matriz identity) y note que lo que ha ocurrido es un rearreglo de la secuencia: En el Dotlet hay dos lneas paralelas. Una est en la parte inferior izquierda y la otra est en la parte superior derecha. Si usted posiciona el cursor sobre cualquiera de estas lneas notar en la parte inferior de la pgina (donde estn las secuencias) las regiones de las secuencias que son idnticas. Es el alineamiento global en general ms malo que el local? No. Lo que s se puede decir es que para este ejemplo especfico, donde queremos buscar regiones conservadas, es ms conveniente un alineamiento local que uno global. 6. Observe algo que al principio parece contradictorio. Como es lgico, los alineamientos en la pgina de resultados se ordenan de mejor a peor. Esto es: el de arriba nos da el mayor grado de certeza de que hay sub-secuencias en comn (en el caso que sospechemos que las dos secuencias son homlogas, el primer alineamiento nos proporciona ms evidencia que los otros). Sin embargo, el primer alineamiento tiene un porcentaje de identidad menor que el segundo. Por qu es mejor entonces? Podra argumentarse que el primer alineamiento es ms largo que el segundo, y por eso est de primero. Sin embargo, esta es slo una respuesta parcial. El alineamiento global (por definicin) es ms largo que los dos, y no es mejor. Lo ideal es una mezcla entre los dos valores: identidad y longitud. Dos estadsticos que tienen en cuenta ambos valores a la vez son el Score y el e-value (es el valor que est a la derecha de E(10,000), en la misma fila del porcentaje de identidad). El primer alineamiento tiene un Score de 251, el segundo de 232 y el tercero de 155. Entre mayor sea el Score, mejor es el alineamiento. De manera similar, para el primer alineamiento el e-value es 6e-17 (esto es, un cero, una coma, 16 ceros y un 6 al final; un nmero muy pequeo), para el segundo es 2.9e-15 y para el tercero es 0.0046 (verifique estos nmeros). Entre menor sea el evalue, mejor es el alineamiento.

12

En el siguiente captulo aprenderemos qu se tiene en cuenta al calcular un Score y un e-value, y cmo ste ltimo se relaciona con la probabilidad de que el alineamiento conseguido se deba nicamente al azar. Recuerde: cuando usted hace un alineamiento global est suponiendo que tiene en frente secuencias homlogas y va a comparar su historia evolutiva al analizar los cambios que se han presentado. Cuando usted hace alineamientos locales usted estudia la conservacin local de sus residuos. Esto le permite inferir (en caso que la similitud no sea explicable razonablemente por azar) que las dos protenas son homlogas. Note el orden de los supuestos. En el primer caso est suponiendo homologa y en el segundo la est verificando. Cmo se relacionan los conceptos selectividad y sensibilidad con este ejemplo? Ejercicio: En la siguiente pgina hay una protena humana y una protena que se aisl del gallo: http://bioinformate.uniandes.edu.co/Secuencias/LAlign04.txt Hay razn para creer que estas protenas son homlogas? Argumente su respuesta. Tambin explique qu mtodo de alineamiento escogi y por qu.

Practiejemplo C Cmo encontrar secuencias en bases de datos mediante alineamientos?


En este ejemplo vamos a utilizar por primera vez el programa BLAST (Basic Local Alignment Search Tool). Este programa es para la bioinformtica como el martillo es para el carpintero. Sin l, la caja de herramientas no puede estar completa. Tan importante es, que dedicaremos toda una seccin del prximo captulo para estudiarlo mejor. Sin embargo, no sobra dar un llamado de alerta. Es fcil caer en la tentacin de usar BLAST para todos los problemas bioinformticos. Al hacerlo, nos olvidamos que BLAST sigue siendo como un martillo: una herramienta ms. Todo resultado que obtengamos con BLAST debemos justificarlo rigurosamente. Esto se consigue conociendo BLAST ms a fondo. Pero por ahora basta con una corta introduccin. 1. Ingrese a la pgina principal del NCBI: http://www.ncbi.nlm.nih.gov/ 2. Desde ah, haga clic en el vnculo BLAST que est encima de la casilla de bsqueda. Esto lo lleva a la pgina principal de BLAST. 3. El prrafo de introduccin resume la funcionalidad del programa. Lo primero que hay que notar es que BLAST (como su nombre lo indica) hace alineamientos locales, para buscar secuencias similares a un query en una base de datos. En esta descripcin tambin sugieren tres usos: inferir relaciones funcionales y relaciones evolutivas e identificar miembros de una familia de genes. 4. Lo siguiente es darse cuenta que hay muchas formas diferentes de hacer BLAST. Las grandes divisiones son: Nucletidos, protenas, traducciones, BLAST genmico y BLASTs especiales.

13

El tipo de BLAST a seleccionar depende de varios factores, entre ellos: a) la naturaleza de nuestra secuencia (es ADN o protena?) b) la base de datos que queremos sondear (queremos buscar en toda la base de datos, o restringirnos a un tipo de molcula especial u organismo particular?) c) la hiptesis que queremos comprobar (estamos buscando secuencias potencialmente homlogas a la nuestra o ms bien la posicin de nuestra secuencia en un genoma particular?) d) los supuestos acerca de nuestros resultados (si buscamos secuencias homlogas, esperamos encontrar alta o baja conservacin?) En este ejemplo vamos a usar slo un tipo: El BLAST a un genoma particular. 5. Como ejemplo, vamos a suponer que hemos aislado y secuenciado un pedazo de ADN humano al que se une un factor de transcripcin que estamos estudiando (en el Practiejemplo 2C del captulo 3 se habl brevemente acerca de los factores de transcripcin). La secuencia es la siguiente: http://bioinformate.uniandes.edu.co/Secuencias/Blast01.txt Cmo saber qu gen es regulado por este factor de transcripcin? Lo ms adecuado es alinear esta secuencia con el genoma humano y ver en qu cromosoma encontramos la mayor identidad. Posteriormente analizaremos qu genes se encuentran flanqueando esta secuencia. Esto nos dar una hiptesis de trabajo muy buena. 6. En la pgina principal de BLAST, haga clic en Human bajo la categora Genomes. Luego ingrese la secuencia en la casilla de bsqueda y haga clic en Begin Search. 7. Aparece una ventana en donde nos informan que nuestra solicitud ha sido puesta en una lista de espera. A diferencia del ejemplo anterior, donde comparbamos dos secuencias de no ms de 300 aminocidos una contra la otra, en este caso necesitamos comparar nuestra secuencia con los 3000 millones de bases del genoma humano! Esto toma algn tiempo (en mi caso: 4 segundos, pero puede ser menos). 8. Tras esperar un tiempo, haga clic sobre el botn Format! 9. Si esper lo suficiente ver la pgina de resultados. Con el uso se acostumbrar al formato de esta pgina. ste se divide en tres secciones. La primera tiene informacin general acerca de la bsqueda, con la fecha de realizacin, el RID que es un nmero nico de identificacin de este resultado, la base de datos que se utiliz, etc. La segunda seccin tiene los alineamientos primero en forma grfica y luego de forma similar a como aparecen en LAlign. Al final aparece un resumen de los parmetros de BLAST al hacer esta bsqueda, adems de unos estadsticos. En este momento nos vamos a centrar en la seccin de la mitad.

14

10. El 31 de julio de 2006 se obtuvieron 3 resultados. En la parte grfica del resultado de BLAST aparecen tres lneas en color magenta. Cada una de ellas corresponde a un alineamiento. 11. D clic sobre la primera lnea magenta. Esto lo lleva al primer resultado. En mi caso, es una secuencia del cromosoma 7 del genoma humano. Despus se menciona que en la direccin 5 de mi secuencia en el genoma humano est la preprotena Sonic Hedgehog. Tenemos respuesta a nuestra inquietud: el factor de transcripcin probablemente inducir la expresin de este gen. 12. Debajo aparecen unos datos estadsticos de este alineamiento en particular. Centrmonos en el e-value, que est despus de Expect. Nota que es un valor realmente bajo? Esto nos da un indicio de que el alineamiento es muy bueno. 13. Observe otro resultado de esta pgina. En mi caso, el segundo resultado es tambin del cromosoma 7, pero en este caso se tom como referencia la secuencia obtenida por Celera Genomics (ver introduccin al captulo 2 para ver que significa esto). Lo importante de esto es notar que los tres alineamientos no son tres formas de alinear dos secuencias (como s ocurre en LAlign), sino la mejor forma de alinear una secuencia con varias secuencias presentes en diferentes bases de datos. De esto se trata BLAST: hacer alineamientos locales con muchas secuencias en bases de datos diferentes para llegar a conclusiones basadas en similitud. En este ejemplo nicamente vimos uno de los usos que tiene BLAST. Si bien hay muchos usos diferentes (como por ejemplo, formular hiptesis de homologa o de conservacin de estructura), todos se basan en el mismo principio. Ejercicio: En unas clulas cancerosas se aisl un mRNA que estaba expresado en cantidades anormales y se secuenci. La secuencia obtenida est en: http://bioinformate.uniandes.edu.co/Secuencias/Blast02.txt Hay alguna razn para creer que el mRNA aislado est vinculado con el hecho de que la clula sea cancerosa?

Practiejemplo D Alineamientos mltiples


Hasta aqu nos hemos concentrado nicamente en la similitud entre pares de secuencias. Sin embargo, estudiar la similitud entre varias secuencias simultneamente nos puede dar mucha informacin, que no se encuentra con facilidad en alineamientos pareados. Una analoga que puede servir para entender esto es comparar el clima en varios aos consecutivos. Si compara un par de aos entre s podr decir que un ao fue ms caluroso que el otro en un mes particular, pero poco ms que esto. En cambio, si analiza la tendencia ao tras ao (esto es, compara el mismo periodo de tiempo de todos los aos simultneamente), podr percatarse que hay un calentamiento progresivo. En este ejemplo realizaremos un alineamiento mltiple para inferir relaciones evolutivas. La teora subyacente es en esencia lo mismo que del prrafo anterior, slo que al revs: suponemos que con el paso del tiempo las secuencias homlogas de los organismos adquieren diferencias o mutaciones (en el caso del clima concluimos que la temperatura aumentaba) y a partir de ah inferimos cules especies estn relacionadas y cules son lejanas evolutivamente, a partir del nmero de diferencias entre las secuencias. El programa que vamos a usar es ClustalW. Junto con BLAST, es una de las herramientas ms usadas en bioinformtica. En este ejemplo, aprenderemos a ingresar secuencias y a reconocer los principales resultados.

15

1. Empiece en la pgina de ClustalW, dando clic en el siguiente vnculo: http://www.ebi.ac.uk/clustalw/ Tmese su tiempo Lea el prrafo de introduccin que est en esta pgina.que resume los principios de ClustalW: alineamiento mltiple, de secuencias biolgicas, para ver identidades y diferencias, con posibilidad de ver relaciones evolutivas. Cada uno de estos pasos est diseado para ajustarse a evidencia biolgica existente. No es slo un alineamiento mltiple: es un alineamiento diseado para investigar secuencias biolgicas desde una perspectiva evolutiva. En el siguiente captulo, cuando veamos cmo se generan los alineamientos, retomaremos la importancia de este diseo. 2. El formulario presente en esta pgina permite ajustar finamente varios parmetros del algoritmo, adems de dar la opcin de enviar los resultados al correo electrnico. Esto ltimo es especialmente til cuando se tienen alineamientos de muchas secuencias largas, ya que el resultado suele tardarse bastante en salir. Por el momento no vamos a cambiar ninguno de los parmetros. 3. En el espacio que dice Enter or Paste a set of Sequences in any supported format: ingrese las secuencias que se encuentran en el siguiente vnculo: http://bioinformate.uniandes.edu.co/Secuencias/Clustal01.txt Es importante incluir junto con ellas la lnea de descripcin (que empieza con >) y no dejar una lnea en blanco antes de las secuencias. Las secuencias pertenecen a la protena ribosomal L18a, que es un gen conservado en todos los eucariontes (seres vivos con sistema de membranas intracelular, entre los que nos incluimos nosotros). 4. Tras ingresar las secuencias d clic en Run y espere los resultados. 5. La pgina de resultados tiene una tabla con fondo gris llamada Results of search. En esta tabla hay estadsticas generales del alineamiento, adems de unos archivos de texto que sirven para procesar los datos con otro software. El botn JalView carga una ventana que permite visualizar el alineamiento con colores (debe tener instalada la mquina virtual de Java, ver practiejemplo 1B). Adems de mostrar los residuos ms conservados y generar una secuencia consenso, tiene varias funciones avanzadas accesibles a travs del men superior. Por el momento no profundizaremos en su uso. 6. En la pgina de resultados sigue una seccin titulada Scores Table. Es un resumen del resultado de alinear cada par de secuencias. Fjese, por ejemplo, que el mayor Score (ver practiejemplo 2B para recordar que es el Score) se encuentra entre la rata y el ratn. Esto tiene sentido, si se piensa que son especies muy cercanas. Tambin se puede ver que los menores Score en general surgen en alineamientos con la secuencia de la planta (Arabidopsis thaliana) y con la secuencia de la levadura (Saccharomyces cerevisiae). Esto tambin tiene sentido evolutivo, pues estos organismos pertenecen a reinos diferentes al animal.

16

7. Con base en estos Scores, ClustalW genera un cladograma y un filograma. El que se carga primero es el cladograma, pero a nosotros nos interesa ms en este momento el filograma. Para visualizarlo, haga clic en el botn Show as Phylogram Tree. En la parte inferior de la pgina aparece entonces el rbol filogentico, donde la longitud de las ramas se relaciona con la distancia evolutiva entre las especies. Note como todos los vertebrados se encuentran relativamente cerca entre s, seguidos despus por el gusano (Caenorhabditis elegans), y finalmente por la levadura (un hongo) y la planta. Hemos visto como la comparacin de varias secuencias mediante alineamientos mltiples nos puede dar una idea de la filogenia (parentesco evolutivo). Sin embargo, hay detalles que no cuadran. Por ejemplo, el humano parece ser ms cercano a la rata, el ratn y el perro que al chimpanc (algunos argumentarn en broma que esto tiene sentido). Esto se debe a que el Score del alineamiento entre humano y rata es 99 mientras que el Score entre el humano y el chimpanc es 95. Pero surge la pregunta, es suficiente una diferencia de tres puntos en el Score para definir relaciones filogenticas? En el siguiente captulo, cuando hablemos acerca de puntajes en los alineamientos, trataremos de dar una respuesta parcial a esta pregunta. Ejercicio: En el siguiente vnculo hay cinco secuencias: http://bioinformate.uniandes.edu.co/Secuencias/Clustal02.txt Las primeras dos pertenecen a humanos. Las siguientes dos fueron extradas de un chimpanc. La quinta secuencia tiene origen desconocido, pero se sabe que pertenece a alguna de las dos especies y que est en el mismo locus. Cul es el origen ms probable de la ltima secuencia?

3. Aplicaciones basadas en alineamientos


Practiejemplo A Encontrar exones e intrones a partir de la protena y su ADN correspondiente
En la seccin anterior el nfasis estuvo en la parte conceptual. Conocimos los alineamientos locales y globales, adems de conocer un programa para cada uno de estos tipos de alineamiento: BLAST hace alineamientos locales contra una base de datos, mientras que ClustalW hace alineamientos globales mltiples. Haciendo uso de los conceptos de la seccin anterior puede usted resolver muchos problemas concretos. En el ejercicio que acompaa al Practiejemplo 2A, por ejemplo, se pide encontrar los intrones y exones de un gen, si se tiene una secuencia de ADN y su mRNA respectivo. Un ligero cambio en el problema se pretende resolver en este ejemplo: en lugar de tener la secuencia de mRNA tenemos la secuencia de la protena que codifica. Cmo resolver este problema? Es posible hacerlo en tres pasos: el primero sera elaborar una lista de todos los mRNAs que pueden codificar la protena. Esto se puede hacer a mano o mediante un pequeo programa de computador que genere la lista. El segundo paso sera ver cul de todos los mRNAs de la lista es el mejor candidato a ser codificado por la secuencia de ADN que tenemos. Esto se puede hacer mediante alineamientos

17

globales entre cada uno de los mRNAs de la lista y el ADN. El mRNA correcto estar en alineamiento que tenga el mayor Score o menor e-value. El tercer paso es repetir el ejercicio del Practiejemplo 2A. Hay una mejor solucin a este problema: aprovechar el hecho que un grupo de investigacin ya desarroll una aplicacin que est optimizada para esta tarea especfica, y que la ha puesto a disposicin de cualquier usuario con acceso a Internet. Esta aplicacin, desarrollada por Ewan Birney, Richard Copley y otros colaboradores, se conoce como Wise2 (GeneWise). 1. Ingrese al formulario inicial de Wise2 haciendo clic en el siguiente vnculo: http://www.ebi.ac.uk/Wise2/ 2. En el siguiente vnculo encontrar una secuencia de protena y una secuencia de ADN. http://bioinformate.uniandes.edu.co/Secuencias/GeneWise01.txt Ingrese cada secuencia en el espacio correspondiente del formulario y haga clic en Run. 3. Tras un tiempo de espera aparece la pgina de resultados. La tabla gris permite bajar archivos para ser procesados por otros programas. Despus viene un resumen de los parmetros que se usaron en el programa. Seguido a esto se encuentra el alineamiento entre la protena y el ADN, y al final un resumen de los intrones encontrados. 4. El alineamiento se compone de tres lneas idnticas, que corresponden a la protena. Debajo de estas tres lneas hay otras tres, que corresponden a la secuencia de nucletidos. Cada columna corresponde a una tripleta de nucletidos con el aminocido particular que codifican. Los intrones se encuentran marcados, junto con su longitud. En total hay 5 de ellos. 5. Este ejemplo se basa en un registro de NCBI Gene de la protena white de Drosophila melanogaster. Dar clic en el siguiente vnculo lo llevar al registro: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report &list_uids=31271#tranprod El programa logr encontrar correctamente los cinco intrones presentes. El mensaje importante que nos transmite este ejemplo es no reinventar la rueda. Con una bsqueda buena en Google es posible encontrar programas que ejecutan muchas tareas comunes de manera efectiva. Como ejemplo adicional est Sim4, diseado para alinear un mRNA o cDNA con la secuencia de ADN respectiva. El artculo cientfico donde describen Sim4 se encuentra en: http://www.genome.org/cgi/content/full/8/9/967 Ejercicio: En la pgina de Wise2, a la izquierda, hay enlaces a otras herramientas cada una tiene su especialidad. Cul programa usara para detectar inversiones en una secuencia de nucletidos? Use este programa para detectar la inversin presente entre estas dos secuencias:

18

http://bioinformate.uniandes.edu.co/Secuencias/GeneWise02.txt

Practiejemplo B HomoloGene: una base de datos de genes homlogos


En la seccin anterior aprendimos, que uno de los usos de los alineamientos es la inferencia de relaciones evolutivas. Si dos secuencias son muy similares en especies lejanas, es probable que esto se deba a que el ancestro comn de estas dos especies ya tena presente la secuencia. Basndose en esta hiptesis, el NCBI est generando una base de datos de secuencias que por su similitud son candidatas a ser homlogas. El nombre de esta base de datos es HomoloGene. 1. Ingrese a la pgina principal de HomoloGene haciendo clic en el siguiente vnculo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene 2. El primer prrafo de la pgina nos indica que ste es un sistema automatizado de deteccin de genes homlogos en los organismos cuya secuencia genmica completa ya se conoce. Para evaluar los resultados, ingrese el trmino APP y haga clic en Go. APP es el smbolo de un gen asociado con la enfermedad de Alzheimer. 3. El 3 de agosto de 2006 se produjeron 78 resultados. Entre ellos hay uno con nmero de identificacin 56379. El nmero de identificacin se encuentra justo al lado de la palabra HomoloGene: en cada resultado. Ingrese a este registro. Tmese su tiempo Cada registro de HomoloGene contiene informacin en varios contextos: Genes, protenas, fenotipos, dominios conservados, referencias bibliogrficas... Esta informacin puede ser especialmente til para encontrar modelos biolgicos para enfermedades comunes. Mire, por ejemplo, que algunos fenotipos en el ratn muestran su equivalente al del humano.

4. Nos vamos a centrar en la seccin llamada Alignment Scores. Haga clic en el enlace Show Table of Pairwise Scores. Para cada una de las especies tenemos una lista de estadsticos de similitud entre las secuencias. Dese cuenta que el porcentaje de identidad en aminocidos y nucletidos es bastante alto entre los vertebrados (superior al 80%): H. sapiens (humano), M. musculus (ratn), R. norvegicus (rata) y G. gallus (gallo). En cambio, comparndolo con los organismos invertebrados, el porcentaje de identidad es menor al 50%. 5. Vuelva al registro completo de HomoloGene. Hay dos mens desplegables bajo el ttulo Regenerate Alignments. Escoja en el primero al humano (H. sapiens) y en el segundo al ratn (M. musculus). Luego d clic sobre el botn BLAST. 6. Se despliega el alineamiento que dio lugar a la hiptesis de homologa entre los genes. Note el alto grado de identidad que hay entre las secuencias. Tenemos buenos indicios para creer, que esta secuencia realmente es homloga.

19

7. Vuelva nuevamente al registro de HomoloGene y en el men desplegable Display seleccione la opcin Multiple Alignment. Puede detectar las regiones que ms diferencian a los vertebrados de los otros organismos. 8. Ahora ingrese en la casilla de bsqueda superior el nmero 8634, asegrese que todava tiene seleccionado HomoloGene en el men desplegable y haga clic en Go. Aparece como resultado el gen HEBP2: Heme binding protein 2. Ingrese a este registro. Entre las especies aparecen el humano, el ratn, la rata, el perro y el gallo y... una planta (A. thaliana)! Recordemos que el grupo heme est presente en la hemoglobina (y otros compuestos), donde cumple un papel en el transporte de oxgeno en la sangre. En la planta, este grupo debe tener un papel diferente. Podemos confiar que los genes de la planta y del humano son homlogos? Es posible que la similitud en la secuencia se deba a evolucin paralela? Est presente el grupo heme en todos los eucariontes? La nica evidencia de la que disponemos para respondernos estas preguntas es la similitud entre dos secuencias. Por tanto debemos tomar con precaucin este resultado. Resaltando conceptos: Homologa vs. Similitud HomoloGene se basa en la similitud de las secuencias para inferir posibles genes homlogos. Sin embargo, similitud no es sinnimo de homologa. Es por eso que la homologa de estos genes debe considerarse siempre como hiptesis. Recordemos: dos genes son homlogos si tienen el mismo origen evolutivo. Esto es probable si estudiamos protenas como la actina, que hace parte del citoesqueleto en todos los eucariontes (organismos con sistema de membranas intracelular). Otros genes, por ejemplo los del sistema inmunolgico humano, no presentan homlogos en las plantas. Puede ocurrir, sin embargo, que la secuencia de aminocidos de uno de stos sea similar a una protena vegetal. Toda hiptesis en bioinformtica debe estudiarse en un contexto biolgico para poder hacer inferencias confiables. Siguiendo con el ejemplo, es necesario saber algo ms de la actina y del sistema inmunolgico es un complemento necesario para evaluar los resultados estadsticos de un alineamiento. Qu ocurre si dos secuencias homlogas han acumulado tantas mutaciones entre s, que un primer examen de similitud no logra detectar su origen comn? En ese caso, HomoloGene probablemente no considere este par de secuencias como homlogas. Existen mtodos ms sensibles para evaluar la similitud entre secuencias (por ejemplo PSIBLAST). En los siguientes captulos exploraremos algunos de estos mtodos. Ejercicio: Se ha encontrado un gen en ratones (llamado Mc3r) que est relacionado con el aumento de peso. Ratones que tienen mutado este gen engordan ms a pesar de comer menos (en el siguiente tutorial se profundiza ms en el tema: http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=coffeebrk.chapter.26). Use HomoloGene para encontrar el gen homlogo en humanos. Cul es el porcentaje de identidad en la secuencia de aminocidos entre el humano y el ratn?

20

Ejercicios
Introduccin
Los ejercicios de este captulo son una simulacin de una rutina comn en bioinformtica: se asla un pedazo de ADN, se obtiene la secuencia, y mediante sta se pretende inferir la mayor cantidad de informacin posible usando de bases de datos. El ejemplo dista de representar una situacin real en algunos casos (las secuencias del primer ejercicio, por ejemplo, no presentan errores de secuenciacin y no tienen repeticiones que generen ambigedad). An as, los conceptos que subyacen son los mismos.

Primer ejercicio
El resultado de un experimento de secuenciacin es un electroferograma, en donde cada pico corresponde a un nucletido especfico en el ADN (ver un ejemplo en el siguiente vnculo: http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=retrieve&size=479999&s=search&m=obtain &retrieve=Submit&val=1386897769&x_join=and&x_field=CENTER_NAME&x_cond=%3D&file=t race&gz=on&fasta=on&dopt=trace&dispmax=5&page=1) . La secuencia de ADN obtenida de un diagrama de este estilo tiene un tamao de aproximadamente 700 nucletidos, por lo que se requieren varias pasadas para secuenciar un gen completo. Estas secuencias deben ensamblarse, esto es, compararse entre s para determinar una secuencia consenso de todo el gen. Adems de que slo es posible secuenciar pedazos cortos de ADN, muchos picos de los electroferogramas son ambiguos. Esto lleva a que dos secuencias as pertenezcan a la misma regin cromosmica parezcan tener un orden diferente de nucletidos. Si bien existen programas especializados en secuenciacin (que van desde el anlisis del electroferograma, pasando por la optimizacin de las secuencias para el alineamiento, hasta el anlisis conjunto de varios experimentos de secuenciacin para obtener una secuencia consenso), vamos a usar las herramientas de este captulo para obtener un resultado aproximado. En la siguiente pgina Web hay tres secuencias que deben ensamblarse en un orden especfico (esto significa, que una secuencia representa el inicio, otra el segmento medio y la tercera el extremo final): http://bioinformate.uniandes.edu.co/Secuencias/Ejer05_01_01.txt Sin embargo, no se sabe en qu orden deben ir. Usando Dotlet determine: cul es la secuencia inicial, cul es la intermedia y cul es la final? Pista: Las siguientes secuencias, pertenecientes a otro gen, estn en orden (Secuencia_1 es el segmento corriente arriba y Secuencia_2 el segmento corriente abajo): http://bioinformate.uniandes.edu.co/Secuencias/Ejer05_01_02.txt Practiejemplos de repaso: 1A, 1B

Segundo ejercicio
(Depende del ejercicio anterior)

21

Tras haber determinado el orden en que deben ensamblarse las secuencias, use LAlign y un editor de texto (como el bloc de notas de Windows) para generar una secuencia conjunta a partir de los tres fragmentos. Justifique la eleccin del tipo de alineamiento que va a hacer (local? global? global sin penalidad en los extremos?). Practiejemplos de repaso: 2A, 2B

Tercer ejercicio
Un ensamblaje como el que realiz en los dos ejercicios anteriores (slo que con otra regin del gen) est en el siguiente vnculo: http://bioinformate.uniandes.edu.co/Secuencias/Ejer05_03_01.txt Basndose en este ensamblaje, determine el cromosoma y el gen que estn representados por esta secuencia. Opcional (requiere haber ledo el captulo 4): A partir de la ontologa del gen, puede determinar si es un factor de transcripcin o un gen estructural? Practiejemplos de repaso: 2C, Captulo 4 practiejemplos 1A y 1B

Cuarto ejercicio
(Depende del ejercicio anterior) Encuentre posibles genes homlogos al determinado en el punto anterior. Es ste un gen conservado entre los mamferos? Descargue la secuencia de protenas del grupo de genes homlogos que encontr. Haga un alineamiento mltiple con estas secuencias. Se puede inferir la filogenia (orden de especiacin) de las especies a partir de estas secuencias? Opcional (requiere haber ledo el captulo 1): Busque un libro que tenga un tutorial acerca de este gen. Cumple la misma funcin en todos los mamferos o tiene un efecto particular en humanos nicamente? Practiejemplos de repaso: 2D, 3B, Captulo 1 practiejemplo 3B

Quinto ejercicio
En el siguiente enlace estn las secuencias proteicas del humano y del chimpanc del gen que estamos estudiando: http://bioinformate.uniandes.edu.co/Secuencias/Ejer_05_05_01.txt Tras alinear las secuencias (global o localmente?) determine: A) el porcentaje de identidad entre las secuencias B) los aminocidos especficos diferentes (cambiaron las propiedades fisicoqumicas de estos aminocidos?)

22

Practiejemplos de repaso: 2A, 2B

Sexto ejercicio
Algunas secuencias de ARN forman una estructura llamada stem-loop, donde el extremo 5 y el extremo 3 se complementan y forman asociaciones Watson-Crick entre s (ver una imagen en el siguiente vnculo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=books&doptcmdl=GenBookHL& term=RNA+secondary+and+tertiary+structures+AND+mcb%5Bbook%5D+AND+105263%5Buid %5D&rid=mcb.figgrp.821). En este ejercicio vamos a usar Dotlet para hacer esta inferencia. En la siguiente pgina hay cuatro secuencias: http://bioinformate.uniandes.edu.co/Secuencias/Ejer_05_06_01.txt La primera secuencia es el ARN que vamos a analizar. La segunda es la secuencia invertida (esto significa, que se escribi la secuencia al revs). La tercera secuencia es el complemento de la primera (en donde tenamos Adenina se escribi Timina, etc.). La cuarta es el reverso complemento (el resultado de invertir y complementar). A) Cul par de secuencias analizara usted para determinar la presencia de un stem-loop? B) Cargue las dos secuencias que escogi en el punto A en Dotlet, vare los parmetros hasta obtener una imgen completa (variando el Zoom) y con poco ruido (variando el tamao de ventana y el histograma a la derecha). Cmo se evidencia el stem-loop en la grfica obtenida? Practiejemplos de repaso: 1A, 1B

Profundizacin
MUMmer
Versin en lnea de MUMmer: http://cmr.tigr.org/tigr-scripts/CMR/shared/MakeFrontPages.cgi?page=genome_alignment

MUMmer es una herramienta similar al Dotplot, que permite visualizar similitud entre genomas completos. Tiene la ventaja de ser especialmente rpido, a pesar del volumen de datos de entrada. A la fecha, MUMmer va en la versin 3.0. En el artculo cientfico publicado sobre la primera versin describen la herramienta de esta manera: Se describe un nuevo sistema para alinear secuencias genmicas completas. Usando una estructura de datos eficiente conocida como rbol de sufijos, el sistema es capaz de alinear secuencias que contienen millones de nucletidos rpidamente. [...] El uso de este algoritmo debera facilitar el anlisis de regiones cromosomales sintnicas, comparaciones cepa-cepa, comparaciones evolutivas y duplicaciones genmicas. (Delcher et al., Alignment of whole genomes, Nucleic Acids Res. 1999 Jun 1;27(11):2369-76. PMID: 10325427).

23

MUMmer fue desarrollado en TIGR (The Institute of Genomic Research) y en la pgina web de este instituto (http://www.tigr.org/) es posible encontrar otras herramientas adicionales de comparacin entre genomas.

NCBI PopSet
Pgina de inicio de PopSet: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PopSet Cuando un investigador est interesado en publicar un alineamiento de secuencias puede hacer un envo a GenBank de ste mediante la herramienta Sequin (ver captulo 2, Practiejemplo 1C). De esta forma slo tiene que referenciar el registro especfico en el NCBI, de manera similar a citar una secuencia de ADN mediante el nmero de acceso o el GI. Algunos de estos alineamientos estn pensados para proporcionar hiptesis evolutivas de poblaciones. NCBI ha creado una base de datos especializada en este tipo de estudios y se conoce como PopSet. Esta es la descripcin de un PopSet en la pgina Web del NCBI: Qu es un PopSet? Un PopSet es un conjunto de secuencias de ADN que han sido recolectadas para analizar las relaciones evolutivas de una poblacin. La poblacin pudo originarse a partir de diferentes miembros de la misma especie, o por organismos de especies diferentes. Son enviados a GenBank mediante Sequin, usualmente en forma de alineamiento de secuencias.

Base de datos de COGs


Pagina inicial de la base de datos de COGs: http://www.ncbi.nlm.nih.gov/COG/ Cuando empezaron a surgir las secuencias completas de algunos organismos, varios grupos iniciaron la tarea de encontrar todos los genes potencialmente homlogos. Una iniciativa del NCBI, conocida como base de datos de COGs, se ha aproximado a esta tarea: La base de datos de clusters de grupos ortlogos de protenas (COGs [Cluster of Orthologous Groups]) ha sido pensada como una clasificacin filogentica de protenas de genomas completos. Cada COG incluye protenas que se cree son ortlogas, esto es, conectadas por descendencia evolutiva vertical. [...] El propsito de la base de datos de COGs es servir como plataforma para la anotacin funcional de genomas recientemente secuenciados y realizar estudios en evolucin genmica. (Roman L. et al., The COG database: new developments in phylogenetic classification of proteins from complete genomes, Nucleic Acids Res. 2001 Jan 1;29(1):22-8. PMID: 11125040) Varios de los genes presentes en HomoloGene surgen de esta base de datos. Se puede decir que la base de datos COG es a HomoloGene como GenBank es a NCBI Gene.

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.

24