Vous êtes sur la page 1sur 25

Bioinformtica: Fundamentos y Aplicaciones

Anotacin Genmica de la regin ENCODE ENm011

----AUTO---R----------| | | 1 FERNANDO-GARCIA-HUERTA* * * 6 ------------CO-NSU-LTOR || 21 ENRIQUE-BLANCO-GARCIA-** .: :: 15 ---TUTOR--------------| 40 ALEXANDRE-SANCHEZ-PLA-. *

5 20 14 39 20 58

Proyecto fin de Postgrado Octubre 2011

A Enrique Blanco Garca, que me hizo ver que un script a tiempo es til mil veces. A Dorcas Orengo Ferriz, que me enseo la importancia del uso correcto de los conceptos. A Alexandre Snchez Pla por su capacidad para ver el orden donde los dems solo vemos caos. Y sobre todo a Alejandra, por aguantar lo indecible y aportar sentido a mi vida, todos y cada uno de los das.

TABLA DE CONTENIDO
ESTADO DEL ARTE ................................................................................................................................................................................................................. 5 EL GEN ANTES DE ENCODE ..................................................................................................................................................................................................... 5 EL PROYECTO ENCODE ........................................................................................................................................................................................................... 6 EL GEN DESPUS DE ENCODE .................................................................................................................................................................................................. 6 ENCODE DESPUS DE ENCODE .............................................................................................................................................................................................. 7 ENCODE y modENCODE..................................................................................................................................................................................................... 7 Una nueva forma de investigar.............................................................................................................................................................................................. 7 Open Source ...................................................................................................................................................................................................................... 7 Redes sociales.................................................................................................................................................................................................................... 7 ANOTACIN COMPUTACIONAL ......................................................................................................................................................................................... 9 EXTRACCIN DE LA SECUENCIA ENM011 ................................................................................................................................................................................. 9 PREDICCIN AB INITIO................................................................................................................................................................................................................ 9 Geneid ................................................................................................................................................................................................................................... 9 Genscan ................................................................................................................................................................................................................................. 9 Fgenesh ............................................................................................................................................................................................................................... 10 Un primer vistazo ................................................................................................................................................................................................................ 10 BSQUEDA DE PROTENAS CONOCIDAS EN NUESTRA SECUENCIA CON BLAST ...................................................................................................................... 11 Metodologa ........................................................................................................................................................................................................................ 11 Parmetros .......................................................................................................................................................................................................................... 11 Resultados ........................................................................................................................................................................................................................... 12 LA PREDICCIN ....................................................................................................................................................................................................................... 12 Preparacin de las pistas .................................................................................................................................................................................................... 12 Intersecciones ...................................................................................................................................................................................................................... 12 Seleccin de los exones comunes a las tres predicciones................................................................................................................................................. 13 Homologa, incorporacin de la pista blastx .................................................................................................................................................................... 13 Prediccin final ................................................................................................................................................................................................................... 13 EXPLORACIN DE OTRAS PREDICCIONES ................................................................................................................................................................................. 13 SGP Gene Predictions Using Mouse/Human Homology ..................................................................................................................................................... 13 N-SCAN Gene Predictions .............................................................................................................................................................................................. 14 Comparativa .................................................................................................................................................................................................................... 14 ANOTACIN ENCODE .......................................................................................................................................................................................................... 15 EXPLORACIN DE LAS ANOTACIONES DE REFSEQ Y GENCODE .............................................................................................................................................. 15 RefSeq.................................................................................................................................................................................................................................. 15 Gencode............................................................................................................................................................................................................................... 15 ANOTACIN FUNCIONAL (GENE ONTOLOGY) ......................................................................................................................................................................... 15 Enriquecimiento de funciones.............................................................................................................................................................................................. 16 EVALUACIN DE LAS PREDICCIONES ....................................................................................................................................................................................... 17 GEN_1 - Mezcla de AC068580.3 y CTSD ........................................................................................................................................................................... 17 GEN_2 - Exn final de CTSD .............................................................................................................................................................................................. 17 GEN_5 - Variante de AC139143.1 ...................................................................................................................................................................................... 17 GEN_6 - Variante de SYT8 .................................................................................................................................................................................................. 17 GEN_7 - Variante de TNNI2 ............................................................................................................................................................................................... 18 GEN_8 - Variante de LSP1 ................................................................................................................................................................................................. 18 GEN_9 - Mezcla de LSP1 y TNNT3..................................................................................................................................................................................... 18 GEN_10 - Variante de TNNT3 ............................................................................................................................................................................................ 18 GEN_11 - Variante de MRPL23 .......................................................................................................................................................................................... 18 GEN_12 - Corta y sin alineamientos ................................................................................................................................................................................... 18 GEN_16 - Variante de IGF2 ............................................................................................................................................................................................... 18 GEN_18 - Variante de TH ................................................................................................................................................................................................... 18 GEN_24 - Variante de TSPAN32 ........................................................................................................................................................................................ 18 Resumen de la evaluacin ................................................................................................................................................................................................... 18 CONSERVACIN ENTRE ESPECIES ............................................................................................................................................................................................ 18 SYT8 .................................................................................................................................................................................................................................... 19 TH ....................................................................................................................................................................................................................................... 19 TNNI2 .................................................................................................................................................................................................................................. 19 LA SUPERPISTA ENCODE REGULATION ................................................................................................................................................................................. 19 PISTA BURGE RNA-SEQ .......................................................................................................................................................................................................... 20 LSP1, TNNT3 y cncer de mama ......................................................................................................................................................................................... 20 CONCLUSIN Y REFLEXIONES FINALES ....................................................................................................................................................................... 23 CONCLUSIONES ....................................................................................................................................................................................................................... 23 Sobre los resultados ............................................................................................................................................................................................................ 23 Sobre el software de prediccin ab initio ............................................................................................................................................................................ 23 Sobre la anotacin de genes ................................................................................................................................................................................................ 23 Sobre la sobredosis de informacin..................................................................................................................................................................................... 23 Sobre el trabajo til ............................................................................................................................................................................................................. 24 CONSIDERACIONES .................................................................................................................................................................................................................. 24 REFLEXIN FINAL .................................................................................................................................................................................................................... 24 REFERENCIAS Y BIBLIOGRAFA ...................................................................................................................................................................................... 25

ESTADO DEL ARTE

Estado del arte


El genoma humano es un elegante, pero altamente complejo, sistema de informacin. Est formado por aproximadamente tres billones de bases que contienen, de forma codificada, las instrucciones 1 para para sintetizar cada clula, tejido y rgano del cuerpo humano. El proyecto ENCODE (Encyclopedia of DNA Elements), nace en ao 2003, con el objetivo de esclarecer la estructura biolgica del genoma a base de identificar y catalogar, con tcnicas de alto rendimiento (highthroughput), el mximo nmero de elementos funcionales que en l se encuentran codificados. En 2 Junio de 2007 se publicaron las conclusiones del primer proyecto piloto , cuyos resultados no solamente han servido para ampliar de forma notable los conocimientos sobre la estructura y funcionalidad del genoma, sino que han provocado la necesidad de una nueva redefinicin del 3 concepto de gen .

El gen antes de ENCODE


La palabra gen deriva del Griego genesis (nacimiento), o genos (origen), y la esencia del concepto, de alguna manera expresa que:

como mecanismo hereditario, y en 1955, Hershey y Chase, demostraron que la sustancia que realmente era transmitida por las bacterias a sus descendientes era ADN y no protenas.

"cdigo transcrito"
A partir de la dcada de 1960 los acontecimientos ser fueron acelerando. Nirenberg y Sll descubren el cdigo gentico, que explica como los transcritos de ARN se traducen en las secuencias de aminocidos que forman las protenas. Pero tambin se puso de manifiesto que algunos genes no codificaban para protenas, sino para algn otro subproducto celular, comenzando a acuarse el concepto de gen como fragmento de nucletidos que daban lugar a productos celulares funcionales.

"determina una caracterstica particular de un organismo y es hereditable"


El problema radica en que una definicin as de ambigua, aunque comprensible para uso cotidiano, no es suficiente para el uso cientfico, que necesita de expresiones que describan de forma precisa qu es un gen. A continuacin veremos como el desarrollo de la tcnica ha forzado a los investigadores a redefinir el concepto de gen una y otra vez para adaptarse a los nuevos descubrimientos. Fu en 1909 cuando Wilhelm Johannsen, basndose en el concepto desarrollado por Gregor Mendel, en el que estableca que las variaciones en los rasgos eran causadas por factores hereditarios, hiciera uso por primera vez de la palabra gen, abriendo de forma oficial la carrera que por averiguar la verdadera naturaleza de la unidad hereditaria.

GREGOR JOHANN MENDEL (20 de julio de 18221 6 de enero de 1884) fue un monje agustino catlico y naturalista nacido en Heinzendorf, Austria que describi, por medio de los trabajos que llev a cabo con diferentes variedades del guisante, las hoy llamadas leyes de Mendel que rigen la herencia gentica. Su trabajo no fue valorado cuando lo public en el ao 1866. Hugo de Vries, botnico neerlands, Carl Correns y Erich von Tschermak redescubrieron por separado las leyes de Mendel en el ao 1900 CDIGO GENTICO El cdigo gentico es el conjunto de reglas usadas para traducir la secuencia de ARNm a secuencia de protena. En 1961, el experimento realizado por Francis Crick, Sydney Brenner y Leslie Barnett and Watts-Tobin demostr que el cdigo gentico era un cdigo regido por tripletes, de forma que cada tres bases de ARNm codificaban para un aminocido. La correspondencia de cada triplete con su aminocido se fue dilucidando posteriormente en diversos pasos por distintos autores.

"patrones de secuencia de marcos abiertos de lectura (ORFs)"


Finalmente, el desarrollo de las tcnicas de secuenciacin y clonado en la dcada de 1970, revolucion el campo de la biologa molecular proporcionando valiosa informacin sobre la estructuracin y expresin de los genes. Paralelamente, la explosin en el campo de la computacin, permita por primera vez los anlisis a gran escala, y comenzaron a producirse las primeras predicciones de genes. La identificacin de la mayora de los genes se produca por similitud con otros conocidos, o por similitud estadstica entre secuencias de aminocidos, y en muchos casos el gen quedaba efectivamente identificado como una anotacin de ORFs en el genoma.

" un locus diferenciado"


En la dcada de 1910, Thomas Hunt Morgan y sus estudiantes explicaron la segregacin de las mutaciones en la Drosophila melanogaster con un modelo de genes alineados longitudinalmente, cuya habilidad para combinarse era directamente proporcional a la distancia que los separaba.

" plantilla para protenas"


En 1941, Beadle and Tatum descubrieron que las mutaciones en los genes causaban defectos en las enzimas metabolizadas.

"entidad anotada y enumerada en las bases de datos genmicas"


Entrando en el siglo XXI, la "Human Genome Nomenclature Organization", defina el gen como "un segmento de ADN, que contribuye al fenotipo o funcin. En ausencia de una funcin demostrada, un gen puede ser caracterizado por secuencia, transcrito u homologa".

" una molcula fsica"


En 1953, Watson and Crick, daban con la solucin a la estructura tridimensional del ADN, que explicaba como el emparejamiento de bases poda funcionar

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 5 de 25

ESTADO DEL ARTE


sta definicin y otras producidas durante los primeros cinco aos del siglo XXI, tenan el defecto de sobre enfatizar el punto de vista tradicional de los
Tabla 1 | Extracto de la Tabla 1. Phenomena complicating the concept of the gene del artculo What is a gene, post-ENCODE? History and updated definition3

Evento Descripcin Regulacin, localizacin y estructura Genes Intrnicos Genes localizados en intrones de otros genes ORF superpuestos La misma regin de ADN puede codificar diferentes productos dependiendo del frame de lectura Potenciadores y silenciadores Los reguladores que afectan a la expresin de un gen pueden estar localizados muy lejos en el ADN. Variacin estructural Elementos mviles Un elemento gentico puede aparecer en nuevas posiciones con las generaciones Reordenamientos y variaciones La estructura puede diferir entre individuos estructurales Variacin del nmero de copias El nmero de copias de un gen puede diferir entre individuos Epigentica y estructura del cromosoma Modificaciones epigenticas La expresin de un gen puede depender de su origen paterno o materno, lo que implica que el fenotipo no est estrictamente determinado por el genotipo. Efectos de la estructura de la La expresin de un gen depende el cromatina empaquetamiento de la molcula de ADN. La secuencia de ADN no es suficiente para la prediccin gentica. Eventos post-transcripcionales Empalme alternativo de ARN Se pueden obtener mltiples productos de un solo locus. Productos empalmados Dos productos de empalme alternativo de prealternativamente con los mARN producen productos sin ninguna secuencia marcos de lectura alternativos en comn. Trans-empalme de ARN Una protena puede ser el resultado de la combinacin de mltiples transcritos. Modificacin de ARN El ARN es modificado enzimticamente. Eventos post-traduccin Empalmes proteicos y El comienzo y fin de una protena no est polyprotenas virales determinado por el cdigo gentico. Modificacion de proteinas La protena altera su estructura y la funcin del producto final, lo que implica que su secuencia no es directamente la codificada en el ADN. Pseudogenes y Retrogenes Retrogenes Genes formados a partir de la transcripcin inversa ARN => ADN Transcripcin de pseudogenes Hay actividad bioqumica de elementos supuestamente inertes. genes que codifican protenas, y todas ellas se enfrentaban con dificultades para englobar todo un conjunto de resultados experimentales que afectaban directa o indirectamente al concepto tradicional de gen (Tabla 1).

continuacin enumeramos algunos de sus descubrimientos ms importantes: El genoma humano se transcribe profusamente, de manera tal, que la mayora de sus bases estn asociadas con al menos un transcrito primario. Se han identificado una gran cantidad de nuevos transcritos que no codifican para protenas, muchos de ellos solapndose con locus pertenecientes a protenas y otro en regiones que se pensaba no se traducan. A esta gran cantidad de transcritos, no anotados como genes en el ADN, los conocemos como TARs (transciptionally active regions). Se han identificado nuevos sitios de inicio de transcripcin (TSSs) hasta ahora no conocidos. Muchas protenas de genes conocidos, tienen TSSs alternativos, a veces hasta 100.000 bases aguas arriba de la transcripcin anotada. El nmero de isoformas de genes por locus asociados a protenas se ha incrementado en gran medida debido al incremento del alternative splicing relacionado con los descubrimientos anteriores. La regulacin se localiza de forma muy dispersa en el ADN. Las secuencias regulatorias que rodean los sitios de inicio de transcripcin estn distribuidas simtricamente, y no necesariamente en regiones aguas arriba. En realidad se han obtenido suficientes evidencias de que el modelo conciso de gen puede ser demasiado simple, y que muchos elementos regulatorios residen en el primer exn, en intrones o en el cuerpo entero del gen. El tiempo de replicacin del ADN est relacionado con la estructura de la cromatina. Tambin se ha encontrado que una fraccin significativa, alrededor del 20% de los pseudogenes, s se transcriben, hecho que debe ser tenido en cuenta al utilizar transcritos como evidencias para localizar genes. Elementos funcionales diferentes varan en gran medida, tanto su secuencia de individuo a individuo, como en la posibilidad de residir en el genoma con una estructura variable. Sin embargo, muchos elementos funcionales parecen no estar sometidos a restricciones evolutivas en los mamferos, lo que sugiere la posibilidad de la existencia de una gran reserva de elementos neutrales, bioquicamente activos, cuya nica funcin podra ser la de servir de base para nuevos productos evolutivos. A modo de metfora informtica, a tenor de todos estos acontecimientos, el genoma ha pasado de poder considerarse un conjunto organizado de subrutinas, para convertirse en el cdigo fuente de un programa en cdigo mquina muy compacto, lleno de saltos y bucles que recorren el cdigo de un lado a otro de forma bastante confusa aunque muy efectiva.

El proyecto ENCODE
Como ya hemos comentado, el proyecto ENCODE (Encyclopedia of DNA Elements), nace con el objetivo de esclarecer la estructura biolgica del genoma a base de identificar y catalogar el mximo nmero de elementos funcionales. En Junio de 2007 se publicaron las conclusiones del primer proyecto piloto cuyo objetivo era la anotacin y anlisis funcional de un 1% del genoma humano. A

El gen despus de ENCODE


Como vemos, los resultados del primer proyecto piloto ENCODE, son lo suficientemente significativos como para afectar al concepto clsico de gen, hacindose necesaria, una vez ms, una redefinicin del trmino. La nueva definicin de gen debera tener en consideracin los siguientes criterios:

6 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ESTADO DEL ARTE


1. 2. 3. Ser compatible con el trmino clsico de gen, lo que en informtica se conoce como backguard compatibility. Ser independiente del organismo al que se le aplique, ya sea una bacteria o un homo sapiens. Debera expresar una idea simple en vez de un largo conjunto de caractersticas.

ENCODE y modENCODE
Debido a ello, tras la finalizacin de la fase piloto, el proyecto se dividi en dos lneas diferenciadas de actuacin. Por un lado se extendi el proyecto ENCODE a todo el genoma humano, y por otro se cre el nuevo proyecto modENCODE6, cuyo objetivo es la anotacin funcional de los genomas de los organismos C elegans y D melanogaster. La eleccin de estos dos organismos para el proyecto modENCODE, no es casual, se trata de organismos que son pilares de la investigacin biolgica moderna, cuyos genomas, no excesivamente grandes (como un tercio del genoma humano), adems de fciles de cultivar y manipular, permiten la validacin in vivo, de los hallazgos obtenidos, algo que raramente puede llevarse a cabo en experimentos con mamferos. Se espera que las comunidades dedicadas al estudio de stos organismos se beneficien rpidamente de los resultados de este proyecto, allanando el camino hacia la comprensin del mucho ms complejo genoma humano, ayudando a dilucidar las relaciones existentes entre los eventos moleculares y biolgicos de un organismo.

"Un gen es la unin de un grupo de secuencias genmicas que codifican un conjunto coherente de productos funcionales potencialmente superpuestos"
4. 5. Debe ser prctico, que sea til para responder a preguntas concretas como Cuntos genes tiene el genoma de una especie? Debe ser compatible y consistente con la nomenclatura utilizada en la literatura biolgica.

Con todos esos criterios, los autores del artculo What is a gene, post-ENCODE? History and updated definition3 proponen la siguiente definicin: Un gen es la unin de un grupo de secuencias genmicas que codifican un conjunto coherente de productos funcionales potencialmente superpuestos. Para comprender mejor la definicin, hay que destacar los siguientes aspectos: 1. Un gen es una secuencia genmica (ADN o ARN) que codifica directamente productos funcionales moleculares, ya sean ARN o protenas. En caso de que variaos productos funcionales compartan regiones superpuestas, se debe coger la unin de todas las secuencias superpuestas que codifican para ellos. Dicha unin debe ser coherente, es decir, especificada de forma separada para cada producto final (protena o ARN). Ntese que esto no requiere que al menos una sub-secuencia deba ser compartida necesariamente por todos los productos.

Una nueva forma de investigar


No me gustara terminar esta introduccin, sin resaltar la nueva forma de trabajo colaborativo que, gracias al desarrollo de las redes sociales por un lado y del movimiento Open Source por otro, se est imponiendo poco a poco en el campo de la investigacin cientfica en general y la bioinformtica en particular.

2.

Open Source
Hoy en da podemos encontrar en internet, de forma gratuita, la ms completas suites de software que podemos necesitar, y no solamente libres de uso, sino con disponibilidad de su cdigo fuente o de APIs bien documentadas para que podamos integrarlos en nuestras necesidades. Programas utilizados a diario por cualquier bioinformtico, como puedan ser blast7 o geneid8, solo por mencionar dos de los que utilizaremos durante el proyecto, ponen a disposicin del pblico no solo sus cdigos fuentes, sino toda la documentacin necesaria para contribuir a su desarrollo.

3.

ENCODE despus de ENCODE


El gran Human Genome Project4 (HGP), bajo el que podemos enmarcar el proyecto ENCODE, naci de forma oficial en 1990 con los objetivos principales de secuenciar los 3 billones de pares de bases que componen el ADN humano e identificar los entre 20.000-25.000 gene que se pensaba contena. En 2004 se consigui el primero de los objetivos, la obtencin de una secuencia completa de referencia de alta calidad del ADN humano5 y en 2007 se finaliz la fase piloto del proyecto ENCODE2, pero a pesar de todos los xitos cosechados en el campo de la genmica, an estamos lejos de comprender como la informacin codificada en un genoma puede producir organismos complejos multicelulares. Dos hechos fundamentales que pusieron de manifiesto durante la experiencia obtenida en la fase piloto de ENCODE, uno la grandsima complejidad que encerrada todo el proceso regulatorio de expresin gnica y otro, la gran cantidad de genes relacionados con productos no proteicos que an nos quedan por descubrir.

Redes sociales
El otro factor que est contribuyendo al rapidsimo avante en bioinformtica, es la prdida del miedo a compartir, aunque sea en parte, muchos de los hallazgos obtenidos, lo que permite su inclusin en grandes bases de datos que se pueden consultar pblicamente, ahorrando cantidades considerables de tiempo y dinero en investigacin. Otro ejemplo del original de uso de las redes sociales, lo encontramos en el propio proyecto modENCODE. Este proyecto funciona como un consorcio9 en el que sus participantes pueden, literalmente, realizar votaciones sobre los campos del proyecto que les gustara que se llevasen a cabo primero, consiguiendo finalmente un ndice de prioridades que ha establecido la propia comunidad que se va a beneficiar de los resultados.

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 7 de 25

ESTADO DEL ARTE

8 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN COMPUTACIONAL

Anotacin Computacional
En esta primera fase obtendremos la secuencia de ADN objeto de estudio, y utilizando tcnicas de prediccin ab initio con los programas Geneid, Genescan y Fgenesh, procederemos a su anotacin. Durante el proceso, utilizaremos la ayuda de bases de datos de protenas y la bsqueda de regiones otlogas en otros genomas, as como a la genmica comparativa para fundamentar mejor nuestras decisiones.

Extraccin de la secuencia ENm011


Utilizando el servidor UCSC10, navegamos hasta el ndice de las regiones hg18 del proyecto ENCODE11 (Figura 1), donde seleccionamos la regin ENm011 (1GF2/H19), que ser la secuencia objeto de nuestro estudio. Esta regin se encuentra localizada en el cromosoma 11, concretamente en la localizacin: chr11:1,699,992-2,306,039.

Tabla 2 | Parmetros Geneid

Organism Prediction mode DNS strands Output format

Homo sapiens (human) Normal mode (signal, exon and gene prediction) Forward and Reverse geneid

Como resultado obtenemos la siguiente prediccin de genes:


Tabla 3 | Prediccin de genes con Geneid

Figura 1 | ENCODE hg18 index

Gene Strand 1 2 3 4 + 5 6 + 7 + 8 + 9 10 + 11 + 12 13 14 15 16 17 18 19 + 20 + 21 22 23 24 +

Exons 10 1 4 1 2 9 6 11 2 11 5 3 1 1 1 7 2 11 3 6 1 1 2 6

aa 569 24 149 119 292 362 210 354 486 382 154 122 53 86 114 348 111 404 211 147 194 181 73 307

Start 39246 41674 63912 70368 81910 86242 115959 130960 200691 204492 225178 320448 322145 333523 345218 417955 438786 449601 452290 496321 548147 552523 571408 580626

End 13095 41603 45693 70724 80704 115246 119366 165378 166960 218910 234235 267546 321987 333266 344877 352069 437667 442048 466870 542410 547566 551981 563465 601769

Descargamos la secuencia completa de esta regin utilizando el enlace Get DNA y guardamos el secuencia que viene en formato FASTA (ver adjunto ENm011.fasta).

El resultado con los exones que conforman cada gen lo guardamos en un archivo raw_prediction_geneid.txt para su posterior proceso.

Genscan
Repetimos el mismo proceso, esta vez en el servidor de Genscan. Es importante recordar que ste programa no interpreta la cabecera de los ficheros FASTA, por lo que debemos proporcionarle como secuencia, la cadena de ADN limpia para evitar obtener un falso desplazamiento en las coordenadas de los exones. Teniendo esto en cuenta, los parmetros utilizados y los genes obtenidos se pueden observar en las siguientes tablas:

Prediccin ab initio
El siguiente paso consiste en la prediccin ab initio de los genes contenidos en la secuencia. Realizaremos este proceso con tres programas diferentes: Geneid12, Genscan13 y Fgenesh14.

Geneid
En el servidor pblico de geneid proporcionado por Genome BioInformatics Research Lab, utilizamos la versin de geneid 1.2 para obtener una primera prediccin ab initio de los genes contenidos en la regin ENm011. Para esta prediccin hemos utilizado los siguientes parmetros:

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 9 de 25

ANOTACIN COMPUTACIONAL
Tabla 4 | Parmetros Genscan

Organism Vertebrate Suboptimal exon cutoff 1.00 Print option Predicted peptides only
Tabla 5 | Prediccin de genes con Genscan

Y el resultado lo guardamos raw_prediction_fgenesh.txt.

en

el

fichero

Un primer vistazo
Como primer paso, y simplemente para hacernos una idea de hasta qu punto coinciden cada una de las tres predicciones de novo, hemos preparado una tabla comparativa (Tabla 9) a nivel de gen, en la que destacaremos dos tipos de candidatos: candidatos fuertes (CF) y candidatos menores (CM) atendiendo al siguiente conjunto de criterios: 1. 2. 3. 4. Misma cadena (+/-) obligatorio Coordenadas iniciales y finales del gen similares. Nmero de aminocidos parecidos. Nmero de exones parecidos.

PYTHON* AL RESCATE Aunque hay otros lenguajes de script que se han utilizado de forma tradicional para la preparacin de datos bioinformticos, como pueden ser Perl o incluso la propia Bash de Linux, creo que dichos lenguajes son algo confusos para el usuario medio, no experto en informtica, y poco a poco irn siendo sustituidos por lenguajes algo ms amigables y no tan exclusivos para experto informtico. Uno de estos lenguajes, que est adquiriendo un gran auge actualmente, y no solo en el mbito de la bioinformtica, es Python, que ser el que utilizaremos para preparar los scripts de ste proyecto. NORMALIZACIN Al realizar la prediccin de genes, cada programa, Geneid, Genscan y Fgenesh tiene su propio formato de salida. Hemos realizado un pequeo script en Python que extrae de cada fichero las campos que necesitamos para comparar las predicciones entre s y genera las tablas de Genes que podemos ver en la Tabla 3, la Tabla 5 y la Tabla 7.

Gene Strand 1 2 + 3 4 + 5 6 + 7 + 8 9 + 10 + 11 + 12 13 + 14 15 + 16 + 17 18 19 20 21 + 22 + 23 24 + 25 -

Exons 13 8 1 1 3 21 20 5 16 5 5 17 15 1 3 8 2 14 2 20 18 8 7 19 3

aa 831 391 83 118 352 852 793 656 500 153 250 768 547 66 92 305 125 841 110 763 919 416 625 724 133

Start 41674 43059 67334 70368 81910 101649 124281 188065 196679 225178 235718 279273 285391 322187 350209 367386 407539 435679 438786 464175 464676 518207 555104 575504 605993 en el

End 13095 63105 67083 70724 80704 119366 165378 166960 214387 234235 241678 248356 314949 321987 354513 386541 399341 410802 437667 442048 514888 544515 546749 601593 602682 fichero

Los candidatos fuertes conservan los criterios antes mencionados de forma muy parecida entre las predicciones de los tres programas, y por tanto tienen ms probabilidades de referirse al mismo gen, mientras que los candidatos menores, conservan al menos dos de los tres criterios de seleccin en al menos dos de los tres programas, lo que puede deberse bien a casos de genes con empalme alternativo15 (alternative splicing), o bien a casos de divisin de genes (split genes). Metodologa La forma en la que hemos llevado a cabo la seleccin ha sido la siguiente: Paso 1: Preparacin de datos comparables entre s. Hemos preparado tres pequeos scripts en Python que generan tablas con los campos: id, strand, exons, aa, start y end a partir de cada uno de los ficheros de prediccin de cada uno de los programas.
Tabla 8 | Campos utilizados para la primera comparativa entre las predicciones ab initio

Guardamos la prediccin raw_prediction_genscan.txt.

Fgenesh
Y por ltimo repetimos nuevamente el proceso con el programa fgenesh. Los parmetros que hemos utilizado son:
Tabla 6 | Parmetros Fgenesh

Organism Human
Tabla 7 | Prediccin de genes con Fgenesh

Gene Strand 1 2 + 3 + 4 5 + 6 + 7 + 8 9 + 10 + 11 12 13 + 14 15 16 17 18 + 19 20 21 +

Exons 13 4 1 2 8 7 14 2 16 6 1 16 6 10 2 14 5 5 1 2 12

aa 892 136 118 299 360 213 470 523 423 414 94 636 166 509 110 559 290 231 202 252 392

Start 41674 43447 70368 81910 111687 117265 143104 174903 179558 224461 239050 365279 368077 435679 438786 449601 477465 486419 538801 548147 568402

End 13095 46542 70724 80704 115246 119366 165378 166960 214387 234235 238766 239770 396126 410802 437667 442048 459461 514888 538193 546749 599328

id strand exons aa start end

Identificador de programa y nmero de gen Cadena de AND en la que se encuentra el gen Nmero de exones Nmero de aminocidos Coordenada del nucletido inicial del gen Coordenada del nucletido final del gen

Paso 2: Comparacin de los datos con Microsoft Excel. Hemos abierto las tablas anteriores con Microsoft Excel16 y se ha ordenado por los campos: Strand, Start y aa. y de forma manual se han seleccionado los candidatos que mejor se adaptaban a los criterios de seleccin. El resultado (Tabla 9) ha sido que solamente tres de los genes predichos comparten suficientes caractersticas como para hacer una apuesta inicial a falta de ms datos experimentales. Mientras que hemos conseguido marcar otros diez posibles genes que posiblemente sean reforzados, o no, en las subsiguientes fases de anlisis. En necesario comentar que con esta seleccin no se pretende excluir ninguna de las predicciones, sino obtener una primera aproximacin a los datos obtenidos antes de proceder a su complementacin con datos procedentes de protenas conocidas.

10 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN COMPUTACIONAL
Tabla 9 | Extracto de la tabla de seleccin de genes candidatos. Se puede consultar la tabla completa en el documento adjunto predicciones_ab_initio.xls.

Id geneid_4 genscan_4 fgenesh_3 geneid_6 fgenesh_5 geneid_7 fgenesh_6 fgenesh_9 genscan_9 geneid_11 genscan_10 genscan_1 fgenesh_1 geneid_5 genscan_5 fgenesh_4 fgenesh_8 genscan_8 geneid_9 geneid_13 genscan_14 genscan_18 fgenesh_14 geneid_17 genscan_19 fgenesh_15 geneid_18 fgenesh_16 geneid_21 fgenesh_20

Strand Exons aa + + + + + + + + + + + 1 1 1 9 8 6 7

Start

End

2.

119 70368 70724 CF1 118 70368 70724 CF1 118 70368 70724 CF1 362 86242 115246 CM1 360 111687 115246 CM1 210 115959 119366 CM2 213 117265 119366 CM2

organismos cercanos en los que s estuviera anotada, y por tanto podramos inferir mucha informacin a partir de ella. Debido a la degeneracin del cdigo gentico, es muy posible encontrar dos protenas con cadenas muy similares de aminocidos, pero muy diferentes secuencias de ADN, en cuyo caso blastn no arrojara ningn resultado remarcable.

16 423 179558 214387 CM3 16 500 196679 214387 CM3 5 5 154 225178 234235 CM4 153 225178 234235 CM4 41674 13095 CM5 41674 13095 CM5

Para que la bsqueda se realice entre cadenas de protenas, recordemos que nuestra secuencia debe ser traducida en cada uno de los seis marcos de lectura posible antes de la comparacin, lo que convierte el trabajo de blastx en una tarea mucho ms compleja y lenta de lo que sera para blastn.

Metodologa
La principal dificultad con la que nos hemos encontrado es que la larga longitud (606.048 bases) de nuestra secuencia, no permite utilizarla directamente como query en los servidores pblicos de blastx. Cualquier intento de alinear cadenas de gran tamao termina irremediablemente por producir un error debido a uso excesivo de CPU. Una forma de solucionarlo es la instalacin y ejecucin en un equipo local del paquete de programas Blast19. Su instalacin no supone dificultad alguna y existen versiones disponibles para prcticamente cualquier sistema operativo actual. Pero lo que s que supone un problema es la descarga de las bases de datos necesarias para su funcionamiento, que pueden superar fcilmente los 40Gb de informacin, tamao no excesivamente grande para un uso profesional, pero si algo prohibitivo si se dispone de una conexin relativamente lenta a internet. Por tanto, la solucin que se ha adoptado para obtener los alineamientos, es aprovechar los parmetros to y from, del servidor pblico, para procesar cada vez una porcin de la cadena, concretamente una dcima parte de ella. sta decisin no est exenta de efectos secundarios, puesto que en los puntos de corte se puede llegar a perder la continuidad de algunos exones y por tanto no aparecer significados en los alineamientos finales, pero como veremos a continuacin, ajustando algunos parmetros de blastx hemos obtenidos suficientes secuencias para aportar las evidencias necesarias a nuestras predicciones.

13 831 13 892 2 3 2 2 5 2 1 1

292 81910 80704 CF2 352 81910 80704 CF2 299 81910 80704 CF2 523 174903 166960 CM6 656 188065 166960 CM6 486 200691 166960 CM6 53 322145 321987 CM7 66 322187 321987 CM7

14 841 435679 410802 CM8 10 509 435679 410802 CM8 2 2 2 111 438786 437667 CF3 110 438786 437667 CF3 110 438786 437667 CF3

11 404 449601 442048 CM9 14 559 449601 442048 CM9 1 2 194 548147 547566 CM10 252 548147 546749 CM10

Bsqueda de protenas conocidas en nuestra secuencia con BLAST


Una forma de reforzar nuestras predicciones, consiste en la bsqueda de protenas conocidas, de la misma especie o cercanas, en nuestra secuencia17. Tenemos dos formas principales de afrontar esta tarea. Una comparar nuestra secuencia de ADN con otras secuencias de ADN en la base de datos de NCBI (blastn). Y otra, intentar una comparacin entre las posibles cadenas de aminocidos codificadas en nuestra secuencia y las secuencias de aminocidos de protenas conocidas (blastx18). Para ste trabajo nos hemos decantado por la segunda opcin (blastx) por los siguientes motivos: 1. Como bilogos, nos gustara saber todo lo que sea posible sobre la funcin de los genes que predecimos, de forma que la secuencia de la protena de nuestro gen, caso de no estar an anotada, podra ser similar a protenas de otros

Parmetros
De entre los parmetros seleccionados, cabe destacar los siguientes: 1. Database.- Se ha seleccionado la base de datos de protenas ms completa, la nr20, que est compuesta por las secuencias no redundantes de las protenas documentadas en GenPept, Swissport, PIR, PDF, PDB y NCBI RefSeq. 2. Organism.- Se ha limitado la bsqueda a especies cercanas al Homo Sapiens, concretamente al grupo de los primates, que incluye bases de datos de las siguientes especies: Callithrix jacchus, Homo sapiens, Macaca mulatta, Nomascus leucogenys, Pan troglodytes y Pongo abelii. 3. Exclusions.- Puesto que nuestro objetivo es la bsqueda de evidencias experimentales, he decidido excluir de los resultados los Modelos XM/XP y las secuencias de ejemplo (Uncultured/environmental).

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 11 de 25

ANOTACIN COMPUTACIONAL
4. Max target sequences.- Se ha establecido el lmite en 50. A la par que aceleraba la ejecucin de cada proceso, puesto que se han ejecutado 10 ejecuciones de blastx, esto generar suficientes alineamientos para apoyar las hiptesis de nuestras predicciones. Filter Low-complexity disabled21.- Tras una pequea fase inicial de ensayo y error con pequeas muestras, he detectado que dejar este filtro activo limitaba de forma considerable el nmero de resultados obtenidos. diferentes de genomas del grupo de los Primates incluyendo la propia especie Homo Sapiens.

La prediccin
Una vez que hemos recopilado las evidencias experimentales, tenemos que cruzarlas con las predicciones obtenidas ab initio. La forma de hacerlo ser crear intersecciones entre cajas de exones, de forma que los exones predichos que compartan algn porcentaje de secuencia en comn con algn exn de las evidencias experimentales pasarn el corte. Finalmente, los genes que hayan sobrevivido a dichas intersecciones sern los que compongan la prediccin final.

5.

Tabla 10 | Lista completa de la Parametrizacin utilizada en blastx para la obtencin de evidencias experimentales en la secuencia de estudio Query Secuencia ENm011 en formato fasta. From 1, 60606, 121210, 181814, 242418, 303022, 363626, 424230, 484834, 545438 (respectivamente en cada una de las 10 ejecuciones) To 60605, 121209, 181813, 242417, 303021, 363625, 424229 484833, 545437, 606048 (respectivamente en cada una de las 10 ejecuciones) Job Title ENm011 Fragmento n_de_10 - Primates - Not Models - Not Uncultured (sustituyendo n por los nmeros del 1 al 10 en cada ejecucin respectivamente) Database Non-redundant protein sequences (nr) Organism Primates (taxid:9443) Exclude Models (XM/XP) and Uncultured/environmental sample sequences: checked Max target sequences 50 Expect threshold 10 Word size 3 Max matches in a query 0 range Matrix BLOSUM62 Gap Costs Existence: 11 Extension: 1 Filter Filter low complexity regions: unchecked Mask Mask for lookup table only: unchecked Mask lower case letters: unchecked

Preparacin de las pistas


La herramienta que nos permite realizar este proceso es el Table Browser22 de UCSC. Para poder utilizar sta herramienta, lo primero que debemos hacer es preparar un fichero en formato GFF23 que contenga la descripcin de las cuatro pistas que vamos a utilizar como dato, una para cada una de las predicciones y otra para las evidencias. Una vez ms, necesitaremos preparar un pequeo script (predictions2gff.py) que lea los datos en cada uno de los formatos de origen y los guarde en el formato que necesitamos, y de nuevo lo haremos en Python, un lenguaje fcil de aprender pero no por ello carente de potencia. En los ficheros GFF generados, hemos incluido algunas sentencias para que el browser se situe directamente en la posicin que nos interesa, adems de hacer uso de la opcin de offset de los tracks para evitar tener que recalcular la posicin de inicio y fin de cada exn. Para la pista con las evidencias experimentales, primero hemos concatenado todos los ficheros hittable*.csv en uno solo, y hemos preparado otro script (hittable2gff.py) que construye el fichero GFF con la pista de los datos obtenidos con blastx. Una vez obtenidos los ficheros con las pistas, las subimos como Custom Tracks24(Figura 2) al Genome Browser de UCSC, y a partir de este momento estarn disponibles tanto para las operaciones de interseccin de cajas anteriormente mencionadas, como para su visualizacin en el browser como una pista ms.

Resultados
Los ficheros resultantes de cada una de las ejecuciones se han guardado de forma conjunta en una carpeta, aadindoles un subndice numerado del 01 al 10. Dichos ficheros contienen tanto los alineamientos completos de cada una de las coincidencias en formatos TXT, XML y CSV, como las estrategias utilizadas para encontrar cada uno de ellos en formato ASN. En total hemos recolectado ms de 1400 alineamientos pertenecientes a unas 52 anotaciones

Intersecciones
Realizaremos la seleccin de los mejores genes candidatos de la siguiente forma:

Figura 2 | Detalle de las predicciones de geneid, fgenesh, genscan y las evicencias obtenidas con blastx representadas en el Genome Browser como custom tracks

12 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN COMPUTACIONAL
Seleccin de los exones comunes a las tres predicciones
La herramienta Table browser no permite la interseccin de tres pistas simultneamente, as que debemos realizar esta operacin en dos pasos. Primero cruzamos la pista geneid con la pista fgenesh, especificando como formato de salida custom track y seleccionando que solamente queremos los exones. La pista resultado de esta operacin, la cruzamos con la pista genscan, obteniendo como resultado, el conjunto de 77 exones comunes a las tres predicciones (ver adjunto geneid_fgenesh_genscan_exons.txt). A partir de este fichero, reconstruimos de nuevo la prediccin de genes, de forma que ahora, los genes solo contienen exones comunes a las tres predicciones (ver adjunto common_prediction.txt). experimentales.

Prediccin final
Y de esta forma hemos obtenido la pista final prediction (ver adjunto final_prediction.txt) El resultado ha sido una prediccin de 13 genes (Figura 3), que evaluaremos en el siguiente bloque.

Exploracin de otras predicciones


Otros organismos han realizado ya predicciones sobre el genoma humano utilizando diferentes tcnicas y aplicaciones, incorporando sus resultados como pistas al UCSC Genome Brownser. Dos de ellos son SGP program, desarrollado en el Genome Bioinformatics Laboratory25 (GBL) y N-SCAN, realizado por el Computational Genomics Lab de la Universidad de St. Louis, MO, USA.

Homologa, incorporacin de la pista blastx


Hacemos ahora la interseccin de la pista common prediction con la pista de evidencias experimentales blastx. El efecto de esta operacin, ser la eliminacin de la prediccin de todos aquellos genes que no contengan al menos un exn que interseque con las evidencias

SGP Gene Predictions Using Mouse/Human Homology


Como hemos comentado, esta pista muestra las predicciones hechas por el programa SGP, desarrollado por el GBL, que es parte del grupo Research Programme on Biomedical Informatics 26 (GRIB) en el Instituto Municipal de Investigacin

Figura 3 | Comparativa de nuestra prediccin final, con SGP Gene Predictions Using Mouse/Human Homology y N-SCAN Gene Predictions

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 13 de 25

ANOTACIN COMPUTACIONAL
Mdica (IMIM) / Centro de Regulacin Genmica (CGR) de Barcelona. Para la prediccin de genes en una secuencia, SGP combina las predicciones ab initio de la aplicacin geneid, con comparaciones obtenidas con tblastx sobre otras secuencias genmicas. sta metodologa resulta ser muy parecida a la que se ha llevado a cabo en este proyecto, sin embargo podramos destacar dos hechos diferenciales: 1. En este proyecto, se han tenido en cuenta predicciones ab initio de tres aplicaciones (geneid, fgenesh y genscan) en vez de solo la generada por geneid. En nuestro proyecto, la bsqueda de secuencias se realiz con blastx y sobre el grupo completo de los primates, mientras que el SGP se utiliz tblastx y basndose en homologas sobre el genoma del ratn. N-SCAN combina el modelado de seales biolgicas en la secuencia genmica objetivo junto con informacin obtenida de un alineamiento en mltiples genomas para generar predicciones de novo.

Comparativa
Como podemos observar en la Figura 3, a excepcin de los genes GEN_1, GEN_9 y GEN_24, nuestra prediccin contiene genes mucho mas cortos que las otras dos pistas de predicciones. Esto podra ser un indicativo de que hemos sido demasiado estrictos al forzar que cada exn deba ser predicho por los tres programas de forma simultnea. Se podra relajar la condicin, conservando los exones que coincidan en dos de los tres programas, pero el efecto podra ser la obtencin de demasiados falsos positivos. Nos encontramos ante la coyuntura de, bien relajar las condiciones y correr el riesgo de predecir demasiados genes, o bien, tal y como hemos hecho, imponer unas condiciones muy estrictas y correr el riesgo de perder algn gen, o parte de l en la prediccin. Nosotros hemos optado por la segunda opcin. Veremos en el siguiente bloque, si la decisin ha sido correcta.

2.

N-SCAN Gene Predictions


sta pista muestra la prediccin obtenida por el Computational Genomics Lab con el software de prediccin de estructura gnica N-SCAN. N-SCAN es una evolucin de TWINSCAN27, que era un programa que combinaba blastn para la comparacin de secuencias y Genscan para la prediccin de genes.

14 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN ENCODE

Anotacin ENCODE
Estudio de la regin ENCODE ENm011 con el objetivo de validar la calidad de las predicciones obtenidas. Realizaremos un estudio inicial de las anotaciones hechas por los organismos RefSeq y GENCODE, realizando una pequea investigacin ontolgica, en busca de clsteres funcionales antes de pasar a una evaluacin de las predicciones obtenidas. Posteriormente realizaremos un estudio comparativo de los genes SIT8, TH y TNNI2, contenidos en la secuencia de estudio, en tres especies diferentes, humano, ratn y gallina, para comprobar su conservacin en el marco evolutivo. Y Finalmente, exploraremos las pistas ENCODE regulation y RNA-seq, como ejemplo la gran cantidad de anotaciones no proteicas que el proyecto ENCODE ha sacado a la luz, y de otras formas de anlisis de la expresin proteica.

Exploracin de las anotaciones de RefSeq y Gencode


Antes de proceder a la evaluacin de nuestra prediccin, vamos a realizar un estudio de los genes ya anotados tanto por RefSeq como por Gencode.

Para recuperar los nombres de los genes que necesitamos, debemos seleccionar la base de datos hg18, y hacer la correspondiente consulta sobre la tabla refGene31(Figura 4). Con lo que obtenemos el siguiente listado de genes anotados por refSeq (ver adjunto enm011_refseq.txt), que posteriormente utilizaremos para localizar clsteres funcionales: Genes anotados por RefSeq: MRPL23-AS1, LSP1, CTSD, IFITM10, SYT8, TNNI2, TNNT3, MRPL23, MIR4298, H19, MIR675, TH, IGF2-AS, IGF2, MIR4686, INS, INS-IGF2, MIR483, C11orf21, ASCL2, TSPAN32.

RefSeq
The Refefence Sequence28 (RefSeq) es una fundacin que proporciona una referencia estable tanto para la anotacin del genoma, como para identificacin y caracterizacin de genes, manteniendo una coleccin de anotaciones integra, comprensiva y no redundante de conjuntos de secuencias, incluyendo ADN, transcritos y protenas. Para obtener el conjunto de genes anotados por RefSeq, tan solo tenemos que mostrar la pista en el UCSC Genome Browser, posicionndonos en las coordenadas de nuestra regin de estudio (ENm011: chr11:1,699,992-2,306,039), obteniendo una imagen de dichos genes.

Gencode
Procedemos de forma anloga para obtener los genes anotados por GENCODE, y al mostrar la pista correspondiente, observamos que en realidad se activan dos pistas, una correspondiente a la anotacin manual, y otra correspondiente a la anotacin automtica. La tabla que contiene la anotacin automtica es wgEncodeGencodeAutoV3 y la tabla con la anotacin manual wgEncodeGencodeManualV3. Realizamos la consulta SQL (Figura 4) y obtenemos los siguientes listados (ver adjuntos enm011_encode_auto.txt y enm011_encode_manual.txt). Genes anotados por Gencode (Anotacin Automtica): LSP1, CTSD, , AC139143.1, SYT8, TNNI2, C11orf89, TNNT3, MRPL23, H19, hsa-mir675, AC123789.1, IGF2, hsa-mir-483, INS, TH, C11orf21, TSPAN32, U6 Genes anotados por Gencode (Anotacin Manual): LSP1, AC051649.5, AC068580.3, CTSD, AC068580.2, AC068580.4, AC068580.1, AC139143.2, AC139143.1, SYT8, TNNI2, AC051649.3, C11orf89, AC051649.4, TNNT3, MRPL23, AC051649.2, H19, IGF2, AC132217.2, INS, IGF2AS, TH, ASCL2, C11orf21, TSPAN32.

Figura 4 | Lneas de comando de linux que ejecutan consultas SQL directamente sobre las bases de datos de UCSC. $ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e "SELECT DISTINCT name2 FROM refGene WHERE chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18 > enm011_refseq.txt $ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e "SELECT DISTINCT name2 FROM wgEncodeGencodeAutoV3 WHERE chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18 > enm011_encode_auto.txt $ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e "SELECT DISTINCT name2 FROM wgEncodeGencodeManualV3 WHERE chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18 > enm011_encode_manual.txt

Para recuperar, el listado de genes anotados, vamos a hacer uso de una posibilidad muy interesante que nos permite el Table Browser. Se trata de la posibilidad de conectarnos directamente a las bases de datos de UCSC va MySQL29 y ejecutar nuestra propia consulta directamente30.

Anotacin funcional (Gene Ontology)


El proyecto Ontologa Gnica32 (GO), proporciona un una codificacin estndar para describir el gen y los atributos del producto gnico en cualquier organismo.

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 15 de 25

ANOTACIN ENCODE
Para encontrar las funciones con las que estn relacionados los genes anotados, haremos uso de la bsqueda avanzada del servidor AmiGO33. Como query utilizaremos los tres ficheros obtenidos en el apartado anterior, establecemos como tipo de bsqueda Genes or proteins, y como filtro de resultados establecemos las opciones que
Tabla 11 | Asociacin funcional de las proteinas de la regin ENm011.

detallamos en la Tabla 12. El propio servidor de AmiGO, nos permite seleccionar los 41 resultados obtenidos y exportarlos en un fichero tabulado de asociacin de genes fcilmente manipulable (ver adjunto enm011_amigo.txt). Podemos ver una representacin de los datos obtenidos en la Tabla 11, donde comprobamos que solo se han encontrado anotaciones funcionales para 13 de los genes.
Tabla 12 | Parametros utilizados en el servidor amiGO para la obtencin de los cdigos GO asociados a cada gen anotado de la regin ENm011

Protein ASCL2 Achaete-scute homolog 2 CTSD Cathepsin D IGF2 Insulin-like growth factor II

GO Annotation GO:0003700 : sequence-specific DNA binding transcription factor activity GO:0070888 : E-box binding GO:0043565 : sequence-specific DNA binding GO:0004190 : aspartic-type endopeptidase activity GO:0030546 : receptor activator activity GO:0008083 : growth factor activity GO:0005179 : hormone activity GO:0005515 : protein binding GO:0005158 : insulin receptor binding GO:0043539 : protein serine/threonine kinase activator activity GO:0005159 : insulin-like growth factor receptor binding GO:0005179 : hormone activity GO:0005179 : hormone activity GO:0005515 : protein binding GO:0005158 : insulin receptor binding GO:0005159 : insulin-like growth factor receptor binding GO:0005179 : hormone activity GO:0004871 : signal transducer activityGO:0003779 : actin binding GO:0003735 : structural constituent of ribosome GO:0003723 : RNA binding GO:0000166 : nucleotide binding GO:0048306 : calcium-dependent protein binding GO:0005215 : transporter activity GO:0016597 : amino acid binding GO:0004511 : tyrosine 3-monooxygenase activity GO:0005515 : protein binding GO:0034617 : tetrahydrobiopterin binding GO:0035240 : dopamine binding GO:0008199 : ferric iron binding GO:0016714 : oxidoreductase activity, acting on paired donors, with incorporation or reduction of molecular oxygen, reduced pteridine as one donor, and incorporation of one atom of oxygen GO:0008198 : ferrous iron binding GO:0005506 : iron ion binding GO:0019825 : oxygen binding GO:0019904 : protein domain specific binding GO:0005515 : protein binding GO:0031014 : troponin T binding GO:0003779 : actin binding GO:0048306 : calcium-dependent protein binding GO:0030899 : calcium-dependent ATPase activity GO:0030172 : troponin C binding GO:0005523 : tropomyosin binding GO:0003779 : actin bindingGO:0031013 : troponin I binding GO:0003674 : molecular_function

Query Match the query phrase(s) exactly Search Type Search fields Filter by Ontology Gene Product Type Data source Species Evidence Code

enm011_refseq.txt + enm011_gencode_auto.txt + enm011_gencode_manual.txt

Checked Genes or proteins all fields molecular function All All Homo Sapiens All

INS Insulin A chain INS Insulin INS-IGF2 Protein INS-IGF2 LSP1 Lymphocyte-specific protein 1 MRPL23 39S ribosomal protein L23, mitochondrial SYT8 Synaptotagmin-8 TH Tyrosine 3monooxygenase

Enriquecimiento de funciones
En ocasiones, los genes se presentan en clsteres34, es decir, genes que aparecen en el genoma con una cierta agrupacin o formacin, desempean funciones biolgicas similares. Podemos comprobar si los genes de nuestra regin presentan este tipo de agrupaciones, con ayuda de la aplicacin DAVID35. La forma de interaccionar con DAVID es muy similar a la del resto de aplicaciones bioinformticas con las que hemos trabajado hasta ahora, simplemente se rellenan los campos de un formulario web con los parmetros requeridos: Gene List Identifier List Type Specie
enm011_refseq.txt + enm011_gencode_auto.txt + enm011_gencode_manual.txt

OFFICIAL_GENE_SYMBOL Gene List Homo sapiens

De la lista de conjunta de genes, DAVID reconoce correctamente 16 IDs, y no consigue mapear 19.
Tabla 13 | Listado de genes de la regin ENm011 mapeados y no mapeados por la aplicacin DAVID. MAPPED CTSD ASCL2 C11orf89 TH SYT8 TSPAN32 LSP1 C11orf21 TNNT3 INS-IGF2 IGF2 INS UNMAPPED AC132217.2 MRPL23-AS1 AC051649.3 AC068580.4 hsa-mir-675 hsa-mir-483 AC068580.3 AC051649.4 AC139143.1 MIR4686 AC051649.2 AC068580.2

TNNI2 Troponin I, fast skeletal muscle TNNT3 Troponin T, fast skeletal muscle

TSPAN32 Tetraspanin-32

16 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN ENCODE
MIR675 H19 MRPL23 TNNI2 IGF2AS MIR483 AC123789.1 AC068580.1 IGF2-AS MIR4298 IFITM10 AC139143.2 AC051649.5

gen GEN_1 GEN_2 GEN_5 GEN_6 GEN_7 GEN_8 GEN_9 GEN_10 GEN_11 GEN_12

position chr11:1,713,0851,739,237 chr11:1,741,5931,741,665 chr11:1,780,6941,781,901 chr11:1,813,1981,815,237 chr11:1,818,2081,819,357 chr11:1,857,8921,865,369 chr11:1,866,9501,900,682 chr11:1,906,8731,912,725 chr11:1,925,1681,934,226 chr11:1,967,5361,967,583 chr11:2,110,7962,117,946 chr11:2,142,0382,149,592 chr11:2,280,6162,301,760

annotated genes AC068580.3, CTSD, MOB2, IFITM10 MOB2, CTSD AC139143.1 SYT8 TNNI2 LSP1 LSP1, C11orf89, TNNT3 TNNT3 MRPL23 AC051649.5, MRPL23-AS1 IGF2, INS, hsamir-483,INS-IGF2 TH TSPAN32

Tras una serie de ensayos con los parmetros que controlan que las anotaciones que deben ser tenidas en cuenta para formar clsteres, comprobamos que los mejores resultados se obtienen para los parmetros por defecto. DAVID reconoce tres clusters, de los cuales, solo los dos representados en la Tabla 15, muestran un Enrichment Score superior a 1.0. De nuevo, disponemos del fichero en formato tabulado (ver adjunto enm011_david_clusters.txt)

Tabla 14 | Functional Annotation Clustering 1 Classification Stringency: Medium Enrichment Score: 1.29 GO:0016023 cytoplasmic membrane-bounded vesicle GO:0031988 membrane-bounded vesicle GO:0031410 cytoplasmic vesicle GO:0031982 vesicle SYT CTS TH

GEN_16 GEN_18 GEN_24

GEN_1 - Mezcla de AC068580.3 y CTSD


El GEN_1 no parece una prediccin correcta. Se trata de un gen que comparte los ltimos exones de los genes que le preceden (AC068580.3, MOB2 y IFITM10) con los primeros exones del siguiente gen anotado (CTSD). Ver adjunto GEN_1-AC068580.3_CTSD_MOB2_IFITM10.pdf) Podra haberse tratado de la prediccin del gen MOB2, pero ha dado la casualidad de que dicho gen est cortado en la secuencia ENm011, y por tanto no era posible su prediccin completa.

Tabla 15 | Functional Annotation Clustering 2 Classification Stringency: Medium Enrichment Score: 1.24 GO:0015629 actin cytoskeleton GO:0003779 actin binding GO:0008092 cytoskeletal protein binding GO:0005856 cytoskeleton GO:0043228 non-membrane-bounded organelle GO:0043232 intracellular non-membrane-bounded organelle MRPL23 TNNT3 TNNI2

LSP1

GEN_2 - Exn final de CTSD


Aunque en nuestra prediccin, este corto gen aparece como independiente, solo encontramos alineamientos coincidentes, con el exn inicial de CTSD. Ver adjunto GEN_2-CTSD_MOB2.pdf

para cualquier tipo de proceso computerizado.

Evaluacin de las predicciones


Para poder evaluar las predicciones, lo primero que vamos a hacer, es tratar de identificar si alguno de nuestros genes se corresponde con alguna anotacin real. De esa forma sabremos que genes debemos comparar entre s. Activamos las pistas ENCODE (manual y automtica) y RefSeq del Genome Browser junto con nuestra pista final de predicciones y obtenemos las relaciones especificadas en la Table 16, obtenidas atendiendo a la regin del genoma en la que estn anotadas:
Tabla 16 | Relacin Genes predichos - Genes anotados. Las lneas con fondo rosa corresponden a genes cuya prediccin se puede considerar incorrecta, mientras que las lneas con fondo verde corresponden a genes cuya prediccin coincide en con genes anotados.

GEN_5 - Variante de AC139143.1


El gen 5 coincide en posicin de forma bastante exacta con el anotado por encode AC139143.1. Hemos seleccionado la variante anotada con el Vega Transcript: OTTHUMT00000105391 (36) para comprobar su alineamiento a nivel de nucletido. Ver adjunto GEN_5-AC139143.1.pdf y el fichero de alineamiento GEN_5-AC139143.1.clustalw.

GEN_6 - Variante de SYT8


Todos los exones del gen 6 coinciden con exones del gen SYST8 de alguna de sus variantes. El mayor parecido lo tiene con la variante anotada con el Vega Transcript: OTTHUMT00000320502 (37). Ver adjunto GEN_6-SYT8.pdf y el fichero de alineamiento GEN_6-SYT8.clustalw.

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 17 de 25

ANOTACIN ENCODE
GEN_7 - Variante de TNNI2
Todos los exones del gen 7 coinciden con los del gen TNNI2, El mayor parecido lo tiene con la variante anotada con el Vega Transcript: OTTHUMT00000034048 (38). Ver adjunto GEN_7TNNI2.pdf y el fichero de alineamiento GEN_7TNNI2.clustalw.

GEN_11 - Variante de MRPL23


Los exones del gen 11 coinciden de manera bastante exacta con uno de los genes anotados, el MRPL23. Realizaremos el alineamiento con la variante anotada con el Vega Transcript: OTTHUMT00000034765 (41). Ver adjunto GEN_11MRPL23.pdf y el fichero de alineamiento GEN_11MRPL23.clustalw.

GEN_8 - Variante de LSP1


Todos los exones del gen 8 coinciden con exones de la protena LSP1, aunque parece en esta prediccin hemos perdido el exn inicial. La variante de LSP1 que se parece ms a nuestra protena es la Vega Transcript: OTTHUMT00000142916 (39). Ver adjunto GEN_8-LSP1.pdf y el fichero de alineamiento GEN_8-LSP1.clustalw.

GEN_12 - Corta y sin alineamientos


El gen 12 est compuesto de un solo exn, que adems queda alineado nicamente con intrones de las anotaciones AC051649.5 Y MRPL23-AS1. Ver adjunto GEN_12-AC051649.5_MRPL23-AS1.pdf.

GEN_16 - Variante de IGF2


Los exones de este gen coinciden con los anotados para el IGF2. Para realizar el alineamiento, hemos seleccionado la variante anotada con el Vega Transcript: OTTHUMT00000026386 (42). Ver adjunto GEN_16-IGF2_INS_hsa-mir-483_INS-IGF2.pdf y el fichero de alineamiento GEN_16-IGF2_INS_hsamir-483_INS-IGF2.clustalw

GEN_9 - Mezcla de LSP1 y TNNT3


El gen 9 vuelve a ser una mezcla de exones de diferentes protenas, y parece contener exones terminales de LSP1 y exones iniciales de TNNT3. Ver adjunto GEN_9-LSP1_C11orf89_TNNT3.pdf.

GEN_10 - Variante de TNNT3


Este gen contiene los exones centrales de la protena TNNT3. Parece que se va confirmando la hiptesis de que nuestros criterios de seleccin de exones fueron demasiado restrictivos. Para realizar un alineamiento, hemos seleccionado la variante anotada con el Vega Transcript: OTTHUMT00000034756 (40). Ver adjunto GEN_10TNNT3.pdf y el fichero de alineamiento GEN_10TNNT3.clustalw.

GEN_18 - Variante de TH
Tenemos una coincidencia entre todos los exones del gen 18 y algunas de las variantes del anotado TH. El alineamiento lo hemos realizado con la variante anotada con el Vega Transcript: OTTHUMT00000026397 (43). Ver adjunto GEN_18TH.pdf y el fichero de alineamiento GEN_18TH.clustalw.

GEN_24 - Variante de TSPAN32


ste ltimo gen coincide con las variantes anotada del TSPAN32. Para el alineamiento hemos escogido el Vega Transcript: OTTHUMT00000026912 (44). Ver adjunto GEN_24-TSPAN32.pdf y el fichero de alineamiento GEN_24-TSPAN32.clustalw.

Figura 5 | Alineamiento con VISTA del gen SYT8 entre las especies humano, ratn y gallina.

Resumen de la evaluacin
Tras repasar el resultado del anlisis gen por gen de la prediccin, el resumen es que 9 de los 13 genes predichos conservan suficiente parecido con genes anotados. Todos y cada uno de los 9 genes predichos correctamente, conservan el ncleo central de la protena que codifican, (posiblemente el ncleo funcional), aunque en prcticamente todos, la prediccin carece del exn inicial, el terminal o ambos. ste hecho nos refuerza en la idea de que en la fase de prediccin ab initio, fuimos demasiado rigurosos en la seleccin de exones, y que para futuros estudios, posiblemente sea mejor utilizar el criterio dos de tres, en vez de tres de tres, para considerar la prediccin de un exn como vlida.

Conservacin entre especies


Realizaremos ahora un pequeo estudio de la conservacin de tres de los genes codificados en la regin ENm011, entre tres especies diferentes: humano, ratn y gallina.

18 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN ENCODE
Figura 7 | Cdigo de colores de la superpista ENCODE Regulation para las lneas de clulas de cada sub-pista.

Nos ayudaremos para el ejercicio de la aplicacin VISTA Browser, que forma parte del conjunto de herramientas proporcionadas por el servidor VISTA45. El VISTA Browser es una aplicacin programada en Java, que permite examinar un conjunto de alineamientos pre-calculados entre el genoma completo de un amplio conjunto de especies.

SYT8
El gen SYT8 en humanos est compuesto de 9 exones, de los que 7 se conservan en el ratn y solo 3 en la gallina (ver Figura 4 y adjunto vista-syt8human-mouse-chicken.jpg.

Transcription ENCODE Transcription Levels Assayed by RNA-seq on 6 Cell Lines Layered ENCODE Enhancer- and H3K4Me1 Promoter-Associated Histone Mark (H3K4Me1) on 8 Cell Lines Enhanced ENCODE Enhancer- and H3K27Ac Promoter-Associated Histone Mark (H3K27Ac) on 8 Cell Lines Layered ENCODE Promoter-Associated H3K4Me3 Histone Mark (H3K4Me3) on 9 Cell Lines DNase ENCODE Digital DNaseI Clusters Hypersensitivity Clusters Txn Factor ENCODE Transcription Factor ChIP ChIP-seq Las pistas estn reguladas por un cdigo de colores (Figura 7), en el que cada color representa una lnea celular. Para poder mostrar la actividad de varias lneas celulares en una sola pista, dichos colores se aplican con transparencias. La pista Transcription, muestra los niveles ensayados por el ARN-seq en seis lneas de clulas: Gm12878, H1 ES, HepG2, HUVEC, K562 y NHEK. En un anlisis visual, observamos cuatro zonas de gran actividad, que se corresponden precisamente con exones de genes anotados por ENCODE (ver Tabla 17)
Tabla 17 | Tabla de mxima actividad de las lneas celulares analizadas en la pista Transcription de la Super-pista ENCODE Regulation, y los genes anotados por ENCODE en esas zonas actividad. GEN CTSD LSP1 MRPL23 IGF2 LINEA CELULAR Gm12878, H1 ES, HepG2, HUVEC, K562, NHEK Gm12878 Gm12878, H1 ES, HepG2, HUVEC, K562, NHEK Gm12878, HepG2

TH
El gen TH en humanos est compuesto de 14 exones, 13 de ellos an se conservan en el ratn, y la gallina an conserva 11 en comn con nosotros. Ver adjunto vista-th-human-mouse-chicken.jpg.

TNNI2
En humanos el gen TNNI2 se compone de 7 exones, de los que 6 an se conservan en el ratn y 5 en la gallina. Ver adjunto vista-tnni2-human-mousechicken.jpg. En este pequeo estudio podemos observar como la conservacin de exones entre protenas se va perdiendo cuanto ms alejada est en el rbol evolutivo la rama comn que une las especies.

La superpista ENCODE Regulation


El 20 de agosto de 2010, ENCODE anunciaba46 la publicacin en el UCSC Genome Browser de una nueva super-pista que integraba todas las pistas relacionadas con el mecanismo de activacin y desactivacin de genes a nivel transcripcional. Actualmente la superpista se compone de solo seis pistas, que son simplemente una seleccin de las que contienen datos de inters general.

Por otro lado, sabemos que las modificaciones qumicas en las histonas presentes en la cromatina influencian la expresin gnica alterando la accesibilidad de la cromatina para su transcripcin.

Figura 6 | Super-pista ENCODE Integrated Regulation posicionada en la regin ENm011

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 19 de 25

ANOTACIN ENCODE
Las pistas Layered H3K4Me1, Enhanced H3K27AC y Layered H3k4Me3, muestran el nivel de enriquecimiento de una marca histnica concreta a lo largo del genoma para un grupo de lneas celulares. Examinando estas pistas, hemos observado dos hechos concretos: 1. Las pistas muestran zonas de mxima actividad en las regiones inmediatamente anteriores, y a lo largo del primer exn de protenas anotadas. 2. Existen otras zonas de gran actividad que no se alinean con ninguna protena anotada. Al tratarse de zonas reguladoras, la primera de las observaciones tiene cierto sentido en s misma, mientras que para encontrar una explicacin a la segunda observacin, tendramos que recurrir a la estructura 3D del genoma, lo que explicara como zonas alejadas de una protena en realidad ejerzan como regiones reguladoras de la misma. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Muscle Colon Adipose Testes Lymph Node Breast BT474 - Breast Tumour Cell Line HME - Human Mammary Epithelial Cell Line MCF7 - Breast Adenocarcinoma Cell Line MB-435 - Breast Ductal Adenocarcinoma Cell Line(*) 14. T-47D - Breast Ductal Carcinoma Cell Line

LSP1, TNNT3 y cncer de mama


Este tipo de pistas muestran de forma muy grfica la manera en la que se expresan las protenas, y basndonos en ello y ya que disponemos de evidencias de varias lneas celulares que presentan cncer de mama (BT474, HME, MCF7 y T-47D), y su contrapartida sana (Breast), vamos a realizar un pequeo experimento.

Figura 8 | Detalle de en la regin comprendida entre la protena LSP1 y TNNT3, en la que se observa un claro cese de expresin proteica al comparar la pista Breast (sana) con las pistas pertenecienes a lneas celulares afectas por cancer: BT474, HME, MCF7 y T47D.

Expresin diferencial de las protenas LSP1 y TNNT3, entre las muestras sanas y las muestras afectadas por cncer de mama.

Pista Burge RNA-seq


ARN-seq es un mtodo de mapear y cuantificar el transcriptoma de organismos basados en ADN. El mtodo que se utiliza para obtener estas pistas de datos es la transcripcn inversa de muestras de ARN en cADN, seguido de una secuenciacin de ADN de alto rendimiento en un Illumina Genome Anlyser47. La pista Burge muestra el ARN-seq publicado por el laboratorio de Chris Burge en 2008, mapeado en el genoma utilizando el GEM Mapper48 de Guig lab en el Centro para la Regulacin Genmica (CRG). Las subpistas muestras el ARN-seq para varios conjuntos de tejidos/lneas celulares: 1. 2. 3. Brain Liver Heart

Mostraremos esas pistas junto con la pista de genes anotados por ENCODE en nuestra regin de estudio ENm011, y observaremos, primero, si la actividad de las pistas Burge se alinea con los genes anotados, y segundo de ser as, si la actividad se presenta de modo diferencial entre las subpistas afectadas por la enfermedad, y la subpista sana breast (ver Figura 7). Si nos fijamos en la regin comprendida entre la protena LSP1 y TNNT3, observamos un claro cese de expresin proteica al comparar la pista sana (Breast) con las pistas pertenecientes a lneas celulares afectas por cncer (BT474, HME, MCF7 y T47D). Esto indica que de alguna forma, mutaciones en los gens LSP1, TNNT3, o en las regiones reguladoras de
*

Estudios posteriores, han demostrado que la lnea de clulas MDA-MB-435 utilizada en el experimento, estaba contaminada con la lnea celular M14 melanoma, por lo que se ha excluido del anlisis.

20 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

ANOTACIN ENCODE
los mismos, impiden la correcta expresin de estas protenas, lo que podra ser un buen punto de partida para una investigacin ms profunda de estas protenas en relacin con el riesgo de padecer cncer de mama. Realizar estos experimentos queda fuera del alcance de este proyecto, pero una bsqueda rpida en Google, es suficiente para comprobar que nuestra hiptesis se acerca bastante a la realidad, puesto que encontramos una gran cantidad de trabajos cientficos que relacionan mutaciones en estas protenas con la enfermedad citada.

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Anotacin Genmica de la regin ENCODE ENm011 | 21 de 25

CONCLUSIONES Y REFLEXIONES FINALES

Conclusin y Reflexiones finales


Comentaremos a continuacin un conjunto de ideas y reflexiones surgidas a lo largo del desarrollo del proyecto, que van desde simples conclusiones lgicas, derivadas de los resultados obtenidos, hasta pequeas reflexiones que rozan lo filosfico, y que son fruto de las dificultades a las que nos hemos tenido que enfrentar y resolver para la resolucin del mismo.

Conclusiones
Sobre los resultados
Tal y como sospechamos al final del primer bloque, las predicciones obtenidas han adolecido de una seleccin de exones demasiado exigente, lo que ha provocado que en la mayora de las protenas predichas se hayan perdido los exones iniciales, finales o ambos, conservando solamente el ncleo central de la misma. Las predicciones ab initio, tienen dificultades para separar los genes que se encuentran muy prximos en el genoma, y ms de una ocasin, han concatenado los exones terminales de un gen, con los iniciales del siguiente.

preguntamos si no estaremos aadiendo un montn de aminocidos a una protena que nunca llegan a darse como producto real. A esto hay que aadir los problemas planteados por las isoformas, el ayuste alternativo, la solapacin de diferentes productos en la misma region... Desde la perspectiva aportada por este proyecto, no veo posible de momento la delegacin de la prediccin completa de genomas a procesos ntegramente automatizados, y una prueba de ello la ofrecen las pistas del propio ENCODE, cuyas pistas de anotacin manual tienen ms del doble de genes que las pistas de anotacin automtica. Creo que podramos establecer un smil entre la evolucin de los programas de prediccin de genes ab initio y los programas que juegan al ajedrez. Los primeros programas de ajedrez movan correctamente las piezas, pero en general eran malos jugadores. Los programas de prediccin gnica han superado esta fase hace tiempo. En una segunda fase, los programas de ajedrez se volvieron materialistas, no se dejaban piezas, era relativamente difcil ganarles para un aficionado, pero no eran capaces de ver el conjunto de la partida como un todo, y fallaban estrepitosamente frente a un experto jugador. En este estado est actualmente la prediccin ab initio. Son capaces de encontrar y seleccionar exones con gran exactitud, y estructuran genes correctamente, aunque no de forma perfecta y al coste de incluir bastantes falsos positivos que deben ser filtrados de forma manual por los expertos humanos dedicados a la bioinformtica. En la actualidad, los programas de ajedrez ya han alcanzado el nivel de los grandes maestros y han superado a los mejores jugadores del mundo. Cundo alcanzar este nivel el software de prediccin de genes?

Sobre el software de prediccin ab initio


La primera impresin al utilizar los programas de prediccin ab initio es de sorpresa, puesto que demuestran una gran habilidad para realizar predicciones muy aproximadas, acertando prcticamente siempre en los exones que formarn parte de las protenas. Pero, una vez que comienzan los anlisis minuciosos de cada prediccin, esas pequeas diferencias entre ellos, se convierten en un gran rompecabezas, dada la gran cantidad de combinaciones posibles que generan, entre las que no es sencillo seleccionar una opcin u otra de forma automtica. El problema principal al que me he enfrentado es el no saber qu hacer cuando las predicciones ofertaban como genes separados exones que en otras predicciones aparecan como pertenecientes al mismo gen. Los mecanismos de interseccin automtica de pistas no son efectivos en estos casos, porque los exones no son eliminados (dado que pertenecen a algn gen, y estn predichos por los tres programas). En esta situacin solo se me ocurre una intervencin manual para mejorar la anotacin, y esto ya requiere de una experiencia que solo puede ser adquirida tras la realizacin de muchas predicciones.

Sobre la sobredosis de informacin


Por si esto fuera poco, existen una gran cantidad de organismos que por separado se dedican a la prediccin y anotacin de genes cada una por su cuenta. Esto ltimo, sera una ventaja si existiera una normalizacin reglamentada a la hora de dar nombres a los genes. Lo que ocurre ahora es que el resultado de cualquier consulta sobre los servidores habituales, est repleta de genes etiquetados como "uncultured", "hypotetical" o "predicted".

Sobre la anotacin de genes


Es realmente difcil anotar un gen. Cada vez que eliminamos un exn de la prediccin, nos surge la duda de si no se tratara en realidad de un exn implicado en algn ajuste alternativo an no descubierto, y cada vez que aadimos un exn a una prediccin, nos surge la duda contraria, y nos

23 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

CONCLUSIONES Y REFLEXIONES FINALES


La consecuencia directa es que, si no tenemos cuidado, terminamos por utilizar como evidencias experimentales, datos que no lo son, y por tanto las predicciones se van auto degenerando, en un crculo vicioso de anotacin - prediccin. Un efecto secundario de esto, es la necesidad de la creacin de servidores casi ntegramente dedicados al cruce de referencias. Se trata de bases de datos gigantescas que luchan a diario por permanecer actualizadas y ofrecer las equivalencias entre los nombres y enlaces de los productos anotados por cada uno de los organismos dedicados a este campo. Es por tanto cada vez ms necesario y urgente, la creacin de algn tipo de estndar mundial que se dedique a la estandarizacin y normalizacin de la bioinformtica, y no solo me estoy refiriendo a la nomenclatura de los genes, sino a los formatos de los ficheros de intercambio de informacin entre aplicaciones, que son casi tan numerosos como aplicaciones existentes.

Consideraciones
Muchas de las dificultades anteriormente comentadas, surgen de un intento de mxima automatizacin de procesos, evitando en la medida de lo posible la intervencin manual, ms all de la aplicacin de un formato, ms o menos atractivo, a algunas tablas representadas en este documento. Para la realizacin del proyecto, ha sido necesaria una gran cantidad de ficheros auxiliares, a los que se hace alusin puntualmente a lo largo de todo el texto. La inclusin de los mismos en el cuerpo de este documento solo habra entorpecido la redaccin y lectura del mismo, y adems, dado el carcter informtico de los mismos, puesto que la mayora son resultados de ejecucin de aplicaciones o fichero de entrada para las mismas, o imgenes demasiado grandes, no son apropiados para su inclusin en documentos impresos. En cualquier caso todos ellos estn disponible en forma de ficheros adjuntos en un archivo comprimido que acompaa este proyecto.

Sobre el trabajo til


No me gustara pasar por alto la sorpresa final que me he llevado al examinar la pista Burge RNA-seq y comprobar que los conceptos aprendidos durante el curso de Postgrado, han sido suficientes para realizar una primera hiptesis til, al detectar una posible relacin entre las protenas LSP1, TNNT3 y el riesgo a padecer cncer de mama. Me ha resultado muy gratificante comprobar como los conceptos biolgicos se van asentando en mi cabeza de informtico, y como poco a poco, voy siendo capaz de obtener conclusiones aplicables al mundo real, que sirven para solucionar problemas reales, algo que cuando trabajas muchas horas delante del ordenador, como es mi caso, se puede llegar a perder de vista fcilmente.

Reflexin final
Tal y como hemos visto en el la introduccin del proyecto, la definicin de gen necesita seguir evolucionando, como si de un ser vivo se tratara, a la par que nuestros conocimientos sobre la estructura y funcionalidad del genoma, hasta que llegue un momento en el que todos seamos capaces de tener claro a que nos referimos cuando pronunciamos la palabra gen.

24 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

REFERENCIAS Y BLIBIOGRAFA

Referencias y Bibliografa
The ENCODE project: ENCyclopedia Of DNA Elements http://www.genome.gov/10005107 2 Birney, E., J. A. Stamatoyannopoulos, et al. (2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project." Nature 447(7146): 799-816. http://www.genome.gov/Pages/Research/ENCODE/nature05874.pdf 3 Gerstein, M. B., C. Bruce, et al. (2007). "What is a gene, post-ENCODE? History and updated definition." Genome Res 17(6): 669-81. http://genome.cshlp.org/content/17/6/669.full 4 About the Human Genome Project http://www.ornl.gov/sci/techresources/Human_Genome/project/about. shtml 5 Nature 429, 365-368 (27 May 2004) | doi:10.1038/nature02390; Received 24 October 2003; Accepted 26 January 2004 http://www.nature.com/nature/journal/v429/n6990/full/nature02390. html 6 modENCODE The modENCODE Project will try to identify all of the sequence-based functional elements in the Caenorhabditis elegans and Drosophila melanogaster genomes http://www.modencode.org/ 7 Blast Developer information http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDoc s&DOC_TYPE=DeveloperInfo 8 Geneid Source code and distribution http://genome.crg.es/software/geneid/index.html#code 9 The modENCODE consortium. Unlocking the Secrets of the Genome. Nature 2009 Jun 18;459(7249):927-30. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2843545/ 10 UCSC Genombe Bioinformatics http://genome.ucsc.edu/ 11 UCSC Genome Brouser on Human Mar. 2006 (NCBI36/hg18) Assemby http://genome.ucsc.edu/encode/encode.hg18.html 12 geneid 1.2 Web Server 2005 http://genome.crg.es/geneid.html 13 The GENSCAN Web Server at MIT http://genes.mit.edu/GENSCAN.html 14 FGENESH http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=progra ms&subgroup=gfind 15 Empalme alternativo (alternative splicing) http://es.wikipedia.org/wiki/Splicing_alternativo 16 Microsoft Excel http://office.microsoft.com/es-es/excel/ 17 Using native and synthetically mapped cDNA alignments to improve de novo gene finding Mario Stake, Mark Diekhans, Robert Baertsch and David Haussler Vol. 24 no. 5 2008, pages 637-644 |doi:10.1093/bioinformatics/btn013 http://bioinformatics.oxfordjournals.org/content/24/5/637.full.pdf 18 Blastx 2.2.26 Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. http://www.ncbi.nlm.nih.gov/pubmed/9254694?dopt=Citation 19 Download BLAST Software and Databases http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDoc s&DOC_TYPE=Download 20 The BLAST Databases available descriptions ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html 21 BLAST Filter Filter (Lowcomplexity) http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#filter 22 UCSC Table Browser User's Guide http://genome.ucsc.edu/goldenPath/help/hgTablesHelp.html 23 GFF format (General Feature Format) http://genome.ucsc.edu/FAQ/FAQformat.html#format3 24 UCSC Manage Custom Tracks http://genome.ucsc.edu/cgibin/hgCustom 25 Bioinformatics and Genomics home page http://big.crg.cat/bioinformatics_and_genomics 26 The Research Programme on Biomedical Informatics (GRIB) http://grib.imim.es/
1

Genmica comparativa y prediccin de genes Roderic Guig i Serra Centro de Regulacin Genmica de Barcelona http://www.institutoroche.es/Biotecnologia_bioinformatica/V11.html 28 NCBI The Reference Sequence (RefSeq) http://www.ncbi.nlm.nih.gov/RefSeq/ 29 MySQL Documentation: MySQL Reference Manuals http://dev.mysql.com/doc/ 30 UCSC Table Browser Direct MySQL Access to data http://genome.ucsc.edu/FAQ/FAQdownloads#download29 31 UCSC Table Browser Schema for RefSeq Genes http://genome.ucsc.edu/cgi-bin/hgTables 32 The Gene Ontology http://www.geneontology.org/ 33 The Gene Ontology Advanced Search http://amigo.geneontology.org/cgibin/amigo/search.cgi?action=advanced_query&session_id=2749amigo13 42118152 34 Wikipedia Gene cluster http://en.wikipedia.org/wiki/Gene_cluster 35 DAVID Bioinformatics Resources 6.7 http://david.abcc.ncifcrf.gov/ 36 Vega Transcript summary actin pseudogene http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000045387;r=11:1824119-1825325;t=OTTHUMT00000105391 37 Vega Transcript summary synaptotagmin VIII http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009026;r=11:1856221-1858751;t=OTTHUMT00000320502 38 Vega Transcript summary troponin I type 2 (skeletal, fast) http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012253;r=11:1861424-1862908;t=OTTHUMT00000034048 39 Vega Transcript summary lymphocyte-specific protein 1 http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012252;r=11:1897707-1908096;t=OTTHUMT00000142916 40 Vega Transcript summary troponin type 3 (skeletal, fast) http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012475;r=11:1940792-1959936;t=OTTHUMT00000034756 41 Vega Transcript summary mitochondrial ribosomal protein L23 http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012476;r=11:1968508-1977839;t=OTTHUMT00000034765 42 Vega Transcript summary insulin-like growth factor 2 (somatomedin A) http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009395;r=11:2153903-2162246;t=OTTHUMT00000026386 43 Vega Transcript summary tyrosine hydroxylase http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009559;r=11:2185159-2193107;t=OTTHUMT00000026397 44 Vega Transcript summary tetraspanim 32 http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009762;r=11:2323243-2339372;t=OTTHUMT00000026912 45 VISTA Tools for Comparative Genomics http://genome.lbl.gov/vista/index.shtml 46 ENCODE Data Coordination Center at UCSC 20 August 2010 New ENCODE Integrated Regulation Super-track Released http://genome.ucsc.edu/ENCODE/newsarch.html#2004 47 Illumina Genome Analyzer http://www.illumina.com/systems/genome_analyzer_iix.ilmn 48 The GEM mapper: faster and more accurate alignment of highthroughput sequencing reads http://barnaserver.com/ribeca/NM/
27

25 de 25 | Fernando Garca Huerta

Proyecto fin de Postgrado | Bioinformtica Octubre 2011

Vous aimerez peut-être aussi