Académique Documents
Professionnel Documents
Culture Documents
5 20 14 39 20 58
A Enrique Blanco Garca, que me hizo ver que un script a tiempo es til mil veces. A Dorcas Orengo Ferriz, que me enseo la importancia del uso correcto de los conceptos. A Alexandre Snchez Pla por su capacidad para ver el orden donde los dems solo vemos caos. Y sobre todo a Alejandra, por aguantar lo indecible y aportar sentido a mi vida, todos y cada uno de los das.
TABLA DE CONTENIDO
ESTADO DEL ARTE ................................................................................................................................................................................................................. 5 EL GEN ANTES DE ENCODE ..................................................................................................................................................................................................... 5 EL PROYECTO ENCODE ........................................................................................................................................................................................................... 6 EL GEN DESPUS DE ENCODE .................................................................................................................................................................................................. 6 ENCODE DESPUS DE ENCODE .............................................................................................................................................................................................. 7 ENCODE y modENCODE..................................................................................................................................................................................................... 7 Una nueva forma de investigar.............................................................................................................................................................................................. 7 Open Source ...................................................................................................................................................................................................................... 7 Redes sociales.................................................................................................................................................................................................................... 7 ANOTACIN COMPUTACIONAL ......................................................................................................................................................................................... 9 EXTRACCIN DE LA SECUENCIA ENM011 ................................................................................................................................................................................. 9 PREDICCIN AB INITIO................................................................................................................................................................................................................ 9 Geneid ................................................................................................................................................................................................................................... 9 Genscan ................................................................................................................................................................................................................................. 9 Fgenesh ............................................................................................................................................................................................................................... 10 Un primer vistazo ................................................................................................................................................................................................................ 10 BSQUEDA DE PROTENAS CONOCIDAS EN NUESTRA SECUENCIA CON BLAST ...................................................................................................................... 11 Metodologa ........................................................................................................................................................................................................................ 11 Parmetros .......................................................................................................................................................................................................................... 11 Resultados ........................................................................................................................................................................................................................... 12 LA PREDICCIN ....................................................................................................................................................................................................................... 12 Preparacin de las pistas .................................................................................................................................................................................................... 12 Intersecciones ...................................................................................................................................................................................................................... 12 Seleccin de los exones comunes a las tres predicciones................................................................................................................................................. 13 Homologa, incorporacin de la pista blastx .................................................................................................................................................................... 13 Prediccin final ................................................................................................................................................................................................................... 13 EXPLORACIN DE OTRAS PREDICCIONES ................................................................................................................................................................................. 13 SGP Gene Predictions Using Mouse/Human Homology ..................................................................................................................................................... 13 N-SCAN Gene Predictions .............................................................................................................................................................................................. 14 Comparativa .................................................................................................................................................................................................................... 14 ANOTACIN ENCODE .......................................................................................................................................................................................................... 15 EXPLORACIN DE LAS ANOTACIONES DE REFSEQ Y GENCODE .............................................................................................................................................. 15 RefSeq.................................................................................................................................................................................................................................. 15 Gencode............................................................................................................................................................................................................................... 15 ANOTACIN FUNCIONAL (GENE ONTOLOGY) ......................................................................................................................................................................... 15 Enriquecimiento de funciones.............................................................................................................................................................................................. 16 EVALUACIN DE LAS PREDICCIONES ....................................................................................................................................................................................... 17 GEN_1 - Mezcla de AC068580.3 y CTSD ........................................................................................................................................................................... 17 GEN_2 - Exn final de CTSD .............................................................................................................................................................................................. 17 GEN_5 - Variante de AC139143.1 ...................................................................................................................................................................................... 17 GEN_6 - Variante de SYT8 .................................................................................................................................................................................................. 17 GEN_7 - Variante de TNNI2 ............................................................................................................................................................................................... 18 GEN_8 - Variante de LSP1 ................................................................................................................................................................................................. 18 GEN_9 - Mezcla de LSP1 y TNNT3..................................................................................................................................................................................... 18 GEN_10 - Variante de TNNT3 ............................................................................................................................................................................................ 18 GEN_11 - Variante de MRPL23 .......................................................................................................................................................................................... 18 GEN_12 - Corta y sin alineamientos ................................................................................................................................................................................... 18 GEN_16 - Variante de IGF2 ............................................................................................................................................................................................... 18 GEN_18 - Variante de TH ................................................................................................................................................................................................... 18 GEN_24 - Variante de TSPAN32 ........................................................................................................................................................................................ 18 Resumen de la evaluacin ................................................................................................................................................................................................... 18 CONSERVACIN ENTRE ESPECIES ............................................................................................................................................................................................ 18 SYT8 .................................................................................................................................................................................................................................... 19 TH ....................................................................................................................................................................................................................................... 19 TNNI2 .................................................................................................................................................................................................................................. 19 LA SUPERPISTA ENCODE REGULATION ................................................................................................................................................................................. 19 PISTA BURGE RNA-SEQ .......................................................................................................................................................................................................... 20 LSP1, TNNT3 y cncer de mama ......................................................................................................................................................................................... 20 CONCLUSIN Y REFLEXIONES FINALES ....................................................................................................................................................................... 23 CONCLUSIONES ....................................................................................................................................................................................................................... 23 Sobre los resultados ............................................................................................................................................................................................................ 23 Sobre el software de prediccin ab initio ............................................................................................................................................................................ 23 Sobre la anotacin de genes ................................................................................................................................................................................................ 23 Sobre la sobredosis de informacin..................................................................................................................................................................................... 23 Sobre el trabajo til ............................................................................................................................................................................................................. 24 CONSIDERACIONES .................................................................................................................................................................................................................. 24 REFLEXIN FINAL .................................................................................................................................................................................................................... 24 REFERENCIAS Y BIBLIOGRAFA ...................................................................................................................................................................................... 25
como mecanismo hereditario, y en 1955, Hershey y Chase, demostraron que la sustancia que realmente era transmitida por las bacterias a sus descendientes era ADN y no protenas.
"cdigo transcrito"
A partir de la dcada de 1960 los acontecimientos ser fueron acelerando. Nirenberg y Sll descubren el cdigo gentico, que explica como los transcritos de ARN se traducen en las secuencias de aminocidos que forman las protenas. Pero tambin se puso de manifiesto que algunos genes no codificaban para protenas, sino para algn otro subproducto celular, comenzando a acuarse el concepto de gen como fragmento de nucletidos que daban lugar a productos celulares funcionales.
GREGOR JOHANN MENDEL (20 de julio de 18221 6 de enero de 1884) fue un monje agustino catlico y naturalista nacido en Heinzendorf, Austria que describi, por medio de los trabajos que llev a cabo con diferentes variedades del guisante, las hoy llamadas leyes de Mendel que rigen la herencia gentica. Su trabajo no fue valorado cuando lo public en el ao 1866. Hugo de Vries, botnico neerlands, Carl Correns y Erich von Tschermak redescubrieron por separado las leyes de Mendel en el ao 1900 CDIGO GENTICO El cdigo gentico es el conjunto de reglas usadas para traducir la secuencia de ARNm a secuencia de protena. En 1961, el experimento realizado por Francis Crick, Sydney Brenner y Leslie Barnett and Watts-Tobin demostr que el cdigo gentico era un cdigo regido por tripletes, de forma que cada tres bases de ARNm codificaban para un aminocido. La correspondencia de cada triplete con su aminocido se fue dilucidando posteriormente en diversos pasos por distintos autores.
Evento Descripcin Regulacin, localizacin y estructura Genes Intrnicos Genes localizados en intrones de otros genes ORF superpuestos La misma regin de ADN puede codificar diferentes productos dependiendo del frame de lectura Potenciadores y silenciadores Los reguladores que afectan a la expresin de un gen pueden estar localizados muy lejos en el ADN. Variacin estructural Elementos mviles Un elemento gentico puede aparecer en nuevas posiciones con las generaciones Reordenamientos y variaciones La estructura puede diferir entre individuos estructurales Variacin del nmero de copias El nmero de copias de un gen puede diferir entre individuos Epigentica y estructura del cromosoma Modificaciones epigenticas La expresin de un gen puede depender de su origen paterno o materno, lo que implica que el fenotipo no est estrictamente determinado por el genotipo. Efectos de la estructura de la La expresin de un gen depende el cromatina empaquetamiento de la molcula de ADN. La secuencia de ADN no es suficiente para la prediccin gentica. Eventos post-transcripcionales Empalme alternativo de ARN Se pueden obtener mltiples productos de un solo locus. Productos empalmados Dos productos de empalme alternativo de prealternativamente con los mARN producen productos sin ninguna secuencia marcos de lectura alternativos en comn. Trans-empalme de ARN Una protena puede ser el resultado de la combinacin de mltiples transcritos. Modificacin de ARN El ARN es modificado enzimticamente. Eventos post-traduccin Empalmes proteicos y El comienzo y fin de una protena no est polyprotenas virales determinado por el cdigo gentico. Modificacion de proteinas La protena altera su estructura y la funcin del producto final, lo que implica que su secuencia no es directamente la codificada en el ADN. Pseudogenes y Retrogenes Retrogenes Genes formados a partir de la transcripcin inversa ARN => ADN Transcripcin de pseudogenes Hay actividad bioqumica de elementos supuestamente inertes. genes que codifican protenas, y todas ellas se enfrentaban con dificultades para englobar todo un conjunto de resultados experimentales que afectaban directa o indirectamente al concepto tradicional de gen (Tabla 1).
continuacin enumeramos algunos de sus descubrimientos ms importantes: El genoma humano se transcribe profusamente, de manera tal, que la mayora de sus bases estn asociadas con al menos un transcrito primario. Se han identificado una gran cantidad de nuevos transcritos que no codifican para protenas, muchos de ellos solapndose con locus pertenecientes a protenas y otro en regiones que se pensaba no se traducan. A esta gran cantidad de transcritos, no anotados como genes en el ADN, los conocemos como TARs (transciptionally active regions). Se han identificado nuevos sitios de inicio de transcripcin (TSSs) hasta ahora no conocidos. Muchas protenas de genes conocidos, tienen TSSs alternativos, a veces hasta 100.000 bases aguas arriba de la transcripcin anotada. El nmero de isoformas de genes por locus asociados a protenas se ha incrementado en gran medida debido al incremento del alternative splicing relacionado con los descubrimientos anteriores. La regulacin se localiza de forma muy dispersa en el ADN. Las secuencias regulatorias que rodean los sitios de inicio de transcripcin estn distribuidas simtricamente, y no necesariamente en regiones aguas arriba. En realidad se han obtenido suficientes evidencias de que el modelo conciso de gen puede ser demasiado simple, y que muchos elementos regulatorios residen en el primer exn, en intrones o en el cuerpo entero del gen. El tiempo de replicacin del ADN est relacionado con la estructura de la cromatina. Tambin se ha encontrado que una fraccin significativa, alrededor del 20% de los pseudogenes, s se transcriben, hecho que debe ser tenido en cuenta al utilizar transcritos como evidencias para localizar genes. Elementos funcionales diferentes varan en gran medida, tanto su secuencia de individuo a individuo, como en la posibilidad de residir en el genoma con una estructura variable. Sin embargo, muchos elementos funcionales parecen no estar sometidos a restricciones evolutivas en los mamferos, lo que sugiere la posibilidad de la existencia de una gran reserva de elementos neutrales, bioquicamente activos, cuya nica funcin podra ser la de servir de base para nuevos productos evolutivos. A modo de metfora informtica, a tenor de todos estos acontecimientos, el genoma ha pasado de poder considerarse un conjunto organizado de subrutinas, para convertirse en el cdigo fuente de un programa en cdigo mquina muy compacto, lleno de saltos y bucles que recorren el cdigo de un lado a otro de forma bastante confusa aunque muy efectiva.
El proyecto ENCODE
Como ya hemos comentado, el proyecto ENCODE (Encyclopedia of DNA Elements), nace con el objetivo de esclarecer la estructura biolgica del genoma a base de identificar y catalogar el mximo nmero de elementos funcionales. En Junio de 2007 se publicaron las conclusiones del primer proyecto piloto cuyo objetivo era la anotacin y anlisis funcional de un 1% del genoma humano. A
ENCODE y modENCODE
Debido a ello, tras la finalizacin de la fase piloto, el proyecto se dividi en dos lneas diferenciadas de actuacin. Por un lado se extendi el proyecto ENCODE a todo el genoma humano, y por otro se cre el nuevo proyecto modENCODE6, cuyo objetivo es la anotacin funcional de los genomas de los organismos C elegans y D melanogaster. La eleccin de estos dos organismos para el proyecto modENCODE, no es casual, se trata de organismos que son pilares de la investigacin biolgica moderna, cuyos genomas, no excesivamente grandes (como un tercio del genoma humano), adems de fciles de cultivar y manipular, permiten la validacin in vivo, de los hallazgos obtenidos, algo que raramente puede llevarse a cabo en experimentos con mamferos. Se espera que las comunidades dedicadas al estudio de stos organismos se beneficien rpidamente de los resultados de este proyecto, allanando el camino hacia la comprensin del mucho ms complejo genoma humano, ayudando a dilucidar las relaciones existentes entre los eventos moleculares y biolgicos de un organismo.
"Un gen es la unin de un grupo de secuencias genmicas que codifican un conjunto coherente de productos funcionales potencialmente superpuestos"
4. 5. Debe ser prctico, que sea til para responder a preguntas concretas como Cuntos genes tiene el genoma de una especie? Debe ser compatible y consistente con la nomenclatura utilizada en la literatura biolgica.
Con todos esos criterios, los autores del artculo What is a gene, post-ENCODE? History and updated definition3 proponen la siguiente definicin: Un gen es la unin de un grupo de secuencias genmicas que codifican un conjunto coherente de productos funcionales potencialmente superpuestos. Para comprender mejor la definicin, hay que destacar los siguientes aspectos: 1. Un gen es una secuencia genmica (ADN o ARN) que codifica directamente productos funcionales moleculares, ya sean ARN o protenas. En caso de que variaos productos funcionales compartan regiones superpuestas, se debe coger la unin de todas las secuencias superpuestas que codifican para ellos. Dicha unin debe ser coherente, es decir, especificada de forma separada para cada producto final (protena o ARN). Ntese que esto no requiere que al menos una sub-secuencia deba ser compartida necesariamente por todos los productos.
2.
Open Source
Hoy en da podemos encontrar en internet, de forma gratuita, la ms completas suites de software que podemos necesitar, y no solamente libres de uso, sino con disponibilidad de su cdigo fuente o de APIs bien documentadas para que podamos integrarlos en nuestras necesidades. Programas utilizados a diario por cualquier bioinformtico, como puedan ser blast7 o geneid8, solo por mencionar dos de los que utilizaremos durante el proyecto, ponen a disposicin del pblico no solo sus cdigos fuentes, sino toda la documentacin necesaria para contribuir a su desarrollo.
3.
Redes sociales
El otro factor que est contribuyendo al rapidsimo avante en bioinformtica, es la prdida del miedo a compartir, aunque sea en parte, muchos de los hallazgos obtenidos, lo que permite su inclusin en grandes bases de datos que se pueden consultar pblicamente, ahorrando cantidades considerables de tiempo y dinero en investigacin. Otro ejemplo del original de uso de las redes sociales, lo encontramos en el propio proyecto modENCODE. Este proyecto funciona como un consorcio9 en el que sus participantes pueden, literalmente, realizar votaciones sobre los campos del proyecto que les gustara que se llevasen a cabo primero, consiguiendo finalmente un ndice de prioridades que ha establecido la propia comunidad que se va a beneficiar de los resultados.
ANOTACIN COMPUTACIONAL
Anotacin Computacional
En esta primera fase obtendremos la secuencia de ADN objeto de estudio, y utilizando tcnicas de prediccin ab initio con los programas Geneid, Genescan y Fgenesh, procederemos a su anotacin. Durante el proceso, utilizaremos la ayuda de bases de datos de protenas y la bsqueda de regiones otlogas en otros genomas, as como a la genmica comparativa para fundamentar mejor nuestras decisiones.
Homo sapiens (human) Normal mode (signal, exon and gene prediction) Forward and Reverse geneid
Gene Strand 1 2 3 4 + 5 6 + 7 + 8 + 9 10 + 11 + 12 13 14 15 16 17 18 19 + 20 + 21 22 23 24 +
Exons 10 1 4 1 2 9 6 11 2 11 5 3 1 1 1 7 2 11 3 6 1 1 2 6
aa 569 24 149 119 292 362 210 354 486 382 154 122 53 86 114 348 111 404 211 147 194 181 73 307
Start 39246 41674 63912 70368 81910 86242 115959 130960 200691 204492 225178 320448 322145 333523 345218 417955 438786 449601 452290 496321 548147 552523 571408 580626
End 13095 41603 45693 70724 80704 115246 119366 165378 166960 218910 234235 267546 321987 333266 344877 352069 437667 442048 466870 542410 547566 551981 563465 601769
Descargamos la secuencia completa de esta regin utilizando el enlace Get DNA y guardamos el secuencia que viene en formato FASTA (ver adjunto ENm011.fasta).
El resultado con los exones que conforman cada gen lo guardamos en un archivo raw_prediction_geneid.txt para su posterior proceso.
Genscan
Repetimos el mismo proceso, esta vez en el servidor de Genscan. Es importante recordar que ste programa no interpreta la cabecera de los ficheros FASTA, por lo que debemos proporcionarle como secuencia, la cadena de ADN limpia para evitar obtener un falso desplazamiento en las coordenadas de los exones. Teniendo esto en cuenta, los parmetros utilizados y los genes obtenidos se pueden observar en las siguientes tablas:
Prediccin ab initio
El siguiente paso consiste en la prediccin ab initio de los genes contenidos en la secuencia. Realizaremos este proceso con tres programas diferentes: Geneid12, Genscan13 y Fgenesh14.
Geneid
En el servidor pblico de geneid proporcionado por Genome BioInformatics Research Lab, utilizamos la versin de geneid 1.2 para obtener una primera prediccin ab initio de los genes contenidos en la regin ENm011. Para esta prediccin hemos utilizado los siguientes parmetros:
ANOTACIN COMPUTACIONAL
Tabla 4 | Parmetros Genscan
Organism Vertebrate Suboptimal exon cutoff 1.00 Print option Predicted peptides only
Tabla 5 | Prediccin de genes con Genscan
en
el
fichero
Un primer vistazo
Como primer paso, y simplemente para hacernos una idea de hasta qu punto coinciden cada una de las tres predicciones de novo, hemos preparado una tabla comparativa (Tabla 9) a nivel de gen, en la que destacaremos dos tipos de candidatos: candidatos fuertes (CF) y candidatos menores (CM) atendiendo al siguiente conjunto de criterios: 1. 2. 3. 4. Misma cadena (+/-) obligatorio Coordenadas iniciales y finales del gen similares. Nmero de aminocidos parecidos. Nmero de exones parecidos.
PYTHON* AL RESCATE Aunque hay otros lenguajes de script que se han utilizado de forma tradicional para la preparacin de datos bioinformticos, como pueden ser Perl o incluso la propia Bash de Linux, creo que dichos lenguajes son algo confusos para el usuario medio, no experto en informtica, y poco a poco irn siendo sustituidos por lenguajes algo ms amigables y no tan exclusivos para experto informtico. Uno de estos lenguajes, que est adquiriendo un gran auge actualmente, y no solo en el mbito de la bioinformtica, es Python, que ser el que utilizaremos para preparar los scripts de ste proyecto. NORMALIZACIN Al realizar la prediccin de genes, cada programa, Geneid, Genscan y Fgenesh tiene su propio formato de salida. Hemos realizado un pequeo script en Python que extrae de cada fichero las campos que necesitamos para comparar las predicciones entre s y genera las tablas de Genes que podemos ver en la Tabla 3, la Tabla 5 y la Tabla 7.
Gene Strand 1 2 + 3 4 + 5 6 + 7 + 8 9 + 10 + 11 + 12 13 + 14 15 + 16 + 17 18 19 20 21 + 22 + 23 24 + 25 -
Exons 13 8 1 1 3 21 20 5 16 5 5 17 15 1 3 8 2 14 2 20 18 8 7 19 3
aa 831 391 83 118 352 852 793 656 500 153 250 768 547 66 92 305 125 841 110 763 919 416 625 724 133
Start 41674 43059 67334 70368 81910 101649 124281 188065 196679 225178 235718 279273 285391 322187 350209 367386 407539 435679 438786 464175 464676 518207 555104 575504 605993 en el
End 13095 63105 67083 70724 80704 119366 165378 166960 214387 234235 241678 248356 314949 321987 354513 386541 399341 410802 437667 442048 514888 544515 546749 601593 602682 fichero
Los candidatos fuertes conservan los criterios antes mencionados de forma muy parecida entre las predicciones de los tres programas, y por tanto tienen ms probabilidades de referirse al mismo gen, mientras que los candidatos menores, conservan al menos dos de los tres criterios de seleccin en al menos dos de los tres programas, lo que puede deberse bien a casos de genes con empalme alternativo15 (alternative splicing), o bien a casos de divisin de genes (split genes). Metodologa La forma en la que hemos llevado a cabo la seleccin ha sido la siguiente: Paso 1: Preparacin de datos comparables entre s. Hemos preparado tres pequeos scripts en Python que generan tablas con los campos: id, strand, exons, aa, start y end a partir de cada uno de los ficheros de prediccin de cada uno de los programas.
Tabla 8 | Campos utilizados para la primera comparativa entre las predicciones ab initio
Fgenesh
Y por ltimo repetimos nuevamente el proceso con el programa fgenesh. Los parmetros que hemos utilizado son:
Tabla 6 | Parmetros Fgenesh
Organism Human
Tabla 7 | Prediccin de genes con Fgenesh
Gene Strand 1 2 + 3 + 4 5 + 6 + 7 + 8 9 + 10 + 11 12 13 + 14 15 16 17 18 + 19 20 21 +
Exons 13 4 1 2 8 7 14 2 16 6 1 16 6 10 2 14 5 5 1 2 12
aa 892 136 118 299 360 213 470 523 423 414 94 636 166 509 110 559 290 231 202 252 392
Start 41674 43447 70368 81910 111687 117265 143104 174903 179558 224461 239050 365279 368077 435679 438786 449601 477465 486419 538801 548147 568402
End 13095 46542 70724 80704 115246 119366 165378 166960 214387 234235 238766 239770 396126 410802 437667 442048 459461 514888 538193 546749 599328
Identificador de programa y nmero de gen Cadena de AND en la que se encuentra el gen Nmero de exones Nmero de aminocidos Coordenada del nucletido inicial del gen Coordenada del nucletido final del gen
Paso 2: Comparacin de los datos con Microsoft Excel. Hemos abierto las tablas anteriores con Microsoft Excel16 y se ha ordenado por los campos: Strand, Start y aa. y de forma manual se han seleccionado los candidatos que mejor se adaptaban a los criterios de seleccin. El resultado (Tabla 9) ha sido que solamente tres de los genes predichos comparten suficientes caractersticas como para hacer una apuesta inicial a falta de ms datos experimentales. Mientras que hemos conseguido marcar otros diez posibles genes que posiblemente sean reforzados, o no, en las subsiguientes fases de anlisis. En necesario comentar que con esta seleccin no se pretende excluir ninguna de las predicciones, sino obtener una primera aproximacin a los datos obtenidos antes de proceder a su complementacin con datos procedentes de protenas conocidas.
ANOTACIN COMPUTACIONAL
Tabla 9 | Extracto de la tabla de seleccin de genes candidatos. Se puede consultar la tabla completa en el documento adjunto predicciones_ab_initio.xls.
Id geneid_4 genscan_4 fgenesh_3 geneid_6 fgenesh_5 geneid_7 fgenesh_6 fgenesh_9 genscan_9 geneid_11 genscan_10 genscan_1 fgenesh_1 geneid_5 genscan_5 fgenesh_4 fgenesh_8 genscan_8 geneid_9 geneid_13 genscan_14 genscan_18 fgenesh_14 geneid_17 genscan_19 fgenesh_15 geneid_18 fgenesh_16 geneid_21 fgenesh_20
Strand Exons aa + + + + + + + + + + + 1 1 1 9 8 6 7
Start
End
2.
119 70368 70724 CF1 118 70368 70724 CF1 118 70368 70724 CF1 362 86242 115246 CM1 360 111687 115246 CM1 210 115959 119366 CM2 213 117265 119366 CM2
organismos cercanos en los que s estuviera anotada, y por tanto podramos inferir mucha informacin a partir de ella. Debido a la degeneracin del cdigo gentico, es muy posible encontrar dos protenas con cadenas muy similares de aminocidos, pero muy diferentes secuencias de ADN, en cuyo caso blastn no arrojara ningn resultado remarcable.
16 423 179558 214387 CM3 16 500 196679 214387 CM3 5 5 154 225178 234235 CM4 153 225178 234235 CM4 41674 13095 CM5 41674 13095 CM5
Para que la bsqueda se realice entre cadenas de protenas, recordemos que nuestra secuencia debe ser traducida en cada uno de los seis marcos de lectura posible antes de la comparacin, lo que convierte el trabajo de blastx en una tarea mucho ms compleja y lenta de lo que sera para blastn.
Metodologa
La principal dificultad con la que nos hemos encontrado es que la larga longitud (606.048 bases) de nuestra secuencia, no permite utilizarla directamente como query en los servidores pblicos de blastx. Cualquier intento de alinear cadenas de gran tamao termina irremediablemente por producir un error debido a uso excesivo de CPU. Una forma de solucionarlo es la instalacin y ejecucin en un equipo local del paquete de programas Blast19. Su instalacin no supone dificultad alguna y existen versiones disponibles para prcticamente cualquier sistema operativo actual. Pero lo que s que supone un problema es la descarga de las bases de datos necesarias para su funcionamiento, que pueden superar fcilmente los 40Gb de informacin, tamao no excesivamente grande para un uso profesional, pero si algo prohibitivo si se dispone de una conexin relativamente lenta a internet. Por tanto, la solucin que se ha adoptado para obtener los alineamientos, es aprovechar los parmetros to y from, del servidor pblico, para procesar cada vez una porcin de la cadena, concretamente una dcima parte de ella. sta decisin no est exenta de efectos secundarios, puesto que en los puntos de corte se puede llegar a perder la continuidad de algunos exones y por tanto no aparecer significados en los alineamientos finales, pero como veremos a continuacin, ajustando algunos parmetros de blastx hemos obtenidos suficientes secuencias para aportar las evidencias necesarias a nuestras predicciones.
13 831 13 892 2 3 2 2 5 2 1 1
292 81910 80704 CF2 352 81910 80704 CF2 299 81910 80704 CF2 523 174903 166960 CM6 656 188065 166960 CM6 486 200691 166960 CM6 53 322145 321987 CM7 66 322187 321987 CM7
14 841 435679 410802 CM8 10 509 435679 410802 CM8 2 2 2 111 438786 437667 CF3 110 438786 437667 CF3 110 438786 437667 CF3
11 404 449601 442048 CM9 14 559 449601 442048 CM9 1 2 194 548147 547566 CM10 252 548147 546749 CM10
Parmetros
De entre los parmetros seleccionados, cabe destacar los siguientes: 1. Database.- Se ha seleccionado la base de datos de protenas ms completa, la nr20, que est compuesta por las secuencias no redundantes de las protenas documentadas en GenPept, Swissport, PIR, PDF, PDB y NCBI RefSeq. 2. Organism.- Se ha limitado la bsqueda a especies cercanas al Homo Sapiens, concretamente al grupo de los primates, que incluye bases de datos de las siguientes especies: Callithrix jacchus, Homo sapiens, Macaca mulatta, Nomascus leucogenys, Pan troglodytes y Pongo abelii. 3. Exclusions.- Puesto que nuestro objetivo es la bsqueda de evidencias experimentales, he decidido excluir de los resultados los Modelos XM/XP y las secuencias de ejemplo (Uncultured/environmental).
ANOTACIN COMPUTACIONAL
4. Max target sequences.- Se ha establecido el lmite en 50. A la par que aceleraba la ejecucin de cada proceso, puesto que se han ejecutado 10 ejecuciones de blastx, esto generar suficientes alineamientos para apoyar las hiptesis de nuestras predicciones. Filter Low-complexity disabled21.- Tras una pequea fase inicial de ensayo y error con pequeas muestras, he detectado que dejar este filtro activo limitaba de forma considerable el nmero de resultados obtenidos. diferentes de genomas del grupo de los Primates incluyendo la propia especie Homo Sapiens.
La prediccin
Una vez que hemos recopilado las evidencias experimentales, tenemos que cruzarlas con las predicciones obtenidas ab initio. La forma de hacerlo ser crear intersecciones entre cajas de exones, de forma que los exones predichos que compartan algn porcentaje de secuencia en comn con algn exn de las evidencias experimentales pasarn el corte. Finalmente, los genes que hayan sobrevivido a dichas intersecciones sern los que compongan la prediccin final.
5.
Tabla 10 | Lista completa de la Parametrizacin utilizada en blastx para la obtencin de evidencias experimentales en la secuencia de estudio Query Secuencia ENm011 en formato fasta. From 1, 60606, 121210, 181814, 242418, 303022, 363626, 424230, 484834, 545438 (respectivamente en cada una de las 10 ejecuciones) To 60605, 121209, 181813, 242417, 303021, 363625, 424229 484833, 545437, 606048 (respectivamente en cada una de las 10 ejecuciones) Job Title ENm011 Fragmento n_de_10 - Primates - Not Models - Not Uncultured (sustituyendo n por los nmeros del 1 al 10 en cada ejecucin respectivamente) Database Non-redundant protein sequences (nr) Organism Primates (taxid:9443) Exclude Models (XM/XP) and Uncultured/environmental sample sequences: checked Max target sequences 50 Expect threshold 10 Word size 3 Max matches in a query 0 range Matrix BLOSUM62 Gap Costs Existence: 11 Extension: 1 Filter Filter low complexity regions: unchecked Mask Mask for lookup table only: unchecked Mask lower case letters: unchecked
Resultados
Los ficheros resultantes de cada una de las ejecuciones se han guardado de forma conjunta en una carpeta, aadindoles un subndice numerado del 01 al 10. Dichos ficheros contienen tanto los alineamientos completos de cada una de las coincidencias en formatos TXT, XML y CSV, como las estrategias utilizadas para encontrar cada uno de ellos en formato ASN. En total hemos recolectado ms de 1400 alineamientos pertenecientes a unas 52 anotaciones
Intersecciones
Realizaremos la seleccin de los mejores genes candidatos de la siguiente forma:
Figura 2 | Detalle de las predicciones de geneid, fgenesh, genscan y las evicencias obtenidas con blastx representadas en el Genome Browser como custom tracks
ANOTACIN COMPUTACIONAL
Seleccin de los exones comunes a las tres predicciones
La herramienta Table browser no permite la interseccin de tres pistas simultneamente, as que debemos realizar esta operacin en dos pasos. Primero cruzamos la pista geneid con la pista fgenesh, especificando como formato de salida custom track y seleccionando que solamente queremos los exones. La pista resultado de esta operacin, la cruzamos con la pista genscan, obteniendo como resultado, el conjunto de 77 exones comunes a las tres predicciones (ver adjunto geneid_fgenesh_genscan_exons.txt). A partir de este fichero, reconstruimos de nuevo la prediccin de genes, de forma que ahora, los genes solo contienen exones comunes a las tres predicciones (ver adjunto common_prediction.txt). experimentales.
Prediccin final
Y de esta forma hemos obtenido la pista final prediction (ver adjunto final_prediction.txt) El resultado ha sido una prediccin de 13 genes (Figura 3), que evaluaremos en el siguiente bloque.
Figura 3 | Comparativa de nuestra prediccin final, con SGP Gene Predictions Using Mouse/Human Homology y N-SCAN Gene Predictions
ANOTACIN COMPUTACIONAL
Mdica (IMIM) / Centro de Regulacin Genmica (CGR) de Barcelona. Para la prediccin de genes en una secuencia, SGP combina las predicciones ab initio de la aplicacin geneid, con comparaciones obtenidas con tblastx sobre otras secuencias genmicas. sta metodologa resulta ser muy parecida a la que se ha llevado a cabo en este proyecto, sin embargo podramos destacar dos hechos diferenciales: 1. En este proyecto, se han tenido en cuenta predicciones ab initio de tres aplicaciones (geneid, fgenesh y genscan) en vez de solo la generada por geneid. En nuestro proyecto, la bsqueda de secuencias se realiz con blastx y sobre el grupo completo de los primates, mientras que el SGP se utiliz tblastx y basndose en homologas sobre el genoma del ratn. N-SCAN combina el modelado de seales biolgicas en la secuencia genmica objetivo junto con informacin obtenida de un alineamiento en mltiples genomas para generar predicciones de novo.
Comparativa
Como podemos observar en la Figura 3, a excepcin de los genes GEN_1, GEN_9 y GEN_24, nuestra prediccin contiene genes mucho mas cortos que las otras dos pistas de predicciones. Esto podra ser un indicativo de que hemos sido demasiado estrictos al forzar que cada exn deba ser predicho por los tres programas de forma simultnea. Se podra relajar la condicin, conservando los exones que coincidan en dos de los tres programas, pero el efecto podra ser la obtencin de demasiados falsos positivos. Nos encontramos ante la coyuntura de, bien relajar las condiciones y correr el riesgo de predecir demasiados genes, o bien, tal y como hemos hecho, imponer unas condiciones muy estrictas y correr el riesgo de perder algn gen, o parte de l en la prediccin. Nosotros hemos optado por la segunda opcin. Veremos en el siguiente bloque, si la decisin ha sido correcta.
2.
ANOTACIN ENCODE
Anotacin ENCODE
Estudio de la regin ENCODE ENm011 con el objetivo de validar la calidad de las predicciones obtenidas. Realizaremos un estudio inicial de las anotaciones hechas por los organismos RefSeq y GENCODE, realizando una pequea investigacin ontolgica, en busca de clsteres funcionales antes de pasar a una evaluacin de las predicciones obtenidas. Posteriormente realizaremos un estudio comparativo de los genes SIT8, TH y TNNI2, contenidos en la secuencia de estudio, en tres especies diferentes, humano, ratn y gallina, para comprobar su conservacin en el marco evolutivo. Y Finalmente, exploraremos las pistas ENCODE regulation y RNA-seq, como ejemplo la gran cantidad de anotaciones no proteicas que el proyecto ENCODE ha sacado a la luz, y de otras formas de anlisis de la expresin proteica.
Para recuperar los nombres de los genes que necesitamos, debemos seleccionar la base de datos hg18, y hacer la correspondiente consulta sobre la tabla refGene31(Figura 4). Con lo que obtenemos el siguiente listado de genes anotados por refSeq (ver adjunto enm011_refseq.txt), que posteriormente utilizaremos para localizar clsteres funcionales: Genes anotados por RefSeq: MRPL23-AS1, LSP1, CTSD, IFITM10, SYT8, TNNI2, TNNT3, MRPL23, MIR4298, H19, MIR675, TH, IGF2-AS, IGF2, MIR4686, INS, INS-IGF2, MIR483, C11orf21, ASCL2, TSPAN32.
RefSeq
The Refefence Sequence28 (RefSeq) es una fundacin que proporciona una referencia estable tanto para la anotacin del genoma, como para identificacin y caracterizacin de genes, manteniendo una coleccin de anotaciones integra, comprensiva y no redundante de conjuntos de secuencias, incluyendo ADN, transcritos y protenas. Para obtener el conjunto de genes anotados por RefSeq, tan solo tenemos que mostrar la pista en el UCSC Genome Browser, posicionndonos en las coordenadas de nuestra regin de estudio (ENm011: chr11:1,699,992-2,306,039), obteniendo una imagen de dichos genes.
Gencode
Procedemos de forma anloga para obtener los genes anotados por GENCODE, y al mostrar la pista correspondiente, observamos que en realidad se activan dos pistas, una correspondiente a la anotacin manual, y otra correspondiente a la anotacin automtica. La tabla que contiene la anotacin automtica es wgEncodeGencodeAutoV3 y la tabla con la anotacin manual wgEncodeGencodeManualV3. Realizamos la consulta SQL (Figura 4) y obtenemos los siguientes listados (ver adjuntos enm011_encode_auto.txt y enm011_encode_manual.txt). Genes anotados por Gencode (Anotacin Automtica): LSP1, CTSD, , AC139143.1, SYT8, TNNI2, C11orf89, TNNT3, MRPL23, H19, hsa-mir675, AC123789.1, IGF2, hsa-mir-483, INS, TH, C11orf21, TSPAN32, U6 Genes anotados por Gencode (Anotacin Manual): LSP1, AC051649.5, AC068580.3, CTSD, AC068580.2, AC068580.4, AC068580.1, AC139143.2, AC139143.1, SYT8, TNNI2, AC051649.3, C11orf89, AC051649.4, TNNT3, MRPL23, AC051649.2, H19, IGF2, AC132217.2, INS, IGF2AS, TH, ASCL2, C11orf21, TSPAN32.
Figura 4 | Lneas de comando de linux que ejecutan consultas SQL directamente sobre las bases de datos de UCSC. $ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e "SELECT DISTINCT name2 FROM refGene WHERE chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18 > enm011_refseq.txt $ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e "SELECT DISTINCT name2 FROM wgEncodeGencodeAutoV3 WHERE chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18 > enm011_encode_auto.txt $ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e "SELECT DISTINCT name2 FROM wgEncodeGencodeManualV3 WHERE chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18 > enm011_encode_manual.txt
Para recuperar, el listado de genes anotados, vamos a hacer uso de una posibilidad muy interesante que nos permite el Table Browser. Se trata de la posibilidad de conectarnos directamente a las bases de datos de UCSC va MySQL29 y ejecutar nuestra propia consulta directamente30.
ANOTACIN ENCODE
Para encontrar las funciones con las que estn relacionados los genes anotados, haremos uso de la bsqueda avanzada del servidor AmiGO33. Como query utilizaremos los tres ficheros obtenidos en el apartado anterior, establecemos como tipo de bsqueda Genes or proteins, y como filtro de resultados establecemos las opciones que
Tabla 11 | Asociacin funcional de las proteinas de la regin ENm011.
detallamos en la Tabla 12. El propio servidor de AmiGO, nos permite seleccionar los 41 resultados obtenidos y exportarlos en un fichero tabulado de asociacin de genes fcilmente manipulable (ver adjunto enm011_amigo.txt). Podemos ver una representacin de los datos obtenidos en la Tabla 11, donde comprobamos que solo se han encontrado anotaciones funcionales para 13 de los genes.
Tabla 12 | Parametros utilizados en el servidor amiGO para la obtencin de los cdigos GO asociados a cada gen anotado de la regin ENm011
Protein ASCL2 Achaete-scute homolog 2 CTSD Cathepsin D IGF2 Insulin-like growth factor II
GO Annotation GO:0003700 : sequence-specific DNA binding transcription factor activity GO:0070888 : E-box binding GO:0043565 : sequence-specific DNA binding GO:0004190 : aspartic-type endopeptidase activity GO:0030546 : receptor activator activity GO:0008083 : growth factor activity GO:0005179 : hormone activity GO:0005515 : protein binding GO:0005158 : insulin receptor binding GO:0043539 : protein serine/threonine kinase activator activity GO:0005159 : insulin-like growth factor receptor binding GO:0005179 : hormone activity GO:0005179 : hormone activity GO:0005515 : protein binding GO:0005158 : insulin receptor binding GO:0005159 : insulin-like growth factor receptor binding GO:0005179 : hormone activity GO:0004871 : signal transducer activityGO:0003779 : actin binding GO:0003735 : structural constituent of ribosome GO:0003723 : RNA binding GO:0000166 : nucleotide binding GO:0048306 : calcium-dependent protein binding GO:0005215 : transporter activity GO:0016597 : amino acid binding GO:0004511 : tyrosine 3-monooxygenase activity GO:0005515 : protein binding GO:0034617 : tetrahydrobiopterin binding GO:0035240 : dopamine binding GO:0008199 : ferric iron binding GO:0016714 : oxidoreductase activity, acting on paired donors, with incorporation or reduction of molecular oxygen, reduced pteridine as one donor, and incorporation of one atom of oxygen GO:0008198 : ferrous iron binding GO:0005506 : iron ion binding GO:0019825 : oxygen binding GO:0019904 : protein domain specific binding GO:0005515 : protein binding GO:0031014 : troponin T binding GO:0003779 : actin binding GO:0048306 : calcium-dependent protein binding GO:0030899 : calcium-dependent ATPase activity GO:0030172 : troponin C binding GO:0005523 : tropomyosin binding GO:0003779 : actin bindingGO:0031013 : troponin I binding GO:0003674 : molecular_function
Query Match the query phrase(s) exactly Search Type Search fields Filter by Ontology Gene Product Type Data source Species Evidence Code
Checked Genes or proteins all fields molecular function All All Homo Sapiens All
INS Insulin A chain INS Insulin INS-IGF2 Protein INS-IGF2 LSP1 Lymphocyte-specific protein 1 MRPL23 39S ribosomal protein L23, mitochondrial SYT8 Synaptotagmin-8 TH Tyrosine 3monooxygenase
Enriquecimiento de funciones
En ocasiones, los genes se presentan en clsteres34, es decir, genes que aparecen en el genoma con una cierta agrupacin o formacin, desempean funciones biolgicas similares. Podemos comprobar si los genes de nuestra regin presentan este tipo de agrupaciones, con ayuda de la aplicacin DAVID35. La forma de interaccionar con DAVID es muy similar a la del resto de aplicaciones bioinformticas con las que hemos trabajado hasta ahora, simplemente se rellenan los campos de un formulario web con los parmetros requeridos: Gene List Identifier List Type Specie
enm011_refseq.txt + enm011_gencode_auto.txt + enm011_gencode_manual.txt
De la lista de conjunta de genes, DAVID reconoce correctamente 16 IDs, y no consigue mapear 19.
Tabla 13 | Listado de genes de la regin ENm011 mapeados y no mapeados por la aplicacin DAVID. MAPPED CTSD ASCL2 C11orf89 TH SYT8 TSPAN32 LSP1 C11orf21 TNNT3 INS-IGF2 IGF2 INS UNMAPPED AC132217.2 MRPL23-AS1 AC051649.3 AC068580.4 hsa-mir-675 hsa-mir-483 AC068580.3 AC051649.4 AC139143.1 MIR4686 AC051649.2 AC068580.2
TNNI2 Troponin I, fast skeletal muscle TNNT3 Troponin T, fast skeletal muscle
TSPAN32 Tetraspanin-32
ANOTACIN ENCODE
MIR675 H19 MRPL23 TNNI2 IGF2AS MIR483 AC123789.1 AC068580.1 IGF2-AS MIR4298 IFITM10 AC139143.2 AC051649.5
gen GEN_1 GEN_2 GEN_5 GEN_6 GEN_7 GEN_8 GEN_9 GEN_10 GEN_11 GEN_12
position chr11:1,713,0851,739,237 chr11:1,741,5931,741,665 chr11:1,780,6941,781,901 chr11:1,813,1981,815,237 chr11:1,818,2081,819,357 chr11:1,857,8921,865,369 chr11:1,866,9501,900,682 chr11:1,906,8731,912,725 chr11:1,925,1681,934,226 chr11:1,967,5361,967,583 chr11:2,110,7962,117,946 chr11:2,142,0382,149,592 chr11:2,280,6162,301,760
annotated genes AC068580.3, CTSD, MOB2, IFITM10 MOB2, CTSD AC139143.1 SYT8 TNNI2 LSP1 LSP1, C11orf89, TNNT3 TNNT3 MRPL23 AC051649.5, MRPL23-AS1 IGF2, INS, hsamir-483,INS-IGF2 TH TSPAN32
Tras una serie de ensayos con los parmetros que controlan que las anotaciones que deben ser tenidas en cuenta para formar clsteres, comprobamos que los mejores resultados se obtienen para los parmetros por defecto. DAVID reconoce tres clusters, de los cuales, solo los dos representados en la Tabla 15, muestran un Enrichment Score superior a 1.0. De nuevo, disponemos del fichero en formato tabulado (ver adjunto enm011_david_clusters.txt)
Tabla 14 | Functional Annotation Clustering 1 Classification Stringency: Medium Enrichment Score: 1.29 GO:0016023 cytoplasmic membrane-bounded vesicle GO:0031988 membrane-bounded vesicle GO:0031410 cytoplasmic vesicle GO:0031982 vesicle SYT CTS TH
Tabla 15 | Functional Annotation Clustering 2 Classification Stringency: Medium Enrichment Score: 1.24 GO:0015629 actin cytoskeleton GO:0003779 actin binding GO:0008092 cytoskeletal protein binding GO:0005856 cytoskeleton GO:0043228 non-membrane-bounded organelle GO:0043232 intracellular non-membrane-bounded organelle MRPL23 TNNT3 TNNI2
LSP1
ANOTACIN ENCODE
GEN_7 - Variante de TNNI2
Todos los exones del gen 7 coinciden con los del gen TNNI2, El mayor parecido lo tiene con la variante anotada con el Vega Transcript: OTTHUMT00000034048 (38). Ver adjunto GEN_7TNNI2.pdf y el fichero de alineamiento GEN_7TNNI2.clustalw.
GEN_18 - Variante de TH
Tenemos una coincidencia entre todos los exones del gen 18 y algunas de las variantes del anotado TH. El alineamiento lo hemos realizado con la variante anotada con el Vega Transcript: OTTHUMT00000026397 (43). Ver adjunto GEN_18TH.pdf y el fichero de alineamiento GEN_18TH.clustalw.
Figura 5 | Alineamiento con VISTA del gen SYT8 entre las especies humano, ratn y gallina.
Resumen de la evaluacin
Tras repasar el resultado del anlisis gen por gen de la prediccin, el resumen es que 9 de los 13 genes predichos conservan suficiente parecido con genes anotados. Todos y cada uno de los 9 genes predichos correctamente, conservan el ncleo central de la protena que codifican, (posiblemente el ncleo funcional), aunque en prcticamente todos, la prediccin carece del exn inicial, el terminal o ambos. ste hecho nos refuerza en la idea de que en la fase de prediccin ab initio, fuimos demasiado rigurosos en la seleccin de exones, y que para futuros estudios, posiblemente sea mejor utilizar el criterio dos de tres, en vez de tres de tres, para considerar la prediccin de un exn como vlida.
ANOTACIN ENCODE
Figura 7 | Cdigo de colores de la superpista ENCODE Regulation para las lneas de clulas de cada sub-pista.
Nos ayudaremos para el ejercicio de la aplicacin VISTA Browser, que forma parte del conjunto de herramientas proporcionadas por el servidor VISTA45. El VISTA Browser es una aplicacin programada en Java, que permite examinar un conjunto de alineamientos pre-calculados entre el genoma completo de un amplio conjunto de especies.
SYT8
El gen SYT8 en humanos est compuesto de 9 exones, de los que 7 se conservan en el ratn y solo 3 en la gallina (ver Figura 4 y adjunto vista-syt8human-mouse-chicken.jpg.
Transcription ENCODE Transcription Levels Assayed by RNA-seq on 6 Cell Lines Layered ENCODE Enhancer- and H3K4Me1 Promoter-Associated Histone Mark (H3K4Me1) on 8 Cell Lines Enhanced ENCODE Enhancer- and H3K27Ac Promoter-Associated Histone Mark (H3K27Ac) on 8 Cell Lines Layered ENCODE Promoter-Associated H3K4Me3 Histone Mark (H3K4Me3) on 9 Cell Lines DNase ENCODE Digital DNaseI Clusters Hypersensitivity Clusters Txn Factor ENCODE Transcription Factor ChIP ChIP-seq Las pistas estn reguladas por un cdigo de colores (Figura 7), en el que cada color representa una lnea celular. Para poder mostrar la actividad de varias lneas celulares en una sola pista, dichos colores se aplican con transparencias. La pista Transcription, muestra los niveles ensayados por el ARN-seq en seis lneas de clulas: Gm12878, H1 ES, HepG2, HUVEC, K562 y NHEK. En un anlisis visual, observamos cuatro zonas de gran actividad, que se corresponden precisamente con exones de genes anotados por ENCODE (ver Tabla 17)
Tabla 17 | Tabla de mxima actividad de las lneas celulares analizadas en la pista Transcription de la Super-pista ENCODE Regulation, y los genes anotados por ENCODE en esas zonas actividad. GEN CTSD LSP1 MRPL23 IGF2 LINEA CELULAR Gm12878, H1 ES, HepG2, HUVEC, K562, NHEK Gm12878 Gm12878, H1 ES, HepG2, HUVEC, K562, NHEK Gm12878, HepG2
TH
El gen TH en humanos est compuesto de 14 exones, 13 de ellos an se conservan en el ratn, y la gallina an conserva 11 en comn con nosotros. Ver adjunto vista-th-human-mouse-chicken.jpg.
TNNI2
En humanos el gen TNNI2 se compone de 7 exones, de los que 6 an se conservan en el ratn y 5 en la gallina. Ver adjunto vista-tnni2-human-mousechicken.jpg. En este pequeo estudio podemos observar como la conservacin de exones entre protenas se va perdiendo cuanto ms alejada est en el rbol evolutivo la rama comn que une las especies.
Por otro lado, sabemos que las modificaciones qumicas en las histonas presentes en la cromatina influencian la expresin gnica alterando la accesibilidad de la cromatina para su transcripcin.
ANOTACIN ENCODE
Las pistas Layered H3K4Me1, Enhanced H3K27AC y Layered H3k4Me3, muestran el nivel de enriquecimiento de una marca histnica concreta a lo largo del genoma para un grupo de lneas celulares. Examinando estas pistas, hemos observado dos hechos concretos: 1. Las pistas muestran zonas de mxima actividad en las regiones inmediatamente anteriores, y a lo largo del primer exn de protenas anotadas. 2. Existen otras zonas de gran actividad que no se alinean con ninguna protena anotada. Al tratarse de zonas reguladoras, la primera de las observaciones tiene cierto sentido en s misma, mientras que para encontrar una explicacin a la segunda observacin, tendramos que recurrir a la estructura 3D del genoma, lo que explicara como zonas alejadas de una protena en realidad ejerzan como regiones reguladoras de la misma. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Muscle Colon Adipose Testes Lymph Node Breast BT474 - Breast Tumour Cell Line HME - Human Mammary Epithelial Cell Line MCF7 - Breast Adenocarcinoma Cell Line MB-435 - Breast Ductal Adenocarcinoma Cell Line(*) 14. T-47D - Breast Ductal Carcinoma Cell Line
Figura 8 | Detalle de en la regin comprendida entre la protena LSP1 y TNNT3, en la que se observa un claro cese de expresin proteica al comparar la pista Breast (sana) con las pistas pertenecienes a lneas celulares afectas por cancer: BT474, HME, MCF7 y T47D.
Expresin diferencial de las protenas LSP1 y TNNT3, entre las muestras sanas y las muestras afectadas por cncer de mama.
Mostraremos esas pistas junto con la pista de genes anotados por ENCODE en nuestra regin de estudio ENm011, y observaremos, primero, si la actividad de las pistas Burge se alinea con los genes anotados, y segundo de ser as, si la actividad se presenta de modo diferencial entre las subpistas afectadas por la enfermedad, y la subpista sana breast (ver Figura 7). Si nos fijamos en la regin comprendida entre la protena LSP1 y TNNT3, observamos un claro cese de expresin proteica al comparar la pista sana (Breast) con las pistas pertenecientes a lneas celulares afectas por cncer (BT474, HME, MCF7 y T47D). Esto indica que de alguna forma, mutaciones en los gens LSP1, TNNT3, o en las regiones reguladoras de
*
Estudios posteriores, han demostrado que la lnea de clulas MDA-MB-435 utilizada en el experimento, estaba contaminada con la lnea celular M14 melanoma, por lo que se ha excluido del anlisis.
ANOTACIN ENCODE
los mismos, impiden la correcta expresin de estas protenas, lo que podra ser un buen punto de partida para una investigacin ms profunda de estas protenas en relacin con el riesgo de padecer cncer de mama. Realizar estos experimentos queda fuera del alcance de este proyecto, pero una bsqueda rpida en Google, es suficiente para comprobar que nuestra hiptesis se acerca bastante a la realidad, puesto que encontramos una gran cantidad de trabajos cientficos que relacionan mutaciones en estas protenas con la enfermedad citada.
Conclusiones
Sobre los resultados
Tal y como sospechamos al final del primer bloque, las predicciones obtenidas han adolecido de una seleccin de exones demasiado exigente, lo que ha provocado que en la mayora de las protenas predichas se hayan perdido los exones iniciales, finales o ambos, conservando solamente el ncleo central de la misma. Las predicciones ab initio, tienen dificultades para separar los genes que se encuentran muy prximos en el genoma, y ms de una ocasin, han concatenado los exones terminales de un gen, con los iniciales del siguiente.
preguntamos si no estaremos aadiendo un montn de aminocidos a una protena que nunca llegan a darse como producto real. A esto hay que aadir los problemas planteados por las isoformas, el ayuste alternativo, la solapacin de diferentes productos en la misma region... Desde la perspectiva aportada por este proyecto, no veo posible de momento la delegacin de la prediccin completa de genomas a procesos ntegramente automatizados, y una prueba de ello la ofrecen las pistas del propio ENCODE, cuyas pistas de anotacin manual tienen ms del doble de genes que las pistas de anotacin automtica. Creo que podramos establecer un smil entre la evolucin de los programas de prediccin de genes ab initio y los programas que juegan al ajedrez. Los primeros programas de ajedrez movan correctamente las piezas, pero en general eran malos jugadores. Los programas de prediccin gnica han superado esta fase hace tiempo. En una segunda fase, los programas de ajedrez se volvieron materialistas, no se dejaban piezas, era relativamente difcil ganarles para un aficionado, pero no eran capaces de ver el conjunto de la partida como un todo, y fallaban estrepitosamente frente a un experto jugador. En este estado est actualmente la prediccin ab initio. Son capaces de encontrar y seleccionar exones con gran exactitud, y estructuran genes correctamente, aunque no de forma perfecta y al coste de incluir bastantes falsos positivos que deben ser filtrados de forma manual por los expertos humanos dedicados a la bioinformtica. En la actualidad, los programas de ajedrez ya han alcanzado el nivel de los grandes maestros y han superado a los mejores jugadores del mundo. Cundo alcanzar este nivel el software de prediccin de genes?
Consideraciones
Muchas de las dificultades anteriormente comentadas, surgen de un intento de mxima automatizacin de procesos, evitando en la medida de lo posible la intervencin manual, ms all de la aplicacin de un formato, ms o menos atractivo, a algunas tablas representadas en este documento. Para la realizacin del proyecto, ha sido necesaria una gran cantidad de ficheros auxiliares, a los que se hace alusin puntualmente a lo largo de todo el texto. La inclusin de los mismos en el cuerpo de este documento solo habra entorpecido la redaccin y lectura del mismo, y adems, dado el carcter informtico de los mismos, puesto que la mayora son resultados de ejecucin de aplicaciones o fichero de entrada para las mismas, o imgenes demasiado grandes, no son apropiados para su inclusin en documentos impresos. En cualquier caso todos ellos estn disponible en forma de ficheros adjuntos en un archivo comprimido que acompaa este proyecto.
Reflexin final
Tal y como hemos visto en el la introduccin del proyecto, la definicin de gen necesita seguir evolucionando, como si de un ser vivo se tratara, a la par que nuestros conocimientos sobre la estructura y funcionalidad del genoma, hasta que llegue un momento en el que todos seamos capaces de tener claro a que nos referimos cuando pronunciamos la palabra gen.
REFERENCIAS Y BLIBIOGRAFA
Referencias y Bibliografa
The ENCODE project: ENCyclopedia Of DNA Elements http://www.genome.gov/10005107 2 Birney, E., J. A. Stamatoyannopoulos, et al. (2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project." Nature 447(7146): 799-816. http://www.genome.gov/Pages/Research/ENCODE/nature05874.pdf 3 Gerstein, M. B., C. Bruce, et al. (2007). "What is a gene, post-ENCODE? History and updated definition." Genome Res 17(6): 669-81. http://genome.cshlp.org/content/17/6/669.full 4 About the Human Genome Project http://www.ornl.gov/sci/techresources/Human_Genome/project/about. shtml 5 Nature 429, 365-368 (27 May 2004) | doi:10.1038/nature02390; Received 24 October 2003; Accepted 26 January 2004 http://www.nature.com/nature/journal/v429/n6990/full/nature02390. html 6 modENCODE The modENCODE Project will try to identify all of the sequence-based functional elements in the Caenorhabditis elegans and Drosophila melanogaster genomes http://www.modencode.org/ 7 Blast Developer information http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDoc s&DOC_TYPE=DeveloperInfo 8 Geneid Source code and distribution http://genome.crg.es/software/geneid/index.html#code 9 The modENCODE consortium. Unlocking the Secrets of the Genome. Nature 2009 Jun 18;459(7249):927-30. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2843545/ 10 UCSC Genombe Bioinformatics http://genome.ucsc.edu/ 11 UCSC Genome Brouser on Human Mar. 2006 (NCBI36/hg18) Assemby http://genome.ucsc.edu/encode/encode.hg18.html 12 geneid 1.2 Web Server 2005 http://genome.crg.es/geneid.html 13 The GENSCAN Web Server at MIT http://genes.mit.edu/GENSCAN.html 14 FGENESH http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=progra ms&subgroup=gfind 15 Empalme alternativo (alternative splicing) http://es.wikipedia.org/wiki/Splicing_alternativo 16 Microsoft Excel http://office.microsoft.com/es-es/excel/ 17 Using native and synthetically mapped cDNA alignments to improve de novo gene finding Mario Stake, Mark Diekhans, Robert Baertsch and David Haussler Vol. 24 no. 5 2008, pages 637-644 |doi:10.1093/bioinformatics/btn013 http://bioinformatics.oxfordjournals.org/content/24/5/637.full.pdf 18 Blastx 2.2.26 Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. http://www.ncbi.nlm.nih.gov/pubmed/9254694?dopt=Citation 19 Download BLAST Software and Databases http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDoc s&DOC_TYPE=Download 20 The BLAST Databases available descriptions ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html 21 BLAST Filter Filter (Lowcomplexity) http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#filter 22 UCSC Table Browser User's Guide http://genome.ucsc.edu/goldenPath/help/hgTablesHelp.html 23 GFF format (General Feature Format) http://genome.ucsc.edu/FAQ/FAQformat.html#format3 24 UCSC Manage Custom Tracks http://genome.ucsc.edu/cgibin/hgCustom 25 Bioinformatics and Genomics home page http://big.crg.cat/bioinformatics_and_genomics 26 The Research Programme on Biomedical Informatics (GRIB) http://grib.imim.es/
1
Genmica comparativa y prediccin de genes Roderic Guig i Serra Centro de Regulacin Genmica de Barcelona http://www.institutoroche.es/Biotecnologia_bioinformatica/V11.html 28 NCBI The Reference Sequence (RefSeq) http://www.ncbi.nlm.nih.gov/RefSeq/ 29 MySQL Documentation: MySQL Reference Manuals http://dev.mysql.com/doc/ 30 UCSC Table Browser Direct MySQL Access to data http://genome.ucsc.edu/FAQ/FAQdownloads#download29 31 UCSC Table Browser Schema for RefSeq Genes http://genome.ucsc.edu/cgi-bin/hgTables 32 The Gene Ontology http://www.geneontology.org/ 33 The Gene Ontology Advanced Search http://amigo.geneontology.org/cgibin/amigo/search.cgi?action=advanced_query&session_id=2749amigo13 42118152 34 Wikipedia Gene cluster http://en.wikipedia.org/wiki/Gene_cluster 35 DAVID Bioinformatics Resources 6.7 http://david.abcc.ncifcrf.gov/ 36 Vega Transcript summary actin pseudogene http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000045387;r=11:1824119-1825325;t=OTTHUMT00000105391 37 Vega Transcript summary synaptotagmin VIII http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009026;r=11:1856221-1858751;t=OTTHUMT00000320502 38 Vega Transcript summary troponin I type 2 (skeletal, fast) http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012253;r=11:1861424-1862908;t=OTTHUMT00000034048 39 Vega Transcript summary lymphocyte-specific protein 1 http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012252;r=11:1897707-1908096;t=OTTHUMT00000142916 40 Vega Transcript summary troponin type 3 (skeletal, fast) http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012475;r=11:1940792-1959936;t=OTTHUMT00000034756 41 Vega Transcript summary mitochondrial ribosomal protein L23 http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000012476;r=11:1968508-1977839;t=OTTHUMT00000034765 42 Vega Transcript summary insulin-like growth factor 2 (somatomedin A) http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009395;r=11:2153903-2162246;t=OTTHUMT00000026386 43 Vega Transcript summary tyrosine hydroxylase http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009559;r=11:2185159-2193107;t=OTTHUMT00000026397 44 Vega Transcript summary tetraspanim 32 http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHU MG00000009762;r=11:2323243-2339372;t=OTTHUMT00000026912 45 VISTA Tools for Comparative Genomics http://genome.lbl.gov/vista/index.shtml 46 ENCODE Data Coordination Center at UCSC 20 August 2010 New ENCODE Integrated Regulation Super-track Released http://genome.ucsc.edu/ENCODE/newsarch.html#2004 47 Illumina Genome Analyzer http://www.illumina.com/systems/genome_analyzer_iix.ilmn 48 The GEM mapper: faster and more accurate alignment of highthroughput sequencing reads http://barnaserver.com/ribeca/NM/
27