Vous êtes sur la page 1sur 35

EL PROYECTO GENOMA HUMANO ANTONIO JOS CARUZ ARCOS

NDICE

PGINA

INTRODUCCIN

ESTRATEGIAS DE SECUENCIACIN CONSORCIO PBLICO CELERA

5 5 9

ANLISIS DE LA INFORMACIN CONTENIDA EN EL GENOMA HUMANO 10 CONTENIDO EN SECUENCIAS REPETIDAS CONTENIDO EN GENES VARIABILIDAD DEL GENOMA 10 19 29

PERSPECTIVAS GENOMA HUMANO Y BIOLOGA GENOMA HUMANO Y MEDICINA

31 32 34

Proyecto genoma humano

INTRODUCCIN
El resdescubrimiento de las leyes de Mendel a principios del siglo XX constituy una revolucin en Biologa que cre los cimientos para el desarrollo posterior de la Gentica . El progreso cientfico en este campo podra dividirse en cuatro fases que se corresponden aproximadamente con los cuatro cuartos del siglo XX. En la primera se establecieron las bases celulares de la herencia, los cromosomas, la segunda permiti definir la base molecular de la herencia: los cidos nucleicos. En la tercera se descubri la base de la expresin de la informacin gentica, con el descubrimiento de los mecanismos biolgicos por los cuales las clulas decodifican la informacin contenida en los genes y con la invencin de las tecnologas del ADN recombinante de clonacin y secuenciacin; la Gentica se dot de unas herramientas poderossimas para el estudio de la estructura y funcin del material hereditario. El ltimo cuarto de siglo ha estado marcado por el esfuerzo mantenido por descifrar la informacin de genomas completos y comprender su estructura, funcin y evolucin. El fruto de este trabajo incluye actualmente la secuencia completa de los genomas de 570 virus, 16 arqueobacterias, 136 bacterias y 22 eucariotas entre los cuales destacan por su importancia como modelos en Gentica Saccharomyces cerevisiae, Drosophila melanogaster, Caehnorabditis elegans, Mus musculus y Arabidopsis thaliana. El proyecto de secuenciacin del genoma humano (PGH) fue planteado a principios de la dcada de los 80 por el consejo nacional de investigacin de Estados Unidos (US National Research Council) que consideraba que adquirir una visin global de la estructura del genoma, podra acelerar enormemente la investigacin sobre la Biologa humana y comprender: 1. La evolucin de la humanidad 2. El origen de muchas enfermedades 3. La interrelacin entre el ambiente y la herencia en la expresin fenotpica de la condicin humana La generacin de esta visin global requera un esfuerzo comn en infraestructura, financiacin y coordinacin entre diferentes laboratorios como nunca hasta entonces haba sido planteado en la investigacin biolgica. El PGH estaba sustentado en una base tecnolgica previa que permitieron cristalizar el proyecto: En 1977 Sanger describi una nueva metodologa para determinar el orden de nucletidos de ADN utilizando dideoxinucletidos . Ese mismo ao el primer gen humano fue aislado y secuenciado. Entre 1977 y 1982 se secuenciaron los virus bacterianos X174
1

y lambda , el virus animal SV40

y el ADN mitocondrial

De Vries, H. Sur la loi de disjonction des hybrides. Comptes Rendus de l'Academie des Sciences (Paris), 130:845-847. (1900).

Tschermak, E. . ber Knstliche Kreuzung bei Pisum sativum. Berichte der Deutsche Botanischen Gesellschaft 18: 232-239, (1900). Correns, C. G. Mendels Regel ber das Verhalten der Nachkommenschaft der Rassenbastarde. Berichte der Deutschen Botanischen Gesellschaft,18: 158-168. (1900)
2

Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A.. Dec;74(12):5463Sanger, F. et al. Nucleotide sequence of bacteriophage F X174 DNA. Nature 265, 687-695 (1977).

7.(1977).
3

Antonio Jos Caruz Arcos

humano . Estos proyectos confirmaron que el ensamblaje de pequeos fragmentos de secuencia hasta completar pequeos genomas completos era factible, y mostr el valor de contar con un catlogo completo de los genes y secuencias reguladoras para comprender el binomio estructura-funcin, que caracteriza la expresin gentica de los genomas estudiados. En 1986 Hood describi una mejora en el sistema radiactivo de secuenciacin de Sanger que haca uso de fluorocromos unidos a los dideoxinucletidos lo que permita la lectura secuencial por un ordenador acoplado a un laser. El primer secuenciador automtico fue desarrollado por Applied Biosystems en 1987, demostrando su capacidad cuando dos nuevos genes fueron identificados utilizando esta tecnologa .
8 7

Los

primeros

intentos

de

secuenciacin de fragmentos cromosmicos humanos revelaron que contar con secuencias de ADNc procedentes de la retrotranscripcin de ARNm sera esencial para anotar y validar las predicciones de genes en las secuencias humanas . Estos estudios fueron en parte la base para el desarrollo del mtodo de identificacin gnica denominado Expressed Sequence Tags (EST). La informacin suministrada por los EST permiti un rpido descubrimiento y mapeo de muchos genes humanos . La cantidad creciente de datos generado por la secuenciacin de bancos de ADNc hizo imprescindible el desarrollo de nuevos algoritmos informticos para analizar la informacin y en 1993 The Institute for Genomics Research (TIGR) puso a punto un programa que permita el ensamblaje y anlisis de cientos de miles de ESTs . Los programas para crear un mapa fsico de clones que cubrieran los genomas de la levadura
12 11 10 9

y nematodo , para permitir el aislamiento de genes y regiones

13

completas basndose slo en su posicin cromosmica. El programa para crear un mapa gentico humano que hiciera posible la localizacin de genes de enfermedades de funcin desconocida, basndose solamente en los patrones de ligamiento a genes de posicin conocida .
4

14

Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F. & Petersen, G. B. Nucleotide-sequence of bacteriophage Lambda DNA. J. Mol. Biol.

162, 729-773 (1982).


5 6 7 8

. Fiers, W. et al. Complete nucleotide sequence of SV40 DNA. Nature 273, 113-120 (1978). Anderson, S. et al. Sequence and organization of the human mitochondrial genome. Nature 290, 457-465 (1981). Strauss EC, Kobori JA, Siu G, Hood LE. Specific-primer-directed DNA sequencing. Anal Biochem. Apr;154(1):353-60.(1986). J. Gocayne, et al. Primary structure of rat cardiac beta-adrenergic and muscarinic cholinergic receptors obtained by automated DNA McCombie WR, Martin-Gallardo A, Gocayne JD, FitzGerald M, Dubnick M, Kelley JM, Castilla L, Liu LI, Wallace S, Trapp S, et al. Adams MD, Dubnick M, Kerlavage AR, Moreno R, Kelley JM, Utterback TR, Nagle JW, Fields C, Venter JC. Sequence identification of Adams MD, Kerlavage AR, Fleischmann RD, Fuldner RA, Bult CJ, Lee NH, Kirkness EF, Weinstock KG, Gocayne JD, White O, et al.

sequence analysis: further evidence for a multigene family.Proc. Natl. Acad. Sci. U.S.A. 84, 8296 (1987) .
9

Expressed genes, Alu repeats and polymorphisms in cosmids sequenced from chromosome 4p16.3. Nat Genet. Aug;1(5):348-53.(1992).
10

2,375 human brain genes. Nature. 357(6377):367-8.(1992).


11

Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 377(6547 Suppl):3-174.(1995).
12 13

Olson, M. V. et al. Random-clone strategy for genomic restriction mapping in yeast. Proc. Natl Acad. Sci. USA 83, 7826-7830 (1986). Coulson, A., Sulston, J., Brenner, S. & Karn, J. Toward a physical map of the genome of the nematode Caenorhabditis elegans. Proc.

Natl Acad. Sci. USA 83, 7821-7825 (1986).

Proyecto genoma humano

Desarrollo de poderosas herramientas bioinformticas que permiten el ensamblaje de secuencias solapantes de grandes fragmentos de informacin gentica, as como la optimizacin de algoritmos para la identificacin de genes y secuencias reguladoras. Desarrollo de nuevos equipos de manipulacin masiva de muestras (robots) as como de sistemas de secuenciacin a gran escala (ABI 3700). En 1985, el Consejo Nacional de Investigacin de Estados Unidos, recomend un programa muy amplio en el que se desarrolla en paralelo la secuenciacin de organismos modelo como bacterias, levadura, mosca y nematodo . A priori, el programa deba centrarse en las zonas de ADN ms interesantes, as como en las regiones gnicas codificadoras, dejando para una etapa posterior el anlisis del enorme contenido de ADN repetitivo de distintas clases que existe en el genoma. Simultneamente haba que ir desarrollando toda una infraestructura de tcnicas instrumentales y de anlisis de la informacin generada (programas informticos potentes para gestionar las secuencias y extraer sentido biolgico de ellas, nuevos algoritmos, redes de ordenadores interconectados, bases de datos entrelazados, etc.). El proyecto cont con una asignacin inicial slo en Estados Unidos de unos 3000 millones de dlares para un periodo de 15 aos. Otros pases tambin fueron incluidos en el proyecto inicial, Gran Bretaa fue financiada por el Consejo de Investigacin Mdica (MRC) y la fundacin privada Wellcome Trust, en Francia por el Centre dEtude du Polymorphisme Humain y la asociacin francesa contra la distrofia muscular y Japn por el Ministerio de Educacin y Ciencia. Posteriormente otros pases se incorporaron al proyecto como China y Alemania. Pero el proyecto pblico ha tenido un competidor muy serio en la empresa privada Celera, que en 1999 inici un programa de secuenciacin del genoma humano independiente motivado por intereses comerciales. Ello supuso una autntica revolucin en el consorcio pblico que degener en una frentica carrera para alcanzar la meta antes que el competidor. Aunque Celera estuviese fundamentalmente motivada por intereses econmicos (patentes de genes, identificacin de genes asociados a enfermedades, etc.) su contribucin ha sido enorme en estrategia, desarrollo tecnolgico y sobre todo porque ha acelerado de tal forma el trabajo del consorcio pblico que el borrador del genoma ha sido publicado unos cuatro aos antes de lo programado inicialmente. Espaa, como es habitual, qued al margen del mismo, tan slo un grupo de la Universidad Pompeu Fabra liderado por Roderic Guig, particip en el desafo privado liderado por Celera, contribuyendo con aplicaciones bioinformticas para el ensamblaje de las secuencias. Actualmente el Ministerio de Ciencia y Tecnologa de Espaa ha creado una fundacin llamada Genoma-Espaa
16 15

que financia proyectos de investigacin en genmica.

Tambin existe un programa especfico de financiacin a travs de los fondos generales del Ministerio, pero considero que llega muy tarde y que las cuantas de los proyectos financiados
14 15 16

Berry, R. et al. Gene-based sequence-tagged-sites (STSs) as the basis for a human gene map. Nature Genet. 10, 415-423 (1995). Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989). www.gen-es.org

Antonio Jos Caruz Arcos

no alcanzan el mnimo necesario para que nuestro pas ocupe el puesto en el campo de la nueva Biologa que le corresponde por su capacidad econmica y por el sustrato de investigadores en la materia que tiene. La base tecnolgica genmica est constituyendo ya una nueva revolucin biolgica con aplicaciones en la industria farmacutica, medicina, agricultura y ganadera, sectores esenciales para el desarrollo econmico del pas. A continuacin pasaremos a revisar las dos estrategias de secuenciacin que han seguido tanto el consorcio pblico como Celera. En el siguiente apartado veremos la informacin obtenida del anlisis de la secuencia, fundamentalmente el contenido de elementos repetidos (transposones, repeticiones simples y duplicaciones) as como el contenido en genes del genoma. Luego se analizar la informacin suministrada por la genmica comparativa y las perspectivas que ha abierto el PGH en la investigacin biomdica que va a condicionar el desarrollo de la Gentica durante el prximo siglo.

ESTRATEGIAS DE SECUENCIACIN DEL GENOMA HUMANO


Consorcio pblico (Secuenciacin mediante shotgun jerrquico ) Es una estrategia basada en el ordenamiento de los clones de varias genotecas humanas y su asignacin precisa a una localizacin cromosmica concreta antes de abordar la secuenciacin. Tras las propuestas iniciales , que partieron del ministerio de energa de los EEUU (DOE), al que enseguida siguieron los Institutos Nacionales de la Salud (NIH), qued claro que este magno proyecto no poda consistir en la secuenciacin exclusivamente, sino que habra de constar de varias etapas encadenadas, comenzando por la elaboracin de mapas genticos y fsicos de resolucin cada vez mayor. El soporte que se ha utilizado para clonar los distintos fragmentos del genoma son unos plsmidos denominados BAC
18 17

(Cromosomas Artificiales de Bacterias) y PAC

(Cromosomas Artificiales de P1), que tienen unas caractersticas especiales que los hacen imprescindibles para el PGH. Los plsmidos BAC derivan del clebre plsmido F de E. coli y presenta una caracterstica muy importante: tiene un sistema gentico que controla el nmero de copias por bacteria, limitndolo a una sola. Esta propiedad es fundamental para la estabilidad de insertos grandes derivados de secuencias genmicas ricas en elementos repetidos que pueden sufrir procesos de recombinacin y por tanto de prdida, inversin o translocacin de fragmentos. Los plsmidos PAC incluyen un sistema regulador del nmero de copias similar en estructura a los BACs pero derivados del bacterifago P1 de E. coli. Entre las virtudes de estos vectores podramos destacar las siguientes: Los insertos pueden ser enormes entre 50 y300 Kpb, con un tamao medio de 150 Kpb Ms estables que los cromosomas artificiales de levadura (YACs)

17 18

Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989). Kim, U. J. et al. Construction and characterization of a human bacterial artificial chromosome library. Genomics 34, 213-218 (1996).

Osoegawa, K. et al. Bacterial artificial chromosome libraries for mouse sequencing and functional analysis. Genome Res. 10, 116-128 (2000).

Proyecto genoma humano

Crecen ms deprisa que los YACs Ms fcil purificacin del ADN a partir de cultivos bacterianos Permite un eficaz escrutinio mediante hibridacin o PCR. Posibilidad de seleccin por color de clones recombinantes Sitio de clonacin mltiple muy completo

Las genotecas genmicas fueron construidas a partir de muestras de ADN aisladas de sangre y semen de 8 hombres annimos procedentes de diferentes orgenes geogrficos, para tener una representacin de la variabilidad gentica humana . El ADN original fue digerido con varias enzimas de restriccin que producan cortes solapados en un mismo trozo de cromosoma, consiguindose una redundancia de 65 veces. Una vez generada la genoteca, el PGH hizo uso de dos tipos de cartografa para caracterizarlas, aunque en ltima instancia los mapas generados por los distintos mtodos fueron correlacionados e integrados: cartografa gentica de ligamiento y cartografa fsica. Cartografa gentica de ligamiento. La cartografa gentica se basa en el clculo de la frecuencia con la que se coheredan formas alternativas (alelos) de dos loci genticos que estn ligados formando parte de un mismo cromosoma. Hasta la aparicin de las tcnicas moleculares, los mapas genticos de ligamiento en humanos eran bastante rudimentarios, ya que en su elaboracin no se pueden hacer cruces dirigidos (por obvios motivos ticos) y porque los datos haban de basarse casi exclusivamente en la comparacin de fenotipos normales y los mutantes correspondientes a determinadas enfermedades genticas, y en el recurso a anlisis de familias, a ser posible con registros de varias generaciones y con gran nmero de individuos. La revolucin de la cartografa gentica de ligamiento sobrevino cuando en los aos 80 se recurre al anlisis molecular de zonas de ADN no codificadoras y que son muy polimrficas: existen varios tipos de secuencias (algunas de ellas de naturaleza repetitiva, como los VNTR, los microsatlites, etc.), dispersos por el genoma, cada uno de ellos con varios alelos en el mbito poblacional . Entre las ventajas de los microsatlites se cuentan: contenido informativo muy alto, con lo que los anlisis estadsticos mejoran en fiabilidad; distribucin abundante y relativamente uniforme por todo el genoma; y que se pueden identificar fcilmente mediante PCR. Adems, estos loci genticos sirven en gentica clnica como marcadores tiles para localizar genes relacionados con enfermedades. Los polimorfismos moleculares han permitido que en la actualidad el PGH haya generado detallados mapas genticos del genoma humano a un nivel de resolucin en torno a 1 centimorgan (cM) o incluso menos. Esto ya se logr en 1994, un ao antes de lo previsto, y en buena parte con resoluciones mejores (0.7 cM) .
19

19

20

21

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921. Dunham I. Mapping human chromosomes. Curr Opin Genet Dev. 5(3):328-34. (1995). Donis-Keller, H. et al. A genetic linkage map of the human genome. Cell 51, 319-337 (1987). Gyapay, G. et al. The 1993-94 Genethon

(2001).
20 21

human genetic linkage map. Nature Genet. 7, 246-339 (1994). Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995). Dietrich, W. F. et al. A comprehensive genetic map of the mouse genome. Nature 380, 149-152 (1996). Nusbaum, C. et al. A YAC-based physical map of the mouse genome. Nature Genet. 22, 388-393 (1999).

Antonio Jos Caruz Arcos

La cartografa fsica, tiene como objetivo especificar distancias fsicas en pares de bases (pb) o alguno de sus mltiplos. Obviamente, el mapa fsico de mayor detalle es la propia secuencia del genoma. Pero antes de llegar a obtenerla, hay que elaborar mapas fsicos partiendo de resoluciones bajas y avanzando hacia las resoluciones cada vez mayores. En cierta manera, los mapas fsicos de menor resolucin son los propios cariotipos: la visualizacin microscpica de la dotacin cromosmica haploide humana teida con colorante de Giemsa nos muestra un patrn alternante de bandas claras y oscuras, en el que cada banda tiene una media de unos 7 millones de pares de bases. Si bien los mtodos citogenticos tienen sus limitaciones, no hay que olvidar que actualmente existen novedosas herramientas de citogentica molecular (como las sondas fluorescentes in situ o FISH, la "pintura de cromosomas", etc.)
22

que permiten un mayor detalle y que, unidas a otras tcnicas aumentan el

arsenal de enfoques para el estudio de los genomas, de su dinmica y de sus alteraciones. Los mapas fsicos de mayor resolucin se elaboran a partir de la genotecas en BAC, utilizando dos estrategias, en cierto modo similar a la de ensamblar un rompecabezas: consiste en ordenar los fragmentos del genoma a base de buscar grupos de fragmentos que tienen alguna zona en comn, es decir, ir hallando conjuntos de pares de fragmentos parcialmente solapados. Ello conduce al concepto de contig: un conjunto de fragmentos de un genoma que se han clonado por separado, pero que son contiguos y que estn parcialmente solapados. Los actuales mapas fsicos han de recurrir pues al ensamblaje de esos fragmentos dentro de un contig, y ulteriormente, los distintos contigs correspondientes al mismo grupo de ligamiento han de ser ensamblados entre s: el objetivo final (ideal) sera obtener un gran contig por cada cromosoma, que describiera detalladamente la posicin y distancia fsica (en bases) entre distintos marcadores (representados, por ejemplo , por dianas para enzimas de restriccin). La metodologa de los mapas fsicos ha sido el desarrollo de una especie de "marcadores fsicos universales", fcilmente generables, que permiten que los datos obtenidos en un laboratorio sean rpidamente compartidos y asumidos por toda la comunidad investigadora: se trata de los llamados "lugares etiquetados por su secuencia" (Sequence Tagged Site) . Consisten en trechos cortos de ADN de unas 300-500 pb de media, cuya secuencia exacta se conoce y se sabe que es nica en todo el genoma. Su facilidad de uso y su aceptacin como "lenguaje comn" estriba en que una vez que un investigador descubre una STS, cualquier otro puede obtenerla por s mismo (ni siquiera hace falta el envo fsico de muestras), simplemente fabricando in vitro los cebadores correspondientes a sus extremos y amplificando la STS por reaccin en cadena de la polimerasa (PCR). Los STS definen puntos concretos nicos del mapa fsico, y constituyen magnficos "hitos" o balizas fcilmente detectables. Uno de los objetivos iniciales del PGH era la obtencin de mapas fsicos con unas 30.000 balizas repartidas de modo ms o menos uniforme, de modo que cada dos marcadores consecutivos estn separados una media de 100 kb. Este objetivo se acaba de cumplir, en
23

22 23

Swansbury J. Cytogenetic studies using FISH: background. Methods Mol Biol. 220:173-91. (2003). Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995).

Proyecto genoma humano

buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs segn el contenido de STS de los clones solapados. Estos mapas de STS permiten la integracin de los mapas genticos y fsicos, hacen accesible la fase de secuenciacin y facilitan la clonacin de genes implicados en enfermedades mediante la llamada estrategia de clonacin posicional . Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles errores. Los errores suelen tener dos fuentes principales: algunos clones BACs son en realidad hbridos o quimeras producidas por artefactos durante el proceso de elaboracin de la genoteca, y por lo tanto su mapa no refleja el orden genmico autntico; y por otro lado, los programas de ensamblado de los mapas no son fiables al 100%. De ah la importancia de confirmar y normalizar los datos mediante estrategias aceptadas por todos los investigadores. Dentro del PGH se ha abordando un enfoque paralelo y complementario consistente en secuenciar EST. Estos fragmentos se corresponden con los genes sin intrones que se expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que muestran el patrn de expresin diferencial segn su localizacin histolgica. La etapa siguiente en la cartografa de cada clon BAC o PAC consiste en una versin modificada de la tcnica FISH denominada Fiber FISH, que permite hibridar el contenido de cada clon con el genoma, determinando su posicin exacta dentro de cada cromosoma as como la longitud que ocupa a lo largo del mismo . Una vez que las genotecas estn mapeadas y est identificada la posicin cromosmica de cada clon, se procede a la secuenciacin de cada uno de ellos mediante un sistema de shotgun clsico . El cual presenta unas indudables ventajas con respecto al sistema de paseo cromosmico que requiere la sntesis de nuevos oligonucletidos despus de la secuenciacin de los extremos para determinar la secuencia interna del clon. Debido a que el PGH ha sido desarrollado en varios laboratorios a lo largo del mundo, no ha existido una homogeneidad en cuanto a las herramientas utilizadas, talla media de los insertos shotgun as como los sistemas de secuenciacin (cadena simple o doble) . La automatizacin tambin ha sido variable entre los laboratorios y a lo largo del tiempo, con secuenciadores basados en tecnologa de electroforesis de acrilamida o capilar. En 1999, la mayora se automatizaron hasta alcanzar proporciones casi industriales (7 millones de muestras procesadas cada mes, 1000 nucletidos secuenciados por segundo, 24 horas al da, 7 das a la semana) . La secuencia completa de cada clon BAC es solapada con la de otros clones que mapean en la misma regin dando lugar a una cadena continua que contiene la informacin de varios de ellos formando los llamados Contigs, los cuales a su vez se agrupan en secuencias de mayor tamao denominadas Scaffolds
24

23

24

25

26

26

que representan fragmentos de varias Mb de

Rosenberg C, Florijn RJ, Van de Rijke FM, Blonden LA, Raap TK, Van Ommen GJ, Den Dunnen JT. High resolution DNA fiber-fish on Anderson, S. Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Res. 9, 3015-3027 (1981). Gardner,

yeast artificial chromosomes: direct visualization of DNA replication. Nat Genet. 10(4):477-9. (1995).
25

R. C. et al. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing. Nucleic Acids Res. 9, 2871-2888 (1981). Deininger, P. L. Random subcloning of sonicated DNA: application to shotgun DNA sequence analysis. Anal. Biochem. 129, 216-223 (1983).
26

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001).

Antonio Jos Caruz Arcos

secuencia. Toda esta fase de ensamblaje es dependiente de la bioinformtica, la cual ha sido uno de los objetivos esenciales del PGH, debido a la gigantesca cantidad de datos que hay que recoger, analizar, comparar, interpretar y distribuir. El ensamblaje completo del genoma humano ha dado una estima aproximada de 3200 Gb de secuencia no redundante, lo que concuerda con datos previos sobre el contenido de ADN del genoma. La talla de la porcin eucromtica del genoma se calcula en torno a 2,9 Gb . Celera (Secuenciacin mediante shotgun genmico completo) En 1999, Celera una empresa privada liderada por C. Venter, el antiguo director del TIGR (The Institut for Genomic Research) emprendi la extraordinaria tarea de secuenciar por su cuenta el genoma humano, entrando en competencia directa con el consorcio pblico. El sistema utilizado por Celera para la secuenciacin del genoma difiere del pblico en que prescinde completamente de las etapas iniciales de localizacin de los clones genmicos sobre los cromosomas. Est basada en la secuenciacin directa y posterior ensamblaje de trozos pequeos de informacin gentica aisladas y secuenciadas independientemente y que slo posteriormente son ensambladas en contigs continuos . La genoteca de Celera es completamente diferente a la del proyecto pblico, se parti de ADN de 5 individuos de diferentes orgenes tnicos (2 hombres y 3 mujeres) y se hicieron 3 genotecas diferentes, una en plsmidos de alto nmero de copias (tipo pUC-18) y con insertos de 2 Kb de media. Las otras dos genotecas de 10 Kb y 50 Kb de talla media, fueron clonadas en el clsico vector pBR322 de bajo nmero de copias. Posteriormente se observaron fenmenos de inestabilidad de la genoteca de 50 Kb y fue necesario subclonar los insertos como fragmentos de menor talla. La estrategia de Celera incluy el uso de la ms modernas tcnicas de manipulacin de muestras mediante sistemas robotizados con rastreo de origen que permiten trabajar a un ritmo absolutamente fabuloso: 65 tcnicos de laboratorio, 150 secuenciadores automticos que generan unas 175.000 reacciones de secuenciacin diarias (650 pb de media), durante 24 horas al da y 7 das a la semana (50 millones de reacciones aproximadamente), permitieron que en slo 9 meses tuviesen secuenciado casi el genoma completo con una redundancia de 5,11 veces por cada segmento . El ensamblaje de esta enorme cantidad de informacin se llev a cabo utilizando unas herramientas informticas especialmente diseadas para el proyecto, tanto de hardware como de software. Incluan dos estrategias generales: The Overlapper, tiene su origen en la secuenciacin del genoma de Drosophila y su fundamento es la comparacin de la informacin de cada reaccin de secuenciacin con todas las dems, bsqueda de homologas con menos del 6% de heterogeneidad en fragmentos de al menos 40 pb. Comparacin de los fragmentos ensamblados con la informacin disponible de los clones BAC hechas pblicas en la red por el consorcio internacional.
28 27 26

27

Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

Proyecto genoma humano

Este sistema puede parecer algo falso ya que el gran problema de la integracin de grandes fragmentos de informacin generada por el software de Celera tiene un sistema de verificacin y control independiente que son los clones BAC de acceso pblico. Sin embargo, la secuenciacin posterior del genoma del ratn metodologa. Sin embargo, la informacin suministrada por Celera est empobrecida de elementos repetidos, fraccin muy importante del genoma completo, ya que un mismo transposn puede tener miles de copias dispersas por todo el genoma con un grado de homologa altsimo (casi el 100%) lo que implica que si la secuenciacin no incluye las secuencias flanqueantes es virtualmente imposible asignarle una posicin concreta en el laberinto genmico .
28 28

usando slo el sistema de whole genome

shotgun sin necesidad de recurrir a la informacin de mapeo, valida a posteriori esta radical

ANLISIS DE LA INFORMACIN CONTENIDA EN EL GENOMA HUMANO


En esta seccin estudiaremos las caractersticas biolgicas a gran escala que presenta el genoma humano, as como el contenido de secuencias repetidas y de genes. Contenido en secuencias repetidas Una de las observaciones iniciales de la Gentica Molecular fue que el tamao de los genomas no est correlacionado con la complejidad del organismo al que pertenece (paradoja del valor C). Por ejemplo, Homo sapiens tiene un genoma 200 veces mayor que el de Saccharomyces cerevisiae, pero 200 veces ms pequeo que el del protozoo Amoeba dubia . Este misterio fue resuelto cuando se demostr que los genomas pueden contener una enorme cantidad de ADN altamente repetido que supera con creces el ADN implicado en la produccin de protenas. En el genoma humano slo el 5% son genes de los cuales tan slo un 1% aproximadamente son exones que se traducen a protenas. Por el contrario, las secuencias repetidas constituyen como mnimo el 50% del total. En general este tipo de secuencia puede ser clasificada en 3 grupos: 1. Transposones o secuencias derivadas de la actividad de ellos (incluyendo pseudogenes) 2. Secuencias simples repetidas, constituidas por repeticiones directas cortas de una, dos, tres o ms bases (satlites, minisatlites y microsatlites) 3. Duplicaciones segmentales, consistentes en bloques de 1-300 Kb que han sido copiados desde una regin a otra diferente Estas repeticiones fueron tomadas como ADN basura y minusvaloradas por los investigadores, sin embargo actualmente estn consideradas como una de las ms potentes
28

29

Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562. Li, W. -H. Molecular Evolution (Sinauer, Sunderland, Massachusetts, 1997). Gregory, T. R. & Hebert, P. D. The modulation of DNA

(2002).
29

content: proximate causes and ultimate consequences. Genome Res. 9, 317-324 (1999). Hartl, D. L. Molecular melodies in high and low C. Nature Rev. Genet. 1, 145-149 (2000).

10

Antonio Jos Caruz Arcos

fuerzas que determinan la evolucin de los genomas, siendo utilizadas adems como herramientas en Gentica mdica y forense. Tambin han despertado el inters de los farmaclogos ya que alguna de las dianas de drogas utilizadas a gran escala presentan genes parlogos en fragmentos duplicados a lo largo de diferentes cromosomas y algunas duplicaciones estn asociadas con enfermedades genticas producidas por fenmenos de microdelecin generados por recombinacin desigual entre ellos. A continuacin profundizaremos en el anlisis de cada uno de estos tipos de elementos repetidos de nuestro genoma y evaluaremos las implicaciones que tienen cada uno de ellos en estudios sobre la evolucin humana y sus implicaciones mdicas. Repeticiones derivadas de transposones La mayora de las repeticiones presentes en el genoma humano, derivan de la actividad de los transposones, aproximadamente un 45% de nuestro genoma pertenece a esta clase de secuencia. En general los tipos de transposones pueden clasificar de la siguiente forma : Mecanismo replicativo Con intermediario de ARN Sin intermediario de ARN Los LINES
31 30

Autnomos Retroposones (LINES) Retrotransposones (LTR) Transposones de ADN

Dependientes Retroposones (SINES)

(Long Interspersed Elements) tienen un tamao medio de 6 Kb, tienen un

promotor interno para la ARN polimerasa II y codifican para dos protenas. Una vez traducido el ARNm se une a las propias protenas producidas y se transloca al ncleo, donde una actividad endonucleasa genera un corte en el ADN nuclear y una actividad retrotranscriptasa utiliza el ADN monocatenario generado por el corte como cebador para la sntesis del ADNc. Muchas veces la retrotranscriptasa no alcanza el extremo 5del ARNm generando elementos truncados no funcionales. De hecho la mayora de estos elementos tienen una talla media de 900 pb (LINE 1). El sitio de insercin presenta una duplicacin de 7 a 20 pb. La actividad enzimtica de estos elementos es la responsable de la mayora de la actividad retrotranscriptasa del genoma humano y pueden actuar en trans sobre ARN que presenten cierta homologa de secuencia en su extremo 3terminal como son los elementos SINE. En el genoma humano existen 3 familias de LINES y slo una de ellas continua en activo (LINE 1) . Los elementos SINES
31 31

(Short Interspersed Elements), son pequeos tienen una talla

media de 100-400 pb, no codifican para protenas y contienen un promotor interno de la ARN polimerasa III. Utilizan en trans la maquinaria de los LINE por homologa con el extremo 3 de los mismos. La mayora de las familias de SINEs derivan de ARNt (elementos MIR y Ther2)

30 31

N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989). International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001).

11

Proyecto genoma humano

aunque la ms prolfica y an activa en nuestro genoma, denominada Alu, procede de un ARN pequeo no codificante que est implicado en el transporte de protenas (7SL). Los retrotransposones
30

estn flanqueados por dos repeticiones largas terminales

(LTR) que contienen todas las seales en cis de inicio de la transcripcin. Contienen dos genes principales gag y pol, que codifican para varias protenas independientes: proteasa, retrotranscriptasa, ARNasa-H e integrasa. Los retrovirus derivan de estos elementos por la incorporacin de un gen extra denominado env (envuelta) que les permite realizar una transposicin cruzada entre dos genomas. Los datos avalan la hiptesis de que los genes env de retrovirus proceden de receptores de superficie de virus como Baculovirus o Herpesvirus . El sistema de replicacin incluye tambin un intermediario de ARN pero las caractersticas de la retrotranscripcin son completamente diferentes a los LINES, utilizando como cebador para la sntesis del ADNc un ARNt especfico. Los retrotransposones de mamferos pertenecen a 3 clases generales (I, II y III) cada uno de ellos con muchas familias. En el genoma humano casi el 85% de las secuencias derivadas de retrotransposones constan slo de LTRs aisladas o elementos truncados no funcionales. Los transposones de ADN
33 32

son muy similares a los bacterianos, con repeticiones

terminales invertidas y con una movilidad dependiente de un sistema de corte y pegado que puede ser replicativo o conservativo. El genoma humano contiene unas 7 clases generales que se dividen en varias familias segn su grado de parentesco filogentico. Los transposones de ADN presentan una vida funcional relativamente corta en un genoma, ya que a diferencia de los elementos LINE en los que hay una preferencia en cis para la insercin (slo se transponen los funcionales), la transposasa codificada por estos elementos es producida en el citoplasma pero ejerce su actividad en el ncleo donde no puede distinguir entre las formas activas o inactivas de los elementos. Por ello cuando el nmero de copias no funcionales se incrementa en el genoma, la transposicin comienza a ser cada vez menos eficaz y el elemento sufre una muerte funcional. Para sobrevivir en el tiempo, necesitan colonizar nuevos genomas mediante transferencia horizontal y existen numerosas pruebas que indican que as ocurre . El censo de transposones en el genoma humano ha revelado unas cifras extraordinariamente altas (ver tabla 1): SINES: 13% LINES: 20% LTR: 8% Transposones de ADN: 3%
34

32

Malik HS, Henikoff S, Eickbush TH. Poised for contagion: evolutionary origins of the infectious abilities of invertebrate retroviruses. N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989). Haring, E., Hagemann, S. & Pinsker, W. Ancient and recent horizontal invasions of Drosophilids by P elements. J. Mol. Evol. 51, 577-

Genome Res. 2000 10(9):1307-18.


33 34

586 (2000). Koga, A. et al. Evidence for recent invasion of the medaka fish genome by the Tol2 transposable element. Genetics 155, 273-281 (2000). Robertson, H. M. & Lampe, D. J. Recent horizontal transfer of a mariner transposable element among and between Diptera and Neuroptera. Mol. Biol. Evol. 12, 850-862 (1995). Simmons, G. M. Horizontal transfer of hobo transposable elements within the Drosophila melanogaster species complex: evidence from DNA sequencing. Mol. Biol. Evol. 9, 1050-1060 (1992).

12

Antonio Jos Caruz Arcos

Tabla 1: Nmero de copias y fraccin del genoma para cada clase de transposn35

Tipo de transposn SINEs Alu MIR MIR3 LINEs LINE1 LINE2 LINE3 LTR ERV-I ERV(K)-II ERV-L MaLR Elementos de ADN MER1-Charlie Zaphod MER2-Tigger Tc2 Mariner Similar a PiggyBac Otros No clasificados

Copias (x1000) 1,558 1,090 393 75 868 516 315 37 443 112 8 83 240 294 182 13 57 4 14 2 22 3

Total de bases en el genoma 359.6 290.1 60.1 9.3 558.8 462.1 88.2 8.4 227.0 79.2 8.5 39.5 99.8 77.6 38.1 4.3 28.0 0.9 2.6 0.5 3.2 3.8

% del genoma 13.14 10.60 2.20 0.34 20.42 16.89 3.22 0.31 8.29 2.89 0.31 1.44 3.65 2.84 1.39 0.16 1.02 0.03 0.10 0.02 0.12 0.14

N de familias (subfamilias) 3 1 (20) 1 (1) 1 (1) 3 1 (55) 1 (2) 1 (2) 4 72 (132) 10 (20) 21 (42) 1 (31) 7 25 (50) 4 (10) 12 (28) 1 (5) 4 (5) 10 (20) 7 (7) 3 (4)

Los transposones han constituido una poderosa fuerza en la configuracin actual de nuestro genoma, la actividad de los transposones ha dado lugar a varios fenmenos importantes que podramos resumir de la siguiente manera : Produccin de pseudogenes funcionales Produccin de nuevos genes Generacin de nuevos patrones de expresin gnica Agentes del caos cromosmico Los pseudogenes funcionales pueden aparecer por insercin de un ADNc una posicin cercana a un promotor, cambiando el patrn original de
36

retrotranscrito en

expresin de dicho gen (tabla 2). Tambin nuevos patrones de expresin gnica pueden aparecer por la insercin de un elemento completo o un fragmento del mismo en las proximidades una regin codificante, generando nuevas secuencias reguladoras en cis como promotores completos, potenciadores y silenciadores de la transcripcin, sitios de splicing. Este fenmeno ha sido observado fundamentalmente con LTR aisladas procedentes de retrotransposones defectivos (tabla 3). Nuevos genes tambien han aparecido por fusin accidental de secuencias procedentes de transposones con genes humanos como una familia de unos 11 factores de transcripcin (Zn finger) hbridos o han sido probablemente tomados directamente de transposones por ejemplo:
35

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921. Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238

(2001).
36

115134. (1999).

13

Proyecto genoma humano

Recombinasas RAG1 y RAG2 Protena principal centromrica (CENPB) Telomerasa Transposasa de expresin cerebral
Tabla 2: Genes funcionales con origen en la actividad de transposones37

Retrogen, expresin, cromosoma Fosfoglicerato kinasa testicular; Chr 9 Piruvato deshidrogenasa (Pdha2); testculo; chr 12 Calmodulin; tejido epitelial; chr 10 Glutamato deshid. (GLUD2); retina, testculo, cerebro; X Factor splicing pancreas, bazo, prstata; chr 11 CDY, chr 15

Gen original, expresin cromosoma

CARACTERSTICAS Intrones Poli-A Repeticiones directas + REFERENCIA

Pgk-1; constitutiva; chr X

No

38

Pdha1; constitutiva; chr X

No

39

CaMIII; ubcua; chr 2

No

40

GLUD1; ubcua; chr 10

No

41

PR264/SC35; timo, bazo, rin, pulmn; chr 17 CDYL; ubcuo chr 13

No No

42 43

Los transposones no slo han influido a nivel molecular como acabamos de ver, sino que se han postulado como responsables en parte de procesos de cambio en la estructura de cromosomas como inversiones, translocaciones y duplicaciones que pueden estar en el origen de algunos fenmenos de especiacin. Este papel de induccin de la inestabilidad cromosmica ha sido estudiado en Drosophila melanogaster organismos.
44

y Zea mais

45

entre otros

37

Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238 Adra, C.N., Ellis, N.A., McBurney, M.W. The family of mouse phosphoglycerate kinase genes and pseudogenes. Somatic Cell Mol. Fitzgerald, J., Hutchison, W.M., Dahl, H.-H.M. Isolation and rRNA affects translational efficiency. Proc. Natl. Acad. Sci. USA 96, 1339 Linnenbach, A.J. et al. Retroposition in a family of carcinoma-associated antigen genes. Mol Cell. Biol. 13, 15071515. (1993). Papamatheakis, J., Plaitakis, A., 1994. Novel human glutamate. Alu dehydrogenase expressed in neural and testicular tissues Soret, J. et al. SRp46, a novel human SR splicing factor encoded by a PR264/ SC35 retropseudogene. Mol. Cell. Biol. 18, 49244934. Lahn, B.T., Page, D.C. Retroposition of autosomal mRNA sequences in yielded testis-specific gene family on human Y chromosome. Cceres M. et al. Generation of a widespread Drosophila inversion by a transposable element. Science 285, 415-418. (1999). Zhang J. & Peterson T. Genome rearrangements by nonlinear transposons in maize. Genetics 153, 1403-1410. (1999).

115134. (1999).
38

(1988)
39

1344. Biochim. Biophys. Acta 1131, 8390. (1992).


40 41

encoded by an X-linked intronless gene. J. Biol. Chem. 269, 1697116976. (1993).


42

(1988).
43

Nat. Genet. 21, 429433. (1999).


44 45

14

Antonio Jos Caruz Arcos

Tabla 3: Elementos de control de la expresin gnica derivados de transposones46 Origen ERV9 HERV-E LINE LINE-2 THE-1 HERV-K HERV-H Elemento LTR LTR Promotor ALF Gen especfico LTR LTR Gen influido ZNF80 zinc finger Amilasa salival apolipoproteina anexina VI, interleucina-4, protena quinasa C-b Cadena pesada de las inmunoglobulinas leptin receptor (OBRa) HHLA2 Sirve como Promotor Promotor Enhancer Silenciador especfico de tejido Secuencia codificante Splicing alternativo Seal de poliadenilacin
47 48 49

Referencia

50

51

52

53

Si comparamos el porcentaje del genoma humano ocupado por elementos transponibles y lo comparamos con la secuencia genmica de otros eucariotas superiores como Drosophila , Caenorhabditis
54 55

o Arabidopsis , podemos observar algunas diferencias

56

significativas. El genoma humano es mucho ms rico en transposones que especies inferiores en la escala evolutiva, si consideramos el contenido total tendramos la siguiente imagen: Drosophila: 3,1% Caenorhabditis: 6,5% Arabidopsis: 10,5% Homo: 45% Si lo comparamos con el ratn , el nmero en esta especie es ligeramente inferior al del hombre (35%), pero existen dudas sobre ello, debido a que el sistema de whole genome shotgun empleado para la secuenciacin del ratn subestima el nmero real de elementos
46

57

Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238 Di Christofano, A., Strazzullo, M., Longo, L., La Mantia, G. Characterization and genomic mapping of the ZN80 locus: expression. A Samuelson, L.C., Wiebauer, K., Snow, C.M., Meisler, M.H. Retroviral and pseudogene insertion sites reveal the lineage of human Yang, Z., Boffelli, D., Boonmark, N., Schwartz, K., Lawn, R. Apolipoprotein(a) gene enhancer resides within a LINE element. Morgan, R.O., Fernandez, M.P. TA BC200-derived element and Z-DNA as structural markers in annexin I genes: Relevance to Alu Hakim, I., Amariglio, N., Grossman, Z., Simoni-Brok, F., Ohno, S., Rechavi, G. The genome of the THE I human transposable

115134. (1999).
47

comprehensive endogenous retroviral family. Nucleic Acids Res. 23, 28232830. (1985).
48

salivary and pancreatic amylase genes from a single during primate evolution. Mol. Cell. Biol. 10, 25132520. (1990).
49

J. Biol. Chem. 273, 891897. (1998).


50

evolution and annexin tetrad formation. J. Mol. Evol. 41, 973985. (1995).
51

repetitive elements is composed of a basic motif homologous to an ancestral immunoglobulin gene sequence. Proc. Natl. Acad. Sci. USA 91, 79677969. (1994).
52

Kapitonov, V.V., Jurka, J. The Long Terminal Repeat of an endogenous retrovirus induces alternative splicing and encodes an Mager D.L. (Polyadenylation function and sequence variability of the long terminal repeats of the human endogenous retrovirusMyers, E. W. et al. A whole-genome assembly of Drosophila. Science 287, 2196-2204 (2000). The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: A platform for investigating biology. Science Paterson, A. H. et al. Comparative genomics of plant chromosomes. Plant Cell 12, 1523-1540 (2000). Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.

additional carboxy-terminal sequence in the human leptin receptor. J. Mol. Evol. 48, 248251. (1999).
53

like family RTLV-H. Virology 173, 591599. 1989).


54 55

282, 2012-2018 (1998).


56 57

(2002).

15

Proyecto genoma humano

transponibles, tal como ocurre cuando se comparan los resultados del consorcio pblico con los de Celera que da un total de 35% del genoma como transposones (9% inferior al IHGSC). El genoma humano aparece lleno de fsiles de transposones mientras que los otros genomas tienen tendencia a tener elementos ms recientes, la explicacin puede estar en que en el genoma de los insectos se producen deleciones con una frecuencia 75 veces superior al genoma de mamferos, siendo el tiempo de vida media en el genoma de los elementos no funcionales de 12 millones de aos en Drosophila y en torno a 800 millones de aos en los mamferos . En el genoma humano existen dos familias predominantes relacionadas entre si los LINE1 y Alu que constituyen por si mismas el 60% del total de los elementos repetidos, mientras que en los otros organismos estudiados son los transposones de ADN los que predominan, constituyendo: Drosophila: 25% Arabidopsis: 49% Caenorhabditis: 85% Esta frecuencia es compartida con el genoma del ratn y sugiere que los eventos de transmisin horizontal a la lnea germinal de transposones de ADN es ms difcil, debido probablemente a limitaciones impuestas por la anatoma y el sistema inmunitario. El anlisis de los sitios de insercin de los transposones ha revelado algunos datos importantes que se aplican en la investigacin de la evolucin y diversificacin de la humanidad, los elementos LINE 1 estn an activos y su transposicin puede medirse incluso en cultivos celulares. Las poblaciones humanas no son homogneas en cuanto a la distribucin de algunos elementos LINE, ya que la insercin en ciertos puntos del genoma se produjo posteriormente a la separacin de dos poblaciones que tenan un origen ancestral . Por ello han sido utilizados para trazar el grado de parentesco entre poblaciones humanas, los LINES presentan una serie de ventajas con respecto a otros sistemas de anlisis filogentico: Diagnstico simple por PCR Polimorfismos estables Su presencia indica identidad de antepasados (probababilidad casi cero de identidad de insercin) La ausencia de su insercin sera incicativo del origen del rbol filogentico Pueden ser incluso especficos de una sola familia
59 58

El conocimiento del genoma completo va a dotar de una herramienta potente para estudiar en profundidad los procesos de migracin y seleccin que han caracterizado nuestra historia durante los ltimos miles de aos. Otra aplicacin potencial del anlisis de los sitios de insercin de los elementos transponibles son la identificacin de zonas reguladoras a gran escala del genoma. Por

58 59

Petrov, D. A., Lozovskaya, E. R. & Hartl, D. L. High intrinsic rate of DNA loss in Drosophila. Nature 384, 346-349 (1996). Sheen F. et al. Reading between the LINEs: Human Genomic Variation Induced by LINE-1 Retrotransposition. Genome Research 10,

1496-1508. (2000).

16

Antonio Jos Caruz Arcos

ejemplo cuando se analiz la zona del cromosoma 2 que contiene algunos genes hometicos, se ha observado que la frecuencia de transposones es extraordinariamente baja con respecto a otros fragmentos situados en el mismo cromosoma, otros ejemplos son : 8q21: 1,5% de transposones en 63 Kb, contiene genes de factores de transcripcin 1p36: 5% en 100 Kb, sin genes identificables 18q22: 4% en 100 Kb, tres genes de funcin desconocida
60

La presencia de exones codificantes para protenas o promotores podra limitar seriamente la insercin, pero la paradoja est en que la mayor parte de la secuencia libre de transposones tampoco contiene exones codificantes ni ninguna secuencia reguladora conocida. Es altamente probable que esta observacin nos est indicando la presencia de algo nuevo, de funcin desconocida pero absolutamente esencial para la supervivencia del organismo. Repeticiones simples repetidas en tandem Constituyen el 3% del genoma humano y pueden ser divididos en tres tipos : 1. Satlites: tienen una unidad repetida de <5 hasta > 200 pb, su tamao es muy grande e incluye varias Mb y forman los centrmeros, aunque pueden tambin aparecer dispersos por otras localizaciones genmicas 2. Minisatlites: unidad repetida de 14 a 500 pb, su tamao hasta 20 Kb, estn relacionados con la funcin telomrica 3. Microsatlites: unidad repetida: 1-13pb, tamao < 150pb, son de funcin variada, unos incluyen exones, UTRs, o tiene funcin desconocida. Son extraordinariamente polimrficos e inestables (se acortan o alargan a travs de las generaciones). Los satlites y minisatlites estn poco representados en la secuencia final del genoma humano, probablemente porque son inestables incluso en los plsmidos BAC. Los microsatlites por el contrario han recibido mucha atencin por parte de los investigadores biomdicos. Constituyen la herramienta principal para realizar clonacin posicional, que evala la frecuencia con la que se cohereda una enfermedad o carcter fenotpico con alguno de los microsatlites descritos (anlisis de ligamiento). Este sistema est tan perfeccionado que algunas empresas como Applied Biosystems o Beckman han optimizado un sistema que permite genotipar el tamao de 1200 microsatlites dispuestos a lo largo del genoma en tan slo 20 reacciones de PCR mltiple. En unos pocos das, contando con un conjunto lo suficientemente amplio de familias se puede identificar la zona portadora del gen de inters con una distancia de 10 centimorgans. El uso de otros marcadores polimrficos de la zona candidata permite luego ir acotando la regin hasta encontrar un ligamiento absoluto. El proyecto genoma ha permitido aumentar el catlogo de microsatlites disponibles para este tipo de aplicaciones.
62

60

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001).

17

Proyecto genoma humano

Los microsatlites tambin estn asociados con enfermedades ya que si la inestabilidad en el nmero de repeticiones incluye regiones codificantes o reguladoras puede afectar a la expresin o funcin del gen afectado, por ejemplo el Sndrome del X frgil o el Corea de Huntington tienen este origen. Se han descrito algunas enfermedades cuya base molecular est en la inestabilidad de microsatlites formados por trinucletidos. El descubrimiento de la base molecular de enfermedades genticas de origen desconocido, podra verse potenciado mediante la bsqueda de genes que contienen microsatlites y que seran susceptibles de sufrir procesos de expansin . Duplicacin de segmentos Un 5% del genoma humano est duplicado en varias localizaciones cromosmicas independientes, hecho que implica la transferencia de bloques de 1 a 200 Kb a una o varias localizaciones cromosmicas . Probablemente son muy recientes ya que el grado de homologa es muy alto y no aparecen en especies relacionadas filogenticamente. Las duplicaciones pueden ser incluso especficas de una poblacin revelando un grado ms en la variabilidad gentica humana. Las duplicaciones pueden dividirse en dos tipos: 1. Intercromosmicas: Segmentos duplicados entre cromosomas no homlogos, por ejemplo 9,5 Kb del locus de la adrenoleucodistrofia del cromosoma X aparece duplicado en zonas prximas a los centrmeros de los cromosomas 2, 10, 16 y 22 . 2. Intracromosmicas: Segmentos duplicados dentro del mismo cromosoma, por ejemplo en el cromosoma 17 aparecen duplicados en tndem 3 fragmentos de 200 Kb separados por 5 Mb con un 99% de homologa . El anlisis de la distribucin de duplicaciones ha revelado que las regiones pericentromricas estn constituidas fundamentalmente por duplicaciones intercromosmicas con poca secuencia nica. Tambien las regiones situadas en los telmeros tienen este origen. En algunos casos como el cromosoma 22, una regin pericentromrica de 1,5 Mb (5% de la secuencia total del cromosoma) contiene el 52% del total de duplicaciones intercromosmicas. Las regiones pericentromricas son muy complejas (figura 1), parecen haber sido bombardeadas con sucesivas inserciones. El grado de homologa con la secuencia original parloga es muy alto (96-100%) lo que sugiere que tienen un origen muy reciente en trminos evolutivos. Las diferentes inserciones aparecen situadas entre minisatlites ricos en A+T o C+G. A veces un solo fragmento ha sido duplicado en regiones pericentromricas de varios
64 63 62 61

61

Broman, K. W., Murray, J. C., Sheffield, V. C., White, R. L. & Weber, J. L. Comprehensive human genetic maps: individual and sex-

specific variation in recombination. Am. J. Hum. Genet. 63, 861-869 (1998). The BAC Resource Consortium. Integration of cytogenetic landmarks into the draft sequence of the human genome. Nature 409, 953-958 (2001).
62

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921. Eichler, E. E. et al. Interchromosomal duplications of the adrenoleukodystrophy locus: a phenomenon of pericentromeric plasticity.

(2001).
63

Hum. Mol. Genet. 6, 991-1002 (1997).Horvath, J. E., Schwartz, S. & Eichler, E. E. The mosaic structure of human pericentromeric DNA: a strategy for characterizing complex regions of the human genome. Genome Res. 10, 839-852 (2000).

18

Antonio Jos Caruz Arcos

cromosomas, por ejemplo la regin que contiene el locus ADL del cromosoma X aparece duplicada en otros 5 cromosomas.

Figura 1: Patrn de duplicaciones del cromosoma 22, las intercromosmicas estn representadas en rojo y las intracromosmicas en azul

Varios estudios han demostrado que las poblaciones humanas son polimrficas para otras duplicaciones, por ejemplo el locus de los receptores olfativos. Estas observaciones sugieren que el anlisis de las duplicaciones polimrficas pueden ser aplicadas como marcador de dispersin de poblaciones humanas . Contenido en genes La definicin de gen ha experimentado una evolucin a lo largo de la historia de la gentica, desde los factores indivisibles mendelianos hasta un gen-una protena pasando por un gen-una enzima. Sin embargo la definicin actual de gen es ms amplia: fragmento de ADN que contiene informacin funcional para la sntesis de una molcula de ARN o protena (la mayora de los textos se olvidan de los miles de virus con genoma de ARN!). Sin embargo esta definicin oficial tambin podra cambiar en el futuro. Li y Graur
65 64

proponen que un gen es una

secuencia de ADN o ARN que es esencial para una funcin especfica, bien sea en el desarrollo o en el mantenimiento de la funcin fisiolgica normal. Esta definicin implica que un gen esencial podra no necesitar ni siquiera traducirse o transcribirse a ARN.Esta definicin de gen incluira: 1. Los genes que codifican para protenas.

64

Trask, B. J. et al. Members of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near

the ends of human chromosomes. Hum. Mol. Genet. 7, 13-26 (1998). Trask, B. J. et al. Large multi-chromosomal duplications encompass many members of the olfactory receptor gene family in the human genome. Hum. Mol. Genet. 7, 2007-2020 (1998).
65

Li, W.-H. y D. Graur. Fundamentals of Molecular Evolution. Sinuaer Associates, Sunderland, MA.(1991).

19

Proyecto genoma humano

2. ARNs especficos que solo se transcriben. 3. Los genes reguladores sin transcriptos, tales como los orgenes de replicacin (que especifican el sitio de iniciacin y terminacin de la replicacin del ADN). 4. Genes de recombinacin (que proveen los sitios de engarce para las enzimas de recombinacin). 5. Genes de segregacin (los sitios especficos para que las fibras del huso durante la meiosis se adhieran a los cromosomas durante la segregacin en mitosis y meiosis). A pesar de lo anterior en esta seccin considerar slo los genes que se transcriben y codifican para protenas o ARN no codificantes gen. Genes para ARN no codificante Existen varios tipos de ARN no codificante: 1. ARN de transferencia 2. ARN ribosmico 3. ARN pequeos nucleolares (implicados en la modificacin de las bases del ARNt y ARNr) 4. ARN pequeos nucleares (implicados en el splicing de los intrones) 5. ARN telomrico (componente de la telomerasa) 6. ARN no codificante variado, a veces con funcin conocida como el ARN 7SL implicado en el transporte de vesculas o el ARN Xist asociado a la inactivacin del cromosoma X. Pueden contiener intrones y colas de adenina aunque otros carecen de ellos. La tabla 3 representa los ARN no codificantes estudiados en el genoma humano . Se han hallado menos ARNt de los esperados, probablemente debido a que su nmero estaba sobrevalorado por la presencia de pseudogenes derivados de ellos. El catlogo incluye un ARNt especfico para la selenocistena, que incorpora este aminocido en el codn UGA en ciertos ARNm que incorporan una secuencia en cis especfica en su extremo 3 no traducido (elemento SECIS). Existen miles de pseudogenes derivados de la retrotranscripcin de ARN no codificantes, especialmente U6, hY y 7SL. Este ltimo es el origen de los elementos Alu pertenecientes a los SINES que constituyen el 13% de la secuencia total del genoma. El 98% del total de transcritos del genoma humano son ARN no codificantes, los ARNr y ARTt constituyen la mayora, sin embargo recientemente estamos asistiendo a un cambio importante en la visin que tenemos de la transcripcin del genoma. Segn John Mattick , el dogma central de la biologa molecular est incompleto y los ARNnc constituyen una escala ms en la expresin gnica de los eucariotas que permite la integracin/interrelacin entre complejos patrones de actividad gnica. En eucariotas superiores existen numerosos
66

66

de acuerdo con el concepto mas extendido de

68

67

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921. Mattick J.S. Non-conding RNAs: the architects of eukaryotic complexity. EMBO reports 21, 986-991. (2001).

(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
67

20

Antonio Jos Caruz Arcos

fenmenos genticos poco comprendidos que incluyen ARN de interferencia, co-supresin, silenciamiento de transgenes, impronta, metilacin del ADN y compensacin de dosis del cromosoma X, todos los cuales comparten algo en comn: interacciones entre ADN-ARN o ARN-ARN, as como remodelacin de la cromatina .
Tabla 4: Genes de ARN no codificante identificados en el genoma humano Genes ARNt ARNr 18 S ARNr 5,8 S ARNr 28S ARNr 5 S U1 U2 U4 U4atac U5 U6 U6atac U7 U11 U12 7SL ARNasa P ARNasa MRP ARN telomrico hY1 hY3 hY4 hY5 Vault 7SK H19 Xist ARNsno c/d ARNsno h/aca 1 1 1 811 16 Nmero esperado 1310 150200 150200 150200 200300 30 1020 ?? ?? ?? ?? ?? 1 1 1 4 1 1 1 1 1 3 1 Nmero encontrado 497 0 1 0 4 16 6 4 1 1 44 4 1 0 1 3 1 1 1 1 25 3 1 3 1 1 1 69 15 Genes relacionados 324 40 11 181 520 134 94 87 20 31 1,135 32 3 6 0 773 2 6 4 353 414 115 9 1 330 2 0 558 87 Funcin Sntesis protica Sntesis protica Sntesis protica Sntesis protica Sntesis protica Splicing intrones Splicing intrones Splicing intrones Splicing intrones Splicing intrones Splicing intrones Splicing intrones Splicing intrones Splicing intrones Splicing intrones Secrecin protenas Procesado ARNt Procesado ARNr Replicacin telmeros Desconocida Desconocida Desconocida Desconocida Desconocida Desconocida Desconocida Inactivacin cromosoma X Procesado ARNr Procesado ARNr
69

Aunque an no se ha realizado un catlogo completo de los ARNnc del genoma humano, un equipo internacional denominado Phantom
68

ha aislado unos 60.000 ARN

expresados en el ratn. Una de las conclusiones ms impactantes es que 15.815 de ellos son ARNnc potencialmente funcionales. El 71% de ellos no contienen intrones (frente al 18% de los codificantes para protenas), pero estn poliadenilados y por ello son probablemente producto de la ARN polimerasa II. Muchos de ellos presentan ortlogos en el genoma humano. Es interesante constatar que 2.431 de estos ARNnc forman parejas sentido/antisentido de al menos 20 bases con exones de otros ARNm previamente descritos, lo que sugiere que podran
68

The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome

based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).

21

Proyecto genoma humano

funcionar como ARN antisentido reguladores. Existen ya suficientes ejemplos de la importancia de los ARNnc en diferentes etapas de la regulacin de la expresin gnica (Tabla 5). Hay muchos ms ARNnc de lo que suponamos, uno de los desafos de la Gentica para los prximos aos ser completar el catlogo y elucidar su funcin. La genmica comparativa con otros genomas emparentados al humano como el de ratn, constituir una herramienta poderosa para determinar las regiones del genoma en las que ha existido una gran presin selectiva en contra de la fijacin de mutaciones y que no cuentan con exones implicados en la sntesis de protenas. Por ejemplo Dubchak , utilizando un novedoso algoritmo bioinformtico han encontrado zonas no codificantes altsimamente conservadas comparado un fragmento cromosmico concreto de ratn, perro y humano (Figura 2). Estas regiones podran ser zonas reguladoras en cis como potenciadores de la transcripcin, pero si se comprueba experimentalmente que se transcriben, podran constituir candidatos de ARNnc funcionales.
Tabla 5: Procesos afectados por ARNnc70
69

Proceso Transcripcin

Ejemplo SRA humano 7SK humano

Funcin Coactivador receptor esteroides Inhibidor de factor de elongacin P-TEFb Inactivacin cromosoma X Impronta gen IgfII Replicacin de los telmeros Etiqueta ARNm especficos para degradacin Reprime la traduccin Degradacin protenas mal plegadas Transporte protenas a travs de membranas

Silenciamiento gnico Xist humano Air humano Replicacin ADN Estabilidad ARNm Traduccin Estabilidad protenas Translocacin protenas Los genes codificantes para protenas ARN telomerasa ARNmi eucariota Lin-4 C.elegans ARNtm de E. coli ARN 7SL humano

La identificacin de este tipo de genes es una de las aplicaciones ms importantes de los datos de secuenciacin, pero constituye tambin uno de los mayores retos ya que la cantidad de secuencia codificante es muy baja (1-1,5%), los exones pueden ser muy pequeos y las regiones conservadas de promotores o maduracin del ARN pueden no ser evidentes. Antes de comentar los resultados sobre la identificacin de genes de novo a partir de la secuencia en bruto, analizaremos los datos obtenidos sobre genes previamente conocidos cuya secuencia se encuentra depositada en los bancos de datos (Embl, NCBI, etc.) .
71

69

Dubchak I. et al. Active conservation of non coding sequences revealed by three-way species comparisons. Genome Research 10, Volker A. et al. Collection of mRNA-like non-coding RNAs. Nucl. Acid. Resear. 27, 192-195. (1999). International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

1304-1306. (2000).
70 71

(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

22

Antonio Jos Caruz Arcos

hombre/perro hombre/ratn ratn/perro

hombre/perro hombre/ratn ratn/perro

hombre/perro hombre/ratn ratn/perro

Figura 2: Comparacin de un fragmento cromosmico de ratn, perro y humano. Azul: Exones, Rojo: No codificante.

La estructura de los genes humanos es muy variable tanto en el tamao de los genes como en el de los intrones. Muchos genes tienen ms de 100 Kb, siendo el mayor la distrofina que ocupa 2,4 Mb. La variacin en el tamao de la zona codificante no es tan extrema, pero se observan outliers muy llamativos como el gen titin con 80.780 pb de secuencia codificante, 254 exones y el exn ms largo (17.106 pb). La tabla 6 resume las caractersticas generales de los genes humanos. Cuando los comparamos con otros organismos como Drosophila o Caenorhabditis se observa que el tamao medio de la secuencia codificante es similar: 1311 en nematodo, 1497 en mosca y 1340 en humano. Por el contrario el tamao de los intrones es mayor en humanos (3.300 pb frente a 267 en nematodo y 487 de mosca) (Figura 3).
Figura 3:Tamao de los intrones en humanos, mosca y nematodo73

Estudios previos haban sugerido que existe una segmentacin del genoma en compartimentos con una diferente proporcin de G+C (iscoras) y que el contenido en genes est relacionado con una mayor concentracin de G+C. Los datos del genoma humano, revelan las zonas ricas en G+C contienen proporcionalmente mayor cantidad de genes (Figura 4).

23

Proyecto genoma humano

Figura 4: Relacin entre la densidad relativa de genes y el contenido de G+C73

Especialmente significativo es el hecho de que los extremos 5 proximales de los genes (promotores y 5UTRs) suelen estar constituidos por G+C en un 80% de los casos. La asociacin entre islas CG y los genes es estadsticamente significativa, con una puntuacin de 0,89 para las regiones intergnicas, 1,2 para intrones, 5,86 para exones y 13,2 para el primer exn. Con respecto al procesado de los intrones de los genes humanos, el 98,12% utiliza el dinucletido GT en el extremo 5 y AG en el 3. Otro 0,76% utiliza la pareja GC-AG y slo un 0,1% de los genes tienen una secuencia poco habitual: AT-AC. El uso de splicing alternativo est muy extendido entre los genes humanos (70%), lo que hace que puedan presentar una mayor diversidad funcional si los comparamos con Caenorhabditis (22%). Ello implica que por cada gen humano existen una media de 3,4 transcritos frente a 1,34 de Caenorhabditis . La bsqueda de nuevos genes es un problema complicado de resolver, y el nmero de genes potenciales depende de los programas bioinformticos utilizados, llegando a variar hasta un 30% dependiendo del algoritmo. Existen varios problemas importantes: Los exones constituyen slo el 5% de la secuencia ocupada por el gen. Pueden existir exones muy pequeos y crpticos (incluso de slo 3 pb) que enmascaren una pauta abierta de lectura. Splicing alternativo en un 70% de los genes. En algunos casos la edicin del ARNm puede introducir cambios en la pauta abierta de lectura terica encontrada en el ADN. La bsqueda automatizada de genes utiliza las secuencias consenso de los promotores (islas CG), cajas TATA, secuencias iniciadoras, sitios donadores y aceptores de splicing, seal de poliadenilacin y sobre todo homologa de las secuencias con bancos de ADNc tanto de humanos (localizacin de genes nuevos pertenecientes a familias gnicas conocidas) o de otros animales (Drosophila, Mus, Caenorhabditis, etc.). El consorcio pblico y la empresa Celera identificaron en el primer borrador del genoma unos 30.000 genes codificantes para protenas, sin embargo una comparacin directa entre los dos catlogos de genes revel que no cuadraban entre s, existiendo grandes diferencias en identidades y propiedades de los nuevos genes identificados. El consorcio pblico en su primer ndice de protenas codificadas por el genoma humano estima su nmero en unas 31.778, siendo 14.882 de genes conocidos y 16.896 correspondientes a predicciones. Celera predijo una cantidad superior en torno a 3572

72

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

24

Antonio Jos Caruz Arcos

40.000 genes debido a que el mtodo bioinformtico empleado fue ms potente, con un gran nfasis en la comparacin genmica interespecfica. El conocimiento del nmero definitivo de genes humanos deber esperar la finalizacin de varios proyectos en curso para determinar el contenido total del transcriptoma humano. Resulta sorprendente que el genoma humano tenga slo el doble de genes que Drosophila o Caenorhabditis. Sin embargo, los genes humanos producen ms isoformas por splicing alternativo, pudiendo codificar quizs unas 5 veces ms protenas que estos otros animales. Funciones de los genes codificantes para protenas Para la clasificacin funcional de los genes codificantes para protenas, se ha tratado de responder a tres preguntas : 1. Cules son las funciones moleculares ms probables de las protenas hipotticas y cmo pueden ser incorporadas a la clasificacin actual? 2. Cules son las funciones comunes que aparecen en genomas de otros animales? 3. Cules son las protenas que difieren con respecto a otros eucariotas secuenciados? Para abordar la primera pregunta se han utilizado dos estrategias, la primera consiste en el anlisis de similitud con familias proteicas conocidas y la segunda la identificacin de dominios funcionales cortos (por ejemplo, homeodominio, dominio de inmunoglobulinas, etc.). La figura 5 representa una visin global de las funciones moleculares predichas en el catlogo de genes de Celera (26.383 genes) que incluan al menos dos de estos criterios estrictos: Protena caracterizada previamente EST identificada en bancos de ADNc humanos EST identificada en bancos de ADNc de ratn Homologa entre el genoma humano y el de ratn El resultado ms interesante es que aproximadamente el 41% de las protenas son de funcin desconocida. La familia ms representada se corresponde con la maquinaria de transcripcin/traduccin comunes son (ADN/ARN metiltransferasas, en el polimerasas, helicasas, ligasas,
73

nucleasas, factores de transcripcin y protenas ribosomales). Otros tipos proteicos muy enzimas implicadas metabolismo intermedio (transferasas, oxidorreductasas, ligasas, liasas e isomerasas), protenas con funciones reguladoras como (GTPasas pequeas tipo Ras/Rho, ciclinas y protenas quinasas). Por ltimo otras familias muy representadas son las protenas transportadoras y las chaperonas. La funcin especfica que tiene ms genes proporcionalmente es la de los receptores olfativos que comprende unos 1000 genes y pseudogenes. Aproximadamente el 80% de ellos estn situados en unos 12 clusters y comprenden el 1% del genoma (30 Mb). Curiosamente en los receptores de clase II, el 60% de ellos tienen mutaciones que alteran la pauta abierta de lectura, lo que sugiere que no ha existido una fuerte presin selectiva para su mantenimiento.
73

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

25

Proyecto genoma humano

En la clase I se observa una menor frecuencia de mutaciones lo que indica que han podido tener ms importancia adaptativa.

Figura 5: Distribucin de funciones moleculares de 26.383 genes identificados por celera

Un descubrimiento que ha suscitado una encendida discusin en el ambiente acadmico ha sido la caracterizacin de 223 protenas humanas que tienen una gran homologa con protenas bacterianas pero que no aparecen en levadura, mosca, nematodo o Arabidopsis (ver tabla 6) . Estas secuencias podran representar contaminaciones de los plsmidos de clonacin con ADN bacteriano. Para comprobar su presencia real el consorcio pblico verific una fraccin de ellos mediante amplificacin por PCR de varios ADN genmicos humanos, demostrando que efectivamente no son contaminaciones accidentales durante los procesos de fabricacin de la genoteca genmica. La mitad de estos genes (113) aparecen ampliamente difundidos entre especies bacterianas sin relacin directa filogentica, pero en los eucariotas slo aparecen en vertebrados. Se han propuesto dos hiptesis para explicar el origen de estos genes: 1. Los genes estaban presentes en los eucariotas originales pero se perdieron en alguno de los linajes.
74

74

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001). Bergthorsson U, Adams KL, Thomason B, Palmer JD. Widespread horizontal transfer of mitochondrial genes in flowering plants. Nature 424(6945):197-201. (2003). Genereux DP, Logsdon JM Jr. Much ado about bacteria-to-vertebrate lateral gene transfer. Trends Genet. 19(4):191-5. (2003). Katz LA. Lateral gene transfers and the evolution of eukaryotes: theories and data. Int J Syst Evol Microbiol. 52(Pt 5):1893-900. (2002). Roelofs J, Van Haastert PJ. Genes lost during evolution. Nature. 411(6841):1013-4. (2001). Stanhope MJ, Lupas A, Italia MJ, Koretke KK, Volker C, Brown JR. genome?. Science. 292(5523):1848-1850. (2001). Phylogenetic analyses do not support horizontal gene transfers from bacteria to vertebrates. Nature. 411(6840):940-4. (2001). Andersson JO, Doolittle WF, Nesbo CL. Genomics. Are there bugs in our

26

Antonio Jos Caruz Arcos

2. Los genes bacterianos entraron en el genoma de un antecesor de los vertebrados mediante transferencia horizontal a partir de bacterias. Existen pruebas de transferencia horizontal entre bacterias y el genoma de Caenorhabditis, lo que sugiere que la segunda hiptesis sera la ms plausible, aunque la discusin sigue abierta.
Tabla 6: Genes humanos con homologa en bacterias pero no en eucariotas invertebrados

Funcin potencial Ciclodeaminasa Cotransportador Na/glucosa Hidrolasa epoxidos Oxidorreductasa metionina Monoamino oxidasa ADP-ribosil glicohidrolasa Timidina fosforilasa Metal binding-protein Hidrolasa / Histona M-2cA fosfatasa

Ortlogos en vertebrados Cerdo, ratn, pollo Ungulados, roedores Roedores, peces Vaca Roedores, peces No No No No No

Rango de especies bacterianas Generalizado Generalizado Generalizado

Genero con mxima homologa Termotoga Vibrio Pseudomonas

Confirmado por PCR Si Si Si Si Si Si Si Si Si Si

Generalizado Synechocystis Generalizado Mycobacterium Streptomyces Generalizado Generalizado Rickettsia Thermotoga S. coelicolor H. influenzae Borrelia R. prowazekii T. martima Virus de ARN

Genes compartidos con Mus, Drosophila, Caenorhabditis y Saccharomyces. El catlogo de genes humanos contiene ortlogos en el 99% del proteoma de Mus , 61% de Drosophila, 43% de Caenorhabditis y 46% de Saccharomyces . Fueron identificados 1.308 grupos de protenas cada un de los cuales tena al menos un ortlogo en cada especie y poda contener adems varios genes parlogos. Este grupo estaba constituido por 3.129 protenas humanas, 1.445 de Drosophila, 1.503 de Caenorhabditis y 1.441 de Saccharomyces. Dentro de este grupo conservado estn incluidos los genes responsables mayoritarios de las funciones bsicas domsticas celulares como el metabolismo, replicacin/reparacin del ADN y transcripcin/traduccin. Los genes especficos de vertebrados representan slo el 7% del total, con 70 familias y 24 dominios funcionales no compartidos con invertebrados. Cuando comparamos las posiciones de los genes ortlogos Homo-Mus se observa que ocupan posiciones sintnicas en el 96% de los casos . Slo el 1% de los genes de Mus no tenan ortlogo en Homo, probablemente por delecin en los antecesores de la lnea humana o por que estos genes representan nuevas adquisiciones en la lnea evolutiva de los roedores, otras posibles explicaciones podran ser que los genes ortlogos humanos han sufrido un proceso acelerado
77 76 75

75

Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2002).
76

(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

27

Proyecto genoma humano

de cambio determinado por presiones selectivas que han hecho difcil la identificacin de un grado significativo de homologa de secuencia . El grado de conservacin en la estructura de los genes entre Homo y Mus es muy elevado y permite identificar las regiones bajo seleccin negativa para la incorporacin de mutaciones. En la Figura 6 se muestra el grado de homologa entre 3.165 genes humanos y de ratn . Una representacin ms en detalle de los inicios de transcripcin y de las secuencias donadoras y aceptoras de splicing, revela que el grado de conservacin alcanza casi el 100%, siendo muy significativo que las terceras posiciones de los codones codificantes no estn sujetos a tantas limitaciones para el cambio, demostrando la importancia que tiene el tambaleo de la tercera posicin del ARNt en la variabilidad del uso de codones (Figura 7).
Figura 6: Variacin en la conservacin de secuencia a lo largo de gene humanos y de ratn77
77 77

% identidad de secuencia

Primer exn

Exn interno

ltimo exn

Promotor UTR 5

Intrn

Intrn

UTR 3

Posicin en el genoma

La identificacin de los genes especficos de vertebrados se ha realizado comparando todos los genes identificados con los genomas de Drosophila y Caenorhabditis, los resultados muestran que algunas familias han experimentado un cambio importante en el nmero de miembros o bien han aparecido familias completamente nuevas . Las funciones especficas de vertebrados pueden ser clasificadas en 5 grupos: 1. Sistema inmunitario: La inmunidad adquirida es una funcin poco representada en invertebrados, el genoma humano y de ratn tienen genes del complejo mayor de histocompatibilidad (44), inmunoglobulinas (114), receptores especficos (59). Otras protenas especficas de vertebrados son las citoquinas, quimiocinas y componentes asociados con la transduccin de seales mediada por receptores de membrana.
78

77

Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562. Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

(2002).
78

28

Antonio Jos Caruz Arcos

Inicio de la traduccin

% de identidad de secuencia

Posicin relativa con respecto al sitio de inicio de la traduccin


Figura 7: Conservacin en el sitio de inicio de la traduccin79

2. Desarrollo, estructura y funcin neuronal: Marcado incremento en protenas implicadas en el desarrollo y funcin neuronal como factores de crecimiento nervioso, canales inicos, mielina y protenas de comunicacin neuronal (sinaptotagmina). 3. Rutas de sealizacin intracelular implicadas en homeostasis y desarrollo: Hormonas, factores de crecimiento, receptores, factores de transcripcin y molculas de sealizacin intracelular como TGF-, FGF, NGF, PDGF y efrinas. Tambin se observa una expansin en el nmero de genes dedicados a la sntesis de molculas de adhesin extracelular como protenas de la matriz (proteoglicanos) que juegan un papel importante en procesos de defensa, morfognesis y reparacin de tejidos. Protenas del citoesqueleto como actina y miosina, as como otras implicadas en la sealizacin intracelular (superfamilia Ras), factores de transcripcin (por ejemplo protenas con el dominio Zn-finger C2H2 aparece en 564 protenas humanas frente a 234 de Drosophila). 4. Hemostasis: Expansin de genes implicados en la interaccin entre clulas hematopoyticas y la matriz vascular, as como metaloproteasas. 5. Apoptosis: Expansin de genes implicados en las rutas de sealizacin que median la muerte celular programada como caspasas, Bcl2, etc. Variabilidad del genoma humano El catlogo de la base molecular de la variabilidad humana es ms amplio del esperado a priori, podemos clasificar el origen de la variabilidad en varias categoras: 1. Insercin diferencial de elementos transponibles (fundamentalmente LINES L1 y SINES tipo Alu). 29

Proyecto genoma humano

2. Duplicaciones polimrficas (por ejemplo un cluster que contiene genes de receptores olfativos est duplicado en algunas poblaciones) 3. Polimorfismos de nmero de copias de microsatlites, minisatlites y satlites. Siendo ms conocidos los primeros. 4. Polimorfismos debidos a pequeas deleciones, inserciones o mutaciones puntuales. De los que los cambios de un solo nucletido constituyen por si mismos la mayor parte de la variabilidad humana. Los tres primeros han sido analizados en secciones precedentes, ahora pasaremos a describir los resultados sobre la variacin debida a pequeos cambios de nucletidos a lo largo del genoma. Contamos con datos de variabilidad de un total de 13 individuos de diferentes orgenes tnicos, el consorcio pblico ha secuenciado 8 y la empresa Celera 5. Es importante destacar que no contamos con la informacin completa de un solo genoma humano por separado, sino que los datos suministrados estn mezclados y representan la secuencia media del genoma. El anlisis de la variabilidad ha permitido identificar unos 2 millones de cambios puntuales denominados SNP (Single Nucleotide Polymorphism) con una frecuencia de aproximadamente un cambio cada 1000 pb . Una conclusin trascendental desde el punto de vista social y poltico es que los seres humanos comparten entre s ms del 99,99% de la informacin gentica. La base molecular de las diferencias fenotpicas entre poblaciones de orgenes geogrficos distintos estn fundamentadas en pocos genes que controlan la expresin de ciertos caracteres fcilmente distinguibles a simple vista. La distribucin de SNPs a lo largo del genoma no es homognea sino que existen zonas calientes que presentan mayor variabilidad, as como se observa una tendencia a acumular SNPs en regiones de poca importancia funcional (ver tabla 7).
Tabla 7: Distribucin de los SNPs en funcin de la clase funcional del genoma
79

Clase de regin genmica Intergnica Intrones Primer intrn Exn Primer exn

Talla de (Mb) 2185 615 164 31 10

la

regin Densidad (SNP/Mb) 707 921 808 529 592

La tabla 6 revela un hecho interesante desde el punto de vista funcional. En concreto en el primer intrn existe una menor frecuencia de SNPs comparado con otros intrones del mismo gen, ello es debido a que en algunos casos el primer intrn puede contener secuencias reguladoras en cis de la transcripcin as como en muchos genes existen dos promotores alternativos, estando el segundo de ello situado dentro del primer intrn. Con respecto a las secuencias intergnicas se observa que el 75% de los SNPs se localizan dentro de estas regiones, pero la densidad de SNPs es menor que en los intrones. Esto podra explicarse por

79

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.

(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).

30

Antonio Jos Caruz Arcos

un fenmeno de incremento de la mutagnesis debida a los fenmenos de transcripcin gnica. Con respecto a los exones, destacar que el primer exn puede acumular mayor variabilidad gentica, debido a que suele contener regiones no traducidas importantes para la unin del ribosoma durante las etapas preliminares de la traduccin, por ello est menos limitado que el resto de exones a la hora de acumular cambios. Con respecto a los exones codificantes, los SNPs son muy raros (0,17% del total), siendo la mayora cambios conservativos por tambaleo de la tercera base del codn o cambios por un aminocido muy similar funcionalmente al original. Cambios no conservativos constituyen slo el 0,07% del total descrito. Sin embargo pueden tener un papel importante en explicar las diferencias fenotpicas entre los seres humanos. Por ejemplo multitud de SNPs en los genes de los citocromos P450 estn asociados a una mayor frecuencia de desarrollo de cncer o enfermedades cardiovasculares, otros SNPs en genes implicados en la respuesta inmunitaria estn asociados a enfermedades autoinmunes como la psoriasis o la enfermedad de Crohn. El catlogo completo de SNPs del genoma humano y su asociacin con diferentes enfermedades es una tarea importante para el futuro. Tambin van a representar un papel determinante como marcadores evolutivos que permiten trazar el origen y dispersin de las poblaciones humanas.

PERSPECTIVAS
La publicacin del borrador del genoma humano constituy un hito en la historia de la ciencia y va a cambiar profundamente la Biologa y la Medicina del futuro. En esta seccin describir las tendencias que se vislumbran y que condicionarn el trabajo de los futuros bilogos que estamos formando. Tres paradigmas han aparecido estos aos, el primero est relacionado con la escala casi industrial de recursos econmicos y materiales necesarios para llevar a cabo la investigacin. El segundo es la incorporacin de empresas privadas en la investigacin biolgica, que aportan una perspectiva prctica y comercial. El ltimo es la necesidad de formar nuevos bilogos capaces de entender varias disciplinas y que trabajen cmodamente en un entorno de bases de datos, bioinformtica y modelos matemticos. No hay que olvidar que lo que entendemos por Proyecto Genoma consiste en principio en la obtencin de informacin estructural desnuda, pero lo realmente importante empieza ahora: dar sentido biolgico, funcional y evolutivo a la informacin, extrayendo el autntico conocimiento. El banquete de datos que se nos viene encima habr de ser metabolizado adecuadamente, impulsando nuevos avances a base de sugerir nuevos enfoques, nuevos experimentos, renovadas hiptesis de trabajo, todo ello retroalimentndose en un "crculo virtuoso" que abrir las puertas de una nueva era en las Ciencias Biolgicas. Se habla por ello de una "Era Postgenmica", en la que se irn integrando los conocimientos acumulados en diversos "Atlas" del ser humano y de otros seres vivos, en los que se podrn interrelacionar de modo funcionalmente significativo diversos niveles de comprensin de la materia viva: gnico,

31

Proyecto genoma humano

genmico, regulacin, biologa celular, fisiologa, evolucin, etc. El impacto real de todo ello no se puede preveer, pero no cabe duda que el genoma humano sienta las bases de un salto cualitativo y cuantitativo en nuestra visin del mundo vivo. A continuacin repasar las perspectivas que se abren tanto para la Biologa humana como para la Medicina. Genoma humano y Biologa
80

1. Identificar los componentes estructurales y funcionales codificados por el genoma humano. El uso de la genmica comparativa permitir identificar regiones reguladoras en cis esenciales para el control de la expresin gnica, replicacin del ADN y recombinacin. Especialmente interesante es el campo de los ARN no codificantes ya que representan una nueva escala en la expresin gnica y en su regulacin. Poco se conoce de los mecanismos moleculares por los que algunos de estos ARN regulan procesos como la metilacin del ADN, impronta o estabilidad de mensajeros. Es de esperar que nuevas estrategias de regulacin de la expresin gnica puedan ser descubiertos, especialmente la regulacin mediada por ARN de interferencia durante el desarrollo. El hecho de que el 42% de los genes potencialmente codificados por el genoma humano no tengan una funcin conocida, ni puedan clasificarse dentro de ninguna de las familias proteicas descritas es un autntico desafo para los investigadores. Tal como sugieren Christine Debouck y Peter N. Goodfellow , la bsqueda de la funcin ser el campo de trabajo que ocupe a mayor nmero de bilogos en los prximos aos. Encontrar la funcin de un gen es una tarea ardua que implica un enfoque multidisciplinar que podra ser resumido en el refrn de dime con quin vas y te dir quin eres, que se fundamenta en el argumento de que dos protenas van juntas si participan en un proceso comn, o dos ARNm se expresan conjuntamente porque estn relacionados funcionalmente. Tcnicamente estamos hablando de protemica (doble hbrido, inmunoprecipitacin, MALDITOF) o de estrategias de medida de la expresin gnica con microarrays (transcriptoma). Este enfoque debe ser complementado con la informacin suministrada por el bloqueo de la funcin del gen y el anlisis del fenotipo resultante en animales modelo como ratones (Knock-outs y Knock-downs) o cultivos celulares (ARN de interferencia). La figura 8 podra resumir esta estrategia experimental. 2. La organizacin de las redes de informacin gentica y establecer como contribuyen al fenotipo celular y orgnico. Los genes y sus productos no funcionan independientemente, sino que participan en complejas rutas interconectadas y redes de comunicacin que permiten el mantenimiento celular, la organizacin de tejidos, rganos y el desarrollo ontogentico. Definir estos sistemas as como determinar sus propiedades e interrelaciones es crucial para entender como funcionan los sistemas biolgicos. Desde el punto de vista prctico es una informacin imprescindible para manipularlos y predecir su comportamiento. En cierto sentido los investigadores tratarn de describir los programas o algoritmos genticos desencadenados durante el desarrollo o en respuesta a diferentes estmulos como productos txicos, hormonas,
81

80 81

Collins F S. et al. A vision for the future of genomics research Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).

32

Antonio Jos Caruz Arcos

etc. Modelizarlos computacionalmente y predecir el comportamiento de los mismos en nuevas situaciones. Catalogar toda la variabilidad gentica de la humanidad: en cuatro niveles, insercin de transposones, microsatlites, duplicaciones y SNPs. Esta informacin es esencial para entender la historia de la humanidad, su origen y dispersin. Tambin, la comprensin de la interrelacin entre genotipo y fenotipo es un problema serio, a veces un polimorfismo gentico est asociado con un fenotipo especfico, por ejemplo, susceptibilidad a enfermedades autoinmunes, cncer o resistencia a enfermedades infecciosas, sin embargo, en muchos casos no ha sido posible establecer el motivo. Los polimorfismos pueden ser por ellos mismos el agente causal del fenotipo o bien tan slo un marcador de proximidad porque se cohereda como un haplotipo nico con el autntico polimorfismo funcional. Desentraar la base molecular por la cual los polimorfismos afectan al fenotipo, ocupar tambin a muchos laboratorios de investigacin en los prximos aos.
Figura 8: La bsqueda de la funcin

GEN M COMP ICA ARA T IVA

DO BL HBR E IDO

RATO N KNOC ES K-OU T

ARNi
TRAN SC R I PTOM A

FUNC
MAL

IN

MOTIV O SEC U E S D E NCIA


EXP RE TISU SIN LAR N ENF ORMAL / ERM EDA DES

DITO F

4. Comprender los mecanismos evolutivos: El genoma es una entidad dinmica, continuamente sometida a cambios por las fuerzas de la evolucin. El conocimiento de las diferencias de secuencia entre diferentes especies permitir comprender cmo se han formado en su configuracin actual los genomas y cuales han sido las presiones selectivas que han condicionado su estructura. En este apartado, el desafo total est en localizar los genes o secuencias reguladoras que nos hacen humanos (lenguaje, pensamiento abstracto, etc.). La secuenciacin del genoma del chimpanc podra arrojar luz sobre cuales son los genes que podran estar detrs de las diferencias morfolgicas y psicolgicas entre las dos especies. Filosficamente resulta interesante plantear la hiptesis que la esencia del ser humano pudiera residir en la expresin diferencial, con respecto al chimpanc, de una pequea batera de genes.

33

Proyecto genoma humano

Genoma humano y Medicina

82

1. Desarrollar nuevas estrategias para la identificacin de los componentes genticos que contribuyen al desarrollo de enfermedades y respuesta a drogas. La aplicacin ms importante de la secuencia del genoma humano es la identificacin de genes de funcin completamente desconocida, asociados por desequilibrio de ligamiento con una enfermedad hereditaria. Este sistema se denomina clonacin posicional y era muy potente pero tedioso e inclua etapas de paseo cromosmico sobre grandes distancias genticas antes de encontrar un gen candidato donde buscar mutaciones en familias afectadas. La secuencia del genoma humano permite una identificacin rpida in silico de los genes candidatos, seguido de bsqueda de mutaciones y ayudado por los programas de prediccin de estructura gnica. Unos 30 genes asociados con enfermedades se han conseguido clonar partiendo de la informacin suministrada slo durante el ao antes de la publicacin de la secuencia del genoma, en los prximos aos asistiremos a la correlacin de genes especficos con enfermedades hereditarias mendelianas, enfermedades de origen polignicos o susceptibilidad a desarrollar cncer, arteriosclerosis, hipertensin, etc. La actividad enzimtica responsable de la metabolizacin de muchos frmacos es variable entre diferentes pacientes y afecta a la respuesta teraputica de muchos tratamientos. La identificacin de polimorfismos genticos asociados a esa respuesta (farmacogentica) mejorar la prctica clnica y permitir al mdico la adopcin de un sistema personalizado de tratamiento. Hasta el momento se han descrito muchos polimorfismos asociados a respuesta diferencial al tratamiento farmacolgico (especialmente de la familia del citocromo P450), pero el nmero real de genes asociados a respuesta diferencial a frmacos slo ha empezado a ser atisbado. 2. Desarrollo de nuevos frmacos contra dianas moleculares identificadas por su patrn de expresin gnica. La industria farmacutica depende de un nmero muy limitado de dianas moleculares de accin farmacolgica, una revisin reciente cita que slo 483 protenas son las dianas de prcticamente todos los frmacos que hay en el mercado. El listado completo de genes humanos expandir enormemente el nmero de dianas potenciales de drogas. Algunos autores predicen que varios miles de genes podran ser candidatos para la accin farmacolgica. Ello ha llevado a la creacin de poderosos departamentos de investigacin gentica en todas las grandes compaas farmacuticas.

Como hemos expuesto, las perspectivas son apasionantes para la investigacin biomdica basada en la extraccin de la informacin contenida en el genoma y el anlisis de su expresin. Sin embargo muchas cuestiones pueden suscitar una gran polmica social por las implicaciones ticas que tienen, entre ellas destacara el determinismo y reduccionismo gentico. En algunos casos parece demostrada una relacin entre polimorfismos genticos y
82

Collins F S. et al. A vision for the future of genomics research

34

Antonio Jos Caruz Arcos

tipos de personalidad (receptores de la dopamina

83

con personalidad agresiva o serotonina

84

con tendencias depresivas). Si en el futuro, la investigacin lograse demostrar que nuestro comportamiento y aptitudes estn fundamentadas en los genes, dnde quedara nuestra libertad? Dnde el bien o el mal tal como lo entendemos ahora? Quisiera concluir esta revisin general sobre el proyecto genoma humano con las palabras de Craig Venter, exdirector cientfico de Celera, y que resume las implicaciones no slo cientficas sino tambin filosficas que tiene la actual investigacin genmica: The real challenge of human biology, beyond the task of finding out how genes orchestrate the construction and maintenance of the miraculous mechanism of our bodies, will lie ahead as we seek to explain how our minds have come to organize thoughts sufficiently well to investigate our own existence.

83 84

Se puede consultar una revisin en: http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=601696 Revisin en http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=182138

35