Académique Documents
Professionnel Documents
Culture Documents
Bioinformtica Bsica
Autor: Dr. Oswaldo Trelles- Universidad de Mlaga Nmero de crditos: 4 rea de conocimiento UNESCO: 24- Ciencias de la vida
Introduccin
El genoma o secuencia completa de ADN de un organismo constituye la informacin gentica heredable del ncleo celular, los plsmidos, la mitocondria y cloroplastos. Secuenciar es determinar el orden en que se enlazan las bases de dicha secuencia. Los tremendos avances de las tcnicas de secuenciacin del ADN permiten hoy en da leer el ADN a gran velocidad lo que ha llevado a abordar proyectos a gran escala como el Proyecto Genoma Humano. Pero adems se dispone ya de la secuencia completa de ADN de muchos genomas de animales, plantas y microorganismos.
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles
Definiciones (1)
El genoma es el material gentico almacenado en cada una de las clulas de un organismo. El trmino secuencia designa la composicin de nucletidos de un trozo de ADN o la de aminocidos de una protena. Ese trozo de ADN puede corresponder a un gen, un genoma, o a una parte de ellos. Como verbo, secuenciar es determinar la estructura de una secuencia de ADN, es decir, el tipo y orden de sus nucletidos.
Todos los organismos vivos estn compuestos de clulas, y cada una de ellas contiene toda la dotacin gentica (ADN) del organismo. Para obtener el genoma basta secuenciar una sola copia del ADN, que en el caso humano es de unos 3.400 millones de bases. Al ser de doble hebra se dice pares de bases (bp).
Curiosidades: El ADN es una molcula muy larga, que se enrolla en el interior de los microorganismos y ncleos celulares. Un adulto humano tiene aprox. entre 10 y 50 billones de clulas (1000'000'000'000) Si se desenrollara y pusieran en fila los cromosomas en cada una de ellas la longitud total del ADN sera de unos 2 metros. Si se sumara la longitud del ADN de todas las clulas de una sola persona se podra rodear la circunferencia terrestre 500,000 veces. Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles
Definiciones (2)
Un plasmido, es una pieza de ADN, pequea y circular que se encuentra frecuentemente en bacterias. Esta molcula, debido a los genes que porta, puede por ejemplo ayudar a la bacteria a sobrevivir en presencia de un antibitico.
Los plsmidos son importantes porque se pueden (1) aislar en grandes cantidades, (2) cortar, dividir e insertarles cualquier pieza de ADN, (3) devolverlo nuevamente a la bacteria donde se replicarn junto con el ADN nativo y (4) ser aislados nuevamente, obtenindose billones de copias del ADN que se les insert. Su tamao vara entre los 2.5 y las 20 Kb
BAC es el acrnimo de Bacterial Artificial Chromosome y en principio se usa como los plsmidos, pudiendo construir BAC que porten ADN humano, de ratn, etc., e insertarlos en una bacteria que hace de hospedaje. Al igual que con los plsmidos, al proliferar la bacteria tambin se replican los BACs. En este caso se trata de entre 100 a 400 kb que pueden ser replicadas fcilmente usando BACs y sta ha sido una de las formas en que se ha clonado grandes porciones del genoma humano
[ 0 ] Las enzimas de restriccin permiten la separacin (corte) del ADN en posiciones especficas que reconoce (no necesariamente alineadas). La lnea roja representa el punto de corte de una enzima sobre la insulina a la izquierda- y el plsmido bacterial de E. Coli. [ 1 ] El ADN queda separado en los puntos de corte exponiendo sus bases nitrogenadas [ 2 ] Se usa ADN ligasa para unir el trozo de ADN de la insulina y del plsmido de E.Coli
[ 3 ] El vector de inserta en la clula e incorpora los genes que porta en el ADN de la clula [ 4 ] Si la clula acepta los genes extraos, los pasar a sus clulas hijas en el proceso de divisin celular
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles
Las reacciones para secuenciar el ADN son similares a cualquier reaccin PCR (Polimerasa Chain Reaction). La mezcla incluye una muestra de ADN, nucletidos libres, una enzima (generalmente una variante de la Taq polimerasa) y un primer (una pieza pequea de 20 a 30 nt- de ADN de una sola hebra) que se pueda es capaz de hibridar con una de las hebras de la muestra de ADN. Se calienta la mezcla para separar las dos hebras de ADN, lo que permite que el primer se ligue a la zona deseada y la ADN-polimerasa inicie la elongacin del primer. Si el trabajo se realizara sobre una muestra de un billn de copias idnticas de ADN se obtendra un billn de copias de una de sus hebras.
Haciendo un smil con las piezas de un puzzle (4 tipos de piezas que seran los nucletidos normales que se unen para formar el ADN), los dinuclotidos de los cuales tambin hay cuatro tipos (ACGT) les falta un borde y por lo tanto no permiten que una nueva pieza se enganche a l, deteniendo la replicacin del ADN. A la izquierda se muestra un conjunto de piezas normales, cuyo perfil se dibuja al lado. A la derecha la representacin de lo que sera su correspondiente dinucletido
Al colocarse los trozos replicados en el gel se observa una figura como la de la izquierda (en la que se ha coloreado cada nucletido). Para secuenciar ADN, se hace la reaccin en presencia de pequeas cantidades de los 4 terminadores dideoxi. Luego se usa un gel para separar los resultados y a partir de l se lee la secuencia usando el cdigo de colores (usualmente rojo, verde, azul y amarillo) con que se han marcado los dd. Pueden haber hasta 96 pistas de muestras corriendo en un gel , que podra llegar a tener entre 3 y 4 metros de largo por unos 30 a 40 cms. de ancho. El espacio entre bandas no es tan claro como sera deseable, sino que aparece ms como en la figura El ordenador interpreta la imagen de cada pista del gel obteniendo la intensidad media de cada fila/columna color dominante que permite deducir de que nucletido se trata. De esta forma se reconstruye la secuencia de ADN en lecturas de fragmentos alrededor de 700 nucletidos.
Para hacernos una idea de la rapidez con que evoluciona la tecnologa, observemos en las figuras el ABI-3730 de Applied Biosystems, posiblemente el ms utilizado en la secuenciacin del genoma Humano, con una capacidad de 1 Mb por da (Un milln de bases). El AB-SOLID actual, en menos de 10 aos ha multiplicado por 1000 la capacidad de secuenciacin Illumina / Solexa Genetic Analyzer 2000 Mb / run
En algo ms de dos das es posible, con uno solo de estos secuenciadores, leer alrededor de 30 millones de pares de bases (30 M bp) a un ritmo de 140 bp por segundo y a un costo aproximado de $0.11 por KB (kilo bases o miles de bases). Con ello tendramos 5 lecturas para comprobar.
Aplicaciones Identificacin de anormalidades cariotpicas, tales como: trisoma, monosoma, deleciones e inversiones (cariotipado molecular) Nuevas tcnicas de diagnstico Mejorar el conocimiento sobre:
Nmeros de Solexa 8 pistas en cada flowCell 3 columnas por pista 110 posillos por columna 1 adquisicin (imgenes) por ciclo 36 ciclos 1 imagen por cada base (4 bases) 350x350 resolucin 4 MB por cada imagen 8 x 3 x 110 x 36 x 4 x 2 MB = 760 GBytes
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles
Los mecanismos de regulacin del desarrollo humano La biologa de sistemas en las clulas humanas Demanda y cobertura de nuevos mtodos bioinformticos, por ejemplo para estimar las alteraciones del ADN (DNA Aberrations Copy Number Variations -CNVs) usando arrays de SNPs y secuencias (NGS)
Armando el puzzle
En una primera etapa se lee el espectrograma para identificar las bases del ADN de cada fragmento. Segn la tecnologa usada, la longitud de los fragmentos va de unas pocas decenas de bases a algunos cientos.
Y mediante un proceso exhaustivo y largo se van alineando los fragmentos y mediante el solapamiento se van estirando o alargando los fragmentos... la secuencia empieza a tomar forma
Se dan casos en que dos grupos de contigs (fragmentos similares) encuentran otros fragmentos que solapan entre ellos permitiendo unir los contigs y as ir estirando la secuencia. En otros casos no es posible encontrar esas secuencias entremedias y aparecen los huecos o gaps sin secuenciar
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles
Phred/Phrap/Consed es un paquete de software utilizado para: Leer cromatogramas (trace files) Asignar valores de calidad a las bases individuales de una secuencia Identificar y enmascarar secuencias correspondientes a vector (plsmido) o secuencias repetitivas Ensamblar secuencias individuales en contigs Visualizar assemblies (contigs) Hacer sequence finishing auto dirigido (automatic finishing o finalizacin automtica)
Ms informacin en : www.phrap.org
Los mtodos actuales de secuenciacin generan lecturas de 3001000 pb (lmite de resolucin de la electroforesis) Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo produciendo bibliotecas de clones. En la estrategia conocida como shotgun sequencing los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final
Phrap: el ensamblador
Phrap ensambla secuencias de DNA obtenidas en los proyectos de secuenciacin al azar (shotgun: a perdigones literalmente) Usa la informacin de calidad provista por phred no hay necesidad de recortar las secuencias Puede usar bibliotecas de secuencias repetitivas (por ej Repbase) o usar datos sobre repeticiones calculadas internamente Mejor calidad de los resultados en presencia de repeticiones La secuencia final (contig) es un mosaico formado por las regiones de mejor calidad de cada secuencia No es un consenso! Puede manejar grandes conjuntos de datos (del orden de cientos de miles de secuencias)
Consed: el finalizador
Aplicaciones (1)
La secuencia de nuestro genoma es 99.9% idntico al de cualquier otro ser humano. La diferencia del 0.1% (3 millones de bases) est representada por: ... AAACGTCTA ... ... AAAC-TCTA ... ... AAACGTCTA ... ... AAAGCTCTA ... ... AAACGTCTA ... ... AAACATCTA ... Inserciones / deleciones, Inversiones y Polimorfismos de una sola base Single Nucleotide Polymorphisms o SNPs Cmo se detectan?: Por comparacin de AND genmico proveniente de distintos individuos (proyectos genoma)
Aplicaciones (2)
Identificacin de genes relacionados con enfermedades genticas: Mayor rapidez Enfermedades multignicas (SNPs) Diabetes Esquizofrenia Identificacin y/o localizacin de genes de inters agronmico o veterinario. Desarrollo de vacunas Farmacogenmica Uso de estrategias derivadas de la genmica para descubrir nuevos blancos teraputicos Identificar los genes que determinan la eficacia y toxicidad de medicamentos especficos Farmacogenmica (II) Medicina personalizada Determinar el perfil gentico de cada individuo en cuanto a la sensibilidad a una determinada droga Genes polimrficos involucrados en: metabolismo, transporte, blanco especficos, receptores, enzimas, etc. Bases de datos tiles http://www.ncbi.nlm.nih.gov/ http://www.ncbi.nlm.nih.gov/Genomes/index.html
Test de Paternidad: Comparando la secuencia de ADN de madre e hijo es posible identificar fragmentos en el ADN del hijo que no aparecen en la madre y por tanto deben haber sido heredados del padre. Se comparan estos fragmentos adquiridos por via paterna con el ADN del sujeto del test.
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles
Propuesta final
Me animo a recomendar una lectura no-cientfica escrita por uno de los cientficos que ms ha contribuido a secuenciar el genoma humano; Craig Venter. El captulo 5 de su libro A life decoded. My Genome: My life (La vida descodificada en espaol en la Ed. Espasa-Calpe, 2008), contiene, entre otras cosas, una descripcin detallada del proceso de secuenciacin de un genoma. Estoy seguro que incluso os animar a leer el libro completo.
Fin
Enhorabuena!
Ha finalizado la presentacin. Le invitamos a seguir avanzando en el curso