Vous êtes sur la page 1sur 23

Inicio

Tema 4: Secuenciacin del ADN (1)


Lectura del ADN de los organismos

Bioinformtica Bsica
Autor: Dr. Oswaldo Trelles- Universidad de Mlaga Nmero de crditos: 4 rea de conocimiento UNESCO: 24- Ciencias de la vida

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Introduccin

El genoma o secuencia completa de ADN de un organismo constituye la informacin gentica heredable del ncleo celular, los plsmidos, la mitocondria y cloroplastos. Secuenciar es determinar el orden en que se enlazan las bases de dicha secuencia. Los tremendos avances de las tcnicas de secuenciacin del ADN permiten hoy en da leer el ADN a gran velocidad lo que ha llevado a abordar proyectos a gran escala como el Proyecto Genoma Humano. Pero adems se dispone ya de la secuencia completa de ADN de muchos genomas de animales, plantas y microorganismos.
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Definiciones (1)
El genoma es el material gentico almacenado en cada una de las clulas de un organismo. El trmino secuencia designa la composicin de nucletidos de un trozo de ADN o la de aminocidos de una protena. Ese trozo de ADN puede corresponder a un gen, un genoma, o a una parte de ellos. Como verbo, secuenciar es determinar la estructura de una secuencia de ADN, es decir, el tipo y orden de sus nucletidos.
Todos los organismos vivos estn compuestos de clulas, y cada una de ellas contiene toda la dotacin gentica (ADN) del organismo. Para obtener el genoma basta secuenciar una sola copia del ADN, que en el caso humano es de unos 3.400 millones de bases. Al ser de doble hebra se dice pares de bases (bp).

Curiosidades: El ADN es una molcula muy larga, que se enrolla en el interior de los microorganismos y ncleos celulares. Un adulto humano tiene aprox. entre 10 y 50 billones de clulas (1000'000'000'000) Si se desenrollara y pusieran en fila los cromosomas en cada una de ellas la longitud total del ADN sera de unos 2 metros. Si se sumara la longitud del ADN de todas las clulas de una sola persona se podra rodear la circunferencia terrestre 500,000 veces. Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Definiciones (2)
Un plasmido, es una pieza de ADN, pequea y circular que se encuentra frecuentemente en bacterias. Esta molcula, debido a los genes que porta, puede por ejemplo ayudar a la bacteria a sobrevivir en presencia de un antibitico.
Los plsmidos son importantes porque se pueden (1) aislar en grandes cantidades, (2) cortar, dividir e insertarles cualquier pieza de ADN, (3) devolverlo nuevamente a la bacteria donde se replicarn junto con el ADN nativo y (4) ser aislados nuevamente, obtenindose billones de copias del ADN que se les insert. Su tamao vara entre los 2.5 y las 20 Kb

BAC es el acrnimo de Bacterial Artificial Chromosome y en principio se usa como los plsmidos, pudiendo construir BAC que porten ADN humano, de ratn, etc., e insertarlos en una bacteria que hace de hospedaje. Al igual que con los plsmidos, al proliferar la bacteria tambin se replican los BACs. En este caso se trata de entre 100 a 400 kb que pueden ser replicadas fcilmente usando BACs y sta ha sido una de las formas en que se ha clonado grandes porciones del genoma humano

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Recombinacin del ADN


Las tcnicas de recombinacin del ADN permiten transferir parte de ADN de un organismo (normalmente el que se est estudiando) a otro ms simple de manipular y reproducir, como una bacteria. Al reproducirse la bacteria se reproduce el trozo de ADN en estudio que luego se puede volver a separar (con lo que se tienen grandes cantidades de ADN) y estudiar en detalle.
Para secuenciar necesitamos una buena cantidad de ADN, por lo que es necesario hacer muchas copias del mismo. Para ellos se usan bacterias que crecen y se dividen rpidamente, pero antes necesitamos incorporar el ADN a estudiar en ellas.

[ 0 ] Las enzimas de restriccin permiten la separacin (corte) del ADN en posiciones especficas que reconoce (no necesariamente alineadas). La lnea roja representa el punto de corte de una enzima sobre la insulina a la izquierda- y el plsmido bacterial de E. Coli. [ 1 ] El ADN queda separado en los puntos de corte exponiendo sus bases nitrogenadas [ 2 ] Se usa ADN ligasa para unir el trozo de ADN de la insulina y del plsmido de E.Coli

[ 3 ] El vector de inserta en la clula e incorpora los genes que porta en el ADN de la clula [ 4 ] Si la clula acepta los genes extraos, los pasar a sus clulas hijas en el proceso de divisin celular
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Cmo se secuencia el ADN?


Histricamente hay dos mtodos de secuenciacin del ADN Maxam & Gilbert, o secuenciacin qumica Sanger, que usa dideoxynucleotidos. Hoy en dia el Mtodo Sanger es el ms usado en los laboratorios (aparte de las tcnicas de secuenciacin masiva)
Sanger y Gilbert compartieron el Nobel de Qumica en 1980

Las reacciones para secuenciar el ADN son similares a cualquier reaccin PCR (Polimerasa Chain Reaction). La mezcla incluye una muestra de ADN, nucletidos libres, una enzima (generalmente una variante de la Taq polimerasa) y un primer (una pieza pequea de 20 a 30 nt- de ADN de una sola hebra) que se pueda es capaz de hibridar con una de las hebras de la muestra de ADN. Se calienta la mezcla para separar las dos hebras de ADN, lo que permite que el primer se ligue a la zona deseada y la ADN-polimerasa inicie la elongacin del primer. Si el trabajo se realizara sobre una muestra de un billn de copias idnticas de ADN se obtendra un billn de copias de una de sus hebras.

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

El mtodo Sanger (1)


En el mtodo Sanger sin embargo, las reacciones se realizan en presencia de un dideoxyribonucleotido. ste es como cualquier ADN regular, salvo que no tiene el grupo hidroxil 3', por lo que, una vez que se aade al final de una cadena de ADN, no tiene forma de continuar su crecimiento
Los dideoxynucleotidos son molculas similares a los nucltidos normales pero les falta un grupo OH lo que impide que otros nucletidos se unan a l deteniendo la replicacin del ADN.

Haciendo un smil con las piezas de un puzzle (4 tipos de piezas que seran los nucletidos normales que se unen para formar el ADN), los dinuclotidos de los cuales tambin hay cuatro tipos (ACGT) les falta un borde y por lo tanto no permiten que una nueva pieza se enganche a l, deteniendo la replicacin del ADN. A la izquierda se muestra un conjunto de piezas normales, cuyo perfil se dibuja al lado. A la derecha la representacin de lo que sera su correspondiente dinucletido

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

El mtodo Sanger (2)


La clave del mtodo est en que la mayor parte de los nucletidos son regulares y que solo una pequea fraccin de ellos son dideoxy nucleotides. As al replicar hebras de ADN en presencia de dideoxy-T, la mayor parte de las veces cuando se necesite una 'T' para la nueva hebra, la enzima encontrar una T correcta, y la replicacin continuar aadiendo ms nucletidos. Sin embargo, un porcentaje de las veces (proporcional a la cantidad de dideoxy-T que se haya incluido) la enzima colocar un ddT y el crecimiento de la hebra se detendr.
La Electroforesis en Geles se usa para separar fragmentos por su tamao. Los productos de una determinada reaccin (hebras de diferente tamao) se colocan en el gel y se induce su movimiento por carga elctrica. Los fragmentos pequeos se mueven poco (poca carga) mientras que los mayores aparecen en la parte superior. Ahora con un dispositivo capaz de leer imgenes (o geles) como un escner y estimando la carga de los fragmentos es posible deducir las posiciones de las Timinas (T) en la secuencia original.

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

El mtodo Sanger (3)

Al colocarse los trozos replicados en el gel se observa una figura como la de la izquierda (en la que se ha coloreado cada nucletido). Para secuenciar ADN, se hace la reaccin en presencia de pequeas cantidades de los 4 terminadores dideoxi. Luego se usa un gel para separar los resultados y a partir de l se lee la secuencia usando el cdigo de colores (usualmente rojo, verde, azul y amarillo) con que se han marcado los dd. Pueden haber hasta 96 pistas de muestras corriendo en un gel , que podra llegar a tener entre 3 y 4 metros de largo por unos 30 a 40 cms. de ancho. El espacio entre bandas no es tan claro como sera deseable, sino que aparece ms como en la figura El ordenador interpreta la imagen de cada pista del gel obteniendo la intensidad media de cada fila/columna color dominante que permite deducir de que nucletido se trata. De esta forma se reconstruye la secuencia de ADN en lecturas de fragmentos alrededor de 700 nucletidos.

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Secuenciacin con tecnologas de alto rendimiento


Secuenciacin con tecnologas de alto rendimiento (HTS)

Applied Biosystems ABI 3730XL 1 Mb / day

Roche / 454 Genome Sequencer FLX 100 Mb / run

Para hacernos una idea de la rapidez con que evoluciona la tecnologa, observemos en las figuras el ABI-3730 de Applied Biosystems, posiblemente el ms utilizado en la secuenciacin del genoma Humano, con una capacidad de 1 Mb por da (Un milln de bases). El AB-SOLID actual, en menos de 10 aos ha multiplicado por 1000 la capacidad de secuenciacin Illumina / Solexa Genetic Analyzer 2000 Mb / run

Un genoma bacteriano tiene aproximadamente 6.5 MB (millones de bases de DNA).

Applied Biosystems SOLiD 3000 Mb / run

En algo ms de dos das es posible, con uno solo de estos secuenciadores, leer alrededor de 30 millones de pares de bases (30 M bp) a un ritmo de 140 bp por segundo y a un costo aproximado de $0.11 por KB (kilo bases o miles de bases). Con ello tendramos 5 lecturas para comprobar.

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Next Generation Sequencing


Next Generation Sequencing (NGS)

Illumina / Solexa Genome Analyzer

Aplicaciones Identificacin de anormalidades cariotpicas, tales como: trisoma, monosoma, deleciones e inversiones (cariotipado molecular) Nuevas tcnicas de diagnstico Mejorar el conocimiento sobre:
Nmeros de Solexa 8 pistas en cada flowCell 3 columnas por pista 110 posillos por columna 1 adquisicin (imgenes) por ciclo 36 ciclos 1 imagen por cada base (4 bases) 350x350 resolucin 4 MB por cada imagen 8 x 3 x 110 x 36 x 4 x 2 MB = 760 GBytes
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Los mecanismos de regulacin del desarrollo humano La biologa de sistemas en las clulas humanas Demanda y cobertura de nuevos mtodos bioinformticos, por ejemplo para estimar las alteraciones del ADN (DNA Aberrations Copy Number Variations -CNVs) usando arrays de SNPs y secuencias (NGS)

Armando el puzzle
En una primera etapa se lee el espectrograma para identificar las bases del ADN de cada fragmento. Segn la tecnologa usada, la longitud de los fragmentos va de unas pocas decenas de bases a algunos cientos.

Y mediante un proceso exhaustivo y largo se van alineando los fragmentos y mediante el solapamiento se van estirando o alargando los fragmentos... la secuencia empieza a tomar forma

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Ensamblando los fragmentos


Para poder completar genomas es necesario ensamblar las piezas. El ensamblaje de los fragmentos de ADN para reconstruir la secuencia completa original se utilizan programas de ordenador. Estos programas realizan el encaje de fragmentos basado en el solapamiento de los mismos.

Se dan casos en que dos grupos de contigs (fragmentos similares) encuentran otros fragmentos que solapan entre ellos permitiendo unir los contigs y as ir estirando la secuencia. En otros casos no es posible encontrar esas secuencias entremedias y aparecen los huecos o gaps sin secuenciar
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Software para ensamblado del ADN

Software para ensamblado del ADN


Phred / Phrap /Consed
Como se ha mencionado, para el ensamblaje de los fragmentos de ADN para reconstruir la secuencia completa original se utilizan programas de ordenador que realizan el encaje de fragmentos basado en el solapamiento de los mismos. Aunque estos programas estn sufriendo una tremenda actualizacin para resolver los problemas tcnicos que plantea el manejo de los datos de la secuenciacin masiva, conceptualmente representan los pasos a seguir. Las particularidades del software, su interfaz, etc. Es simple de entender si se entiende que es lo que hace o debe hacer cada programa.

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Qu es phred/ phrad/ consed?

Phred/Phrap/Consed es un paquete de software utilizado para: Leer cromatogramas (trace files) Asignar valores de calidad a las bases individuales de una secuencia Identificar y enmascarar secuencias correspondientes a vector (plsmido) o secuencias repetitivas Ensamblar secuencias individuales en contigs Visualizar assemblies (contigs) Hacer sequence finishing auto dirigido (automatic finishing o finalizacin automtica)

Ms informacin en : www.phrap.org

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Por qu hay que ensamblar


Whole genome BAC/cosmid clone DNA fragmentation sonic disruption nebulization

Los mtodos actuales de secuenciacin generan lecturas de 3001000 pb (lmite de resolucin de la electroforesis) Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo produciendo bibliotecas de clones. En la estrategia conocida como shotgun sequencing los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final

Small fragments 1.0 - 2.0 kb

Clone library pUC18

DNA sequencing random clones

Partial Assembly contigs

Finishing quality both stands coverage gap filling

Whole genome BAC/cosmid clone final consensus sequence

El workflow o flujo de trabajo muestra las etapas en un proyecto de secuenciacin

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Phred: el identificador de bases (basecaller)


Phred realiza las siguientes tareas: Lee cromatrogramas, compatible con diversos formatos: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) y LICOR. Identifica cada base asignando atributos a cada una de ellas (pico en la lectura) con una tasa de error razonablemente baja. Asigna valores de calidad a cada base el valor Phred en base a la estimacin del error calculado para cada base. Crea un fichero con los resultados: base y calidad.

Genome Res 8 (1998): 175 Genome Res 8 (1998): 186


Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Phrap: el ensamblador
Phrap ensambla secuencias de DNA obtenidas en los proyectos de secuenciacin al azar (shotgun: a perdigones literalmente) Usa la informacin de calidad provista por phred no hay necesidad de recortar las secuencias Puede usar bibliotecas de secuencias repetitivas (por ej Repbase) o usar datos sobre repeticiones calculadas internamente Mejor calidad de los resultados en presencia de repeticiones La secuencia final (contig) es un mosaico formado por las regiones de mejor calidad de cada secuencia No es un consenso! Puede manejar grandes conjuntos de datos (del orden de cientos de miles de secuencias)

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Consed: el finalizador

Genome Res 8 (1998): 195

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Aplicaciones (1)
La secuencia de nuestro genoma es 99.9% idntico al de cualquier otro ser humano. La diferencia del 0.1% (3 millones de bases) est representada por: ... AAACGTCTA ... ... AAAC-TCTA ... ... AAACGTCTA ... ... AAAGCTCTA ... ... AAACGTCTA ... ... AAACATCTA ... Inserciones / deleciones, Inversiones y Polimorfismos de una sola base Single Nucleotide Polymorphisms o SNPs Cmo se detectan?: Por comparacin de AND genmico proveniente de distintos individuos (proyectos genoma)

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Aplicaciones (2)
Identificacin de genes relacionados con enfermedades genticas: Mayor rapidez Enfermedades multignicas (SNPs) Diabetes Esquizofrenia Identificacin y/o localizacin de genes de inters agronmico o veterinario. Desarrollo de vacunas Farmacogenmica Uso de estrategias derivadas de la genmica para descubrir nuevos blancos teraputicos Identificar los genes que determinan la eficacia y toxicidad de medicamentos especficos Farmacogenmica (II) Medicina personalizada Determinar el perfil gentico de cada individuo en cuanto a la sensibilidad a una determinada droga Genes polimrficos involucrados en: metabolismo, transporte, blanco especficos, receptores, enzimas, etc. Bases de datos tiles http://www.ncbi.nlm.nih.gov/ http://www.ncbi.nlm.nih.gov/Genomes/index.html
Test de Paternidad: Comparando la secuencia de ADN de madre e hijo es posible identificar fragmentos en el ADN del hijo que no aparecen en la madre y por tanto deben haber sido heredados del padre. Se comparan estos fragmentos adquiridos por via paterna con el ADN del sujeto del test.
Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Propuesta final

Me animo a recomendar una lectura no-cientfica escrita por uno de los cientficos que ms ha contribuido a secuenciar el genoma humano; Craig Venter. El captulo 5 de su libro A life decoded. My Genome: My life (La vida descodificada en espaol en la Ed. Espasa-Calpe, 2008), contiene, entre otras cosas, una descripcin detallada del proceso de secuenciacin de un genoma. Estoy seguro que incluso os animar a leer el libro completo.

onsulta estos materiales para completar tus conocimientos

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Fin

Enhorabuena!
Ha finalizado la presentacin. Le invitamos a seguir avanzando en el curso

Proyecto OpenCourseWare- UNIA> Bioinformtica Bsica. Dr. Oswaldo Trelles

Vous aimerez peut-être aussi