Vous êtes sur la page 1sur 19

BASES DE DATOS GENOMAS Y GENES

23 GENOMAS EUCARIOTICOS COMPLETOS

Que es el proyecto del genoma humano?

El gobierno de USA coordinado con el Departamento de energa y los National Institutes of Health propusieron: metas (1998-2003)
identificar aproximadamente 100,000 genes en el DNA humano determinar la secuencia de 3 millones de millones de bases que conforman el DNA humano. Almacenar la informacin en bases de datos Desarrollar herramientas para el anlisis de datos.

Beneficios de los proyectos de genoma

Medicina Investigacin de genomas de microorganismos para combustible y biorremediacin DNA forense Mejoramiento en agricultura y ganadera. Mejor entendimiento de la evolucin y migraciones humanas.

Pasos en un proyecto de secuenciacin de un genoma


Estrategias para el soporte financiero de un proyecto de genoma Identificar una fuente de financiamiento Desarrollar una estrategia de secuenciacin Shotgun al azar (cromosomas & genoma completo) compartir bibliotecas gDNA, mapas fsicos no necesarios, rpido, se cubre todo el genoma rpidamente, el ensamblaje puede ser problemtico Clona-por-clona (se mapea de acuerdo como se generan los datos) BAC, YAC, bibliotecas de csmicos y mapas fsicos, lento, los datos se producen menos rpido si son de regiones aisladas, preciso. Fuente de DNA: construccin de bibliotecas, secuencias de prueba, anlisis de datos Secuenciacin a gran escala de bibliotecas. Ensamblaje de datos y liberacin Para proyectos de shutgun: 3 X: primer ensamblaje, liberacin de datos del genoma 5-6 X: ~97% genes secuenciados 8-10 X cobertura, ensamblaje final Para clona-por-clona: las secuencias de las clonas se liberan en cuento se completan Cierre Cierre de huecos, identificacin de mis-ensamblajes: consume tiempo, costoso Comparacin de mapas fsicos/genticos/pticos Localizacin de genes y anotacin Uso de algoritmos para localizacin de genes y de modelos de prediccin de genes Anotacin del genoma: auto-anotacin vs anotacin manual Anlisis del genoma, genmica comparativa, publicacin, liberacin final de los datos al GenBank

Sequencing strategies for long DNA


We cant directly sequence long DNA (yet), but we can assemble the master sequence from smaller pieces.

Construccin de bibliotecas Shotgun y Secuenciacin

Concepto: 1) Fragmentar el DNA en muchos fragmentos de longitud al azar. 2) Secuenciar ambos extremos de los fragmentos. 3) Reensamblar el DNA original a partir de las secuencias traslapadas de los fragmentos SOUNDS EASY!

Ensamblaje de un genoma

- 5X secuenciacin del genoma por shotgun - Tamao de los insertos de la biblioteca - Juntar los extremos - Contigs - Scaffolds
Shotgun sequencing: Es un mtodo utilizado para decodificar un genoma por dsmenusado en pequeos fragmentos de DNA los culaes se pueden secuenciar de manera individual. Las secuencias de los fragmentos se ordenan en base a traslapado y se ensamblan en la secuencia completa.

Scaffolds, or Why we sequence mate pairs from longer fragments

low-complexity/repetitive Knowing the sizes of inserts can tell us roughly what we dont we dont know (sometimes).

Methods: sonication syringe nebulization


NOT RESTRICTION ENZYMES

Size-selected shotgun fragment Libraries

Small insert library provides most of the sequence coverage (contigs) Large insert libraries help order the contigs (and scaffolds)

SECUENCIACION POR SHOTGUN

5 end read

Mate pair (~1kb between) 3 end read

5 end read

Mate pair (~9kb between) 3 end read

Estrategia Experimental

Ensamblaje de contigs de mate pairs

must have high-quality (well-trimmed) input DNA, to reduce false overlaps reads must be mostly mate pairs (<25% single reads) library insert size variance must be kept low (<10%) for accurate prediction of distance between mate-pairs sequences

SEQUENCE HIERARCHY
genome (all chromosomes) Chromosome (one or more scaffolds..ultimately one contig!)
ordered sets w/gaps

Scaffold (two or more contigs)


Not biological entities ordered sets w/gaps, size estimated

contig
overlapping, ordered sets, no gaps

reads (mate-pair & single)

Scaffolds, or Why we sequence mate pairs from longer fragments

low-complexity/repetitive Knowing the sizes of inserts can tell us roughly what we dont we dont know (sometimes).

Vous aimerez peut-être aussi