Vous êtes sur la page 1sur 12

UNIVERSIDAD PERUANA CAYETANO HEREDIA

FACULTAD DE CIENCIAS Y FILOSOFIA


DEPARTAMENTO DE CIENCIAS CELULARES Y MOLECULARES
BIOINFORMTICA 2014-I
ENSAMBLAJE DEL GENOMA DE E. coli

"Este ejercicio ha sido adaptado para el curso a partir del ejercicio elaborado por David J. Edwards,
Kathryn E. Holt, incluido en el artculo adicional 1 del artculo cientfico titulado Beginners guide
to comparative bacterial genome analysis using next-generation sequence data,
publicado en el journal Microbial Informatics and Experimentation 2013, 3:2".

Descargar los FastQ para el ensamblaje del genoma de E. coli


En esta parte del tutorial, vamos a crear un archivo de calidad del genoma E. coli O14:H4. Para
empezar necesitamos secuencias para ensamblar. Para este ejemplo prctico utilzaremos los reads
de Illumina HiSeq paired-end de E. coli O104:H4 strain TY-2482 (nmero de accesin SRR292770 en
European Nucleotide Archive (ENA)) - disponible aqu
http://www.ebi.ac.uk/ena/data/view/SRR292770&display=HTML
Busque el 'Fastq file (ftp)' en la recuadro a la derecha - haga click en cada uno de los dos enlaces de
archivos, y gurdelos en el escritorio. Estos archivos estn en formato FASTQ (Ver
http://en.wikipedia.org/wiki/FASTQ_format) y estn comprimidos en gzip (no es necesario
descomprimirlos).

Se debe descargar tanto el Fordward como el Reverse de los reads ('SRR292770_1.fastq.gz' y


'SRR292770_2.fastq.gz'). Guarde estos archivos en una nueva carpeta con un nombre adecuado, por
ejemplo ' Ensamblaje'. Este ser nuestra carpeta de trabajo para el tutorial.

El examen de la calidad de los reads (FastQC)

Antes de tratar de armar un conjunto reads, es una buena prctica examinar los reads para ver si
son de buena calidad. Un paquete fcil de instalar y ejecutar para examinar es el FastQC.
Sitio web: Descargue e instale FastQC de
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
La pgina web tambin cuenta con ejemplos de buena y mala calidad de reads para un nmero de
plataformas de secuenciamiento.
Input: archivos de secuencia, Fordward y Reverse de los reads (formato FASTQ)
Instrucciones: Una vez FastQC se ha instalado, abra el programa para comenzar. Entonces:
1. Para seleccionar la secuencia de archivos a comprobar, vamos a " File > Open " en el men
FastQC. Navegue a la carpeta en donde guardamos los reads de TY - 2482 y seleccionemos
el archivo 'SRR292770_1.fastq.gz'.

Cuando el anlisis haya finalizado, se les presentar con una serie de informes sobre las
secuencias. Seleccione 'Per base de la calidad de la secuencia 'Per base sequence quality'.
Se debe obtener este grfico:

Es posible examinar los otros reportes.


Tenga en cuenta que esta secuencia para el ejemplo pasa la mayor parte de las pruebas,
aunque el nivel de secuencia de duplicacin es un poco alto (en torno al 26%).
El ensamblaje se puede mejorar eliminando primero los duplicados, haciendo uso de un
paquete de control de calidad FASTQ como las herramientas en lnea de comandos FASTXToolkit (http://hannonlab.cshl.edu/fastxtoolkit/ ) o Trimmomatic
(http://www.usadellab.org/cms/index.php?page=trimmomatic ). Sin embargo, como los
reads para el tutorial son de buena calidad, vamos a dejar el tema importante del control
de calidad, y sus trampas, para que otros la describen. Los sitios web de los dos paquetes
son un buen lugar para empezar, junto con la informacin de apoyo para FastQC.
Ahora puede cerrar FastQC y continuar con el resto del tutorial. Si desea para guardar el
informe de antemano, utilizar " File > Save Report ' antes del cierre.

Velvet ensamblaje de reads dentro de contigs

Sitio web: Descargue e instale Velvet y su manual (~25 MB) de


http://www.ebi.ac.uk/~zerbino/terciopelo/
Referencia:
Zerbino, D. R. and Birney, E., Velvet: algorithms for de novo short read assembly using de Bruijn
graphs. Genome Res, 2008. gr.074492.107 [pii] 10.1101/gr.074492.107.
Referencia Instruccin:
Zerbino, D. R., Using the Velvet de novo assembler for shor-read sequencing technologies. Current
protocols
in
bioinformatics/editor
board,
Andreas
D.
Baxevanis...
[et
al.],
2010.10.1002/0471250953.bi1105s31.

Inputs: archivos de secuencia, Fordward y Reverse de los reads (formato FASTQ)

Instrucciones:
The Velvet es un programa de ensamblaje de novo que se instal con un 'MAXKMERLENGTH' fij en
101 pb (hacer 'MAXKMERLENGTH=101') - vase el manual para ms detalles. Tenga en cuenta que
un mximo k-mer de 41 ser suficiente para este ejercicio, pero k-mers ms largos se requieren
cuando se trabaja con reads generados por HiSeq y MiSeq (que ahora son tpicamente > 100 pb).
Nota Tambin tendr que aadir el directorio ruta ($PATH=), o utilizar la ruta completa de los
ejecutables 'velvetg' y 'Velveth' en las lneas de comandos descritas ms adelantes.

1. Abra una sesin de terminal y cambie al directorio en el que se contienen los archivos
SRR292770:
cd Ensamblaje

2. En primer lugar tenemos que correr Velveth , escriba:


velveth out_data_35 35 -fastq.gz -shortPaired -separate
SRR292770_1.fastq.gz SRR292770_2.fastq.gz

Esto tomar ~1-2 minutos y se producir una tabla hash de reads utilizando el k-mer de
longitud especificado (k = 35), guardados en la carpeta 'Out_data_35'.
3. El siguiente paso del Velvet es ejecutar velvetg para construir el grfico.
velvetg out_data_35 -clean yes -exp_cov 21 -cov_cutoff
2.81 -min_contig_lgth 200

Esto tomar ~ 5 minutos. La ejecucin de este comando es la salida de un nmero de


archivos en la misma carpeta que Velveth, incluyendo el archivo que contiene nuestros
contigs ensamblados recientemente - este llevar el nombre de 'contigs.fa'. Longitud
mnima contig se establece en 200 pb, ya que es la longitud ms corta para la presentacin
de proyectos de genomas a GenBank. La cobertura del cut-offs especificado aqu son los que
hemos pre-determinado para que sea ptimo para el ensamblaje de este conjunto de reads.
Vase ms abajo para obtener informacin sobre el uso de VelvetOptimiser y establecer
cut-offs para diferentes conjuntos de reads.
4. Cambiar el nombre del archivo output del Velvet
cp out_data_35/contigs.fa SRR292770_unordered.fasta

A continuacin, puede eliminar la carpeta de salida "fuera - de datos - 35 ', aunque es posible
que desee guardar o ver el archivo de estadsticas, 'stats.txt ', antes de hacerlo.
Mientras que proporcionamos valores "ptimos" para las tres opciones de Velvet (kmer=35, la cobertura esperada=20, la cobertura de corte de 2,81), estos se pueden cambiar
para examinar cmo cada uno afecta a los contigs producidos.
Nota: se puede volver a ejecutar el comando slo velvetg con nuevos valores si est
variando slo los dos ltimos y mantener el k-mer constante para mantener la carpeta de
salida de Velvet entre las corridas de velvetg.

Usando VelvetOptimiser para optimizar el montaje de novo con Velvet


Para obtener los valores "ptimos", utilizadas aqu, haremos uso de la secuencia de comandos Perl
VelvetOptimiser
(utilizamos
la
versin
2.2.5)
disponible
para
descargar
en
http://bioinformatics.net.au/software.velvetoptimiser.shtml.
En este caso, se proporcionan instrucciones para ejecutar VelvetOptimiser para demostrar cmo se
obtuvieron estos valores, y para aquellos interesados en hacer lo mismo - lo incluimos como un
ejercicio ms para hacer uso de Velvet. Los interesados en explorar an ms debe comenzar con el
papel de instruccin por Zerbino (2010). (Los que an no se siente cmodo con Unix , Perl y la lnea
de comandos pueden querer saltar el siguiente.)
1. Abra una sesin de terminal y vaya al directorio que contiene la lee archivos.
2. Para ejecutar VelvetOptimiser , escriba:
VelvetOptimiser.pl -s 33 -e 41 -f '-fastq.gz -shortPaired
-separate SRR292770_1.fastq.gz SRR292770_2.fastq.gz' -o
'-min_contig_lgth 200' -p SRR292770
Con estos ajustes, VelvetOptimiser establecer una serie de ejecuciones de Velveth utilizando oddnumbers Kmers entre 33 y 41. A continuacin, ejecuta velvetg para cada uno, tomando el que tiene
la mejor N50 como la semilla para la optimizacin final del corte de la cobertura, donde se utiliza el
nmero de bases en contigs de ms de 100 pb como la estadstica de optimizacin. La salida es el
mismo que para una corrida de Velvet regular, aunque la carpeta de salida tendr el prefijo '
SRR292770 ' para mantenerlo separado de la corrida de Velvet descrito anteriormente. El archivo
de registro para la corrida (SRR292770_logfile.txt) contiene los detalles de dicha corrida, incluidos
los comandos que se utilizan para ejecutar Velveth y velvetg.

Ordenar contigs contra un genoma de referencia utilizando Mauve


Una vez que las secuencias de los reads han sido ensambladas en contigs, es til ordenarlos en
funcin de un genoma de referencia adecuado. Una manera sencilla de lograr esto es utilizar la
opcin 'Move Contigs' disponible en Mauve.
Sitio web: http://asap.ahabs.wisc.edu/mauve/ (Incluye enlaces de descarga, instrucciones de
instalacin y gua del usuario)
Referencia: Darling, A. E., Mau, B. and Perna, N. T., progressiveMauve: multiple genome alignment
with gene gain, loss and rearrangement. PLoSOne, 2010 5(6): e11147.
Inputs: Estas sern sus contigs ensambladas recientemente y un genoma de referencia - aqu hemos
optado por utilizar Ec55989 (NCBI adhesin NC_011748), una cepa cercana relacionada con un
genoma completo, disponible para su descarga desde NCBI.
Ir a este enlace: ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Escherichia_coli_55989_uid59383/ y
descarga la secuencia en formato fasta, NC_011748.fna (haga clic para guardarlo en su ordenador).
Instrucciones:
Una vez que haya instalado MAUVE y localizado su genoma de referencia y contigs, podemos
ordenar los contigs.
1. Inicie la aplicacin de MAUVE.
2. En el men Herramientas, seleccione "Move Contigs".

3. Debera aparecer un cuadro de dilogo, con un recuadro llamado


Choose location to keep output files and folders. Navegue a la carpeta con
las secuencias y los contigs copiados, haga clic en el botn de opcin "Crear nueva
carpeta". D esta carpeta un nombre adecuado, por ejemplo ' MauveOutput "y despus
haga clic en 'Aceptar'.

4. Debera aparecer un mensaje que le dice sobre el proceso iterativo involucrados en la


reordenacin de los contigs. Tomar nota de que, despus haga clic en "Aceptar" para
descartarla.
5. Debera aparecer un cuadro de dilogo, con un recuadro llamado "Align and Reorder
Contigs". Haga clic en el botn de abajo de la caja "Add Sequence" y navega hasta el
genoma de referencia para alinear, en este caso 'NC_011748.fna'.
6. Haga clic en el botn ' Add Sequence' de nuevo y vaya al archivo fasta del contigs que
desea alinear, 'SRR292770_unordered.fasta' del ejercicio anterior. Compruebe que ha
puesto el genoma de referencia primero, y el proyecto despus, como era de esperar
por el MAUVE.
7. Haga clic en "Start" para ejecutar el reordenamiento. Esto puede tardar una media hora
ms o menos en total. Una nueva ventana debe aparecer la indicacin 'Mauve Console',
donde se mostrar el progreso de la ejecucin, incluyendo cualquier mensaje de error
(ver ms abajo para un ejemplo). Una nueva ventana de la herramienta de visualizacin
debera lanzamiento para cada iteracin completado, la mencin Mauve unknown
alignmentX, donde X es el nmero de iteracin. Si encuentra errores, compruebe que
ha especificado los archivos correctos de entrada - deben ser fasta o mltiples - archivos
de secuencias FASTA.
8. Por ltimo, debera aparecer un mensaje que indica el nuevo pedido se ha completado.
Clic en 'OK' y salga de Mauve - aunque usted puede inspeccionar la alineacin final (y
otros) de antemano.
9. El conjunto final de contigs ordenados y orientados estn en el archivo FASTA ubicada
en la ltima de las alineaciones iteradas. Para encontrarlo, busque en la carpeta

'MauveOutput' creado anteriormente. Para cada iteracin del reordenamiento habr


una carpeta de salida, por lo que el resultado final es el archivo de contig ubicado en el
subdirectorio 'AlignmentX' con la ms alta X, donde X es el nmero de iteracin.
Cambiar el nombre de 'SRR292770_unordered.fasta' en este subdirectorio , a
'SRR292770.fasta' y copiarlo en el directorio de trabajo principal.

Visualizacin de los contigs ordenados (Mauve)


Para examinar los contigs recin ordenados, nosotros disponemos de dos GUI - enfoques basados.
Para el primero, tanto el programa de MAUVE y las instrucciones para el mtodo de comparacin
son como se detalla a continuacin, aunque con algunas pequeas (pero importantes) cambios.
En este ejemplo, vamos a generar un alineamiento mltiple de los contigs ordenados del brote del
genoma O104:H4, el genoma Ec55989 utilizado como referencia para el pedido, y otro ensamblado
creado, usando ms grupos reads para nuestro proyecto genoma, y un ensamblador diferente. Este
conjunto alternativo de cepa TY-2482 (accesin del NCBI: AFVR01) est disponible para su descarga
aqu http://www.ncbi.nlm.nih.gov/Traces/wgs/?val=AFVR01 en formato gzip FASTQ a travs de la
pestaa de descarga. Una vez descargado, descomprima el archivo antes de continuar. Pide este
ensamblaje alternativo para el primer genoma de referencia Ec55989 - utilice las instrucciones
proporcionadas anteriormente.
Instrucciones:
1. Inicie la aplicacin de MAUVE
2. Desde el men Archivo, seleccione Align with progressiveMauve
3. Aparecer un cuadro de dilogo, con un cuadro denominado Sequences to align:.
Haga clic en el botn de abajo de la caja Add Sequence y navega hasta el archivo de
contigs ordenado, 'SRR292770.fasta'.
4. Haga clic en el botn Add Sequence de nuevo y vaya al archivo FASTA de un genoma
que desea alinear. En este caso, vamos a comenzar con el ensamblaje alternativo,
'AFVR01.fasta' Si usted proporciona un archivo multi-FASTA que contiene contigs,
Mauve concatenar estos juntos antes de ejecutar la alineacin.
5. Repita el paso 4 para agregar cualquier otra secuencia de inters. En nuestro ejemplo,
se acaba de agregar el genoma Ec55989 CEEA.
6. Ahora tenemos que especificar el archivo de salida. Haga clic en el botn marcado "..."
para seleccionar un archivo de salida. Navegue hasta el directorio en el que desea que
la salida aparezca. Ahora especifique un nombre para el archivo de salida (por ejemplo,
'mauve_output'), y haga clic en Save".

7. Haga clic en "Align... para ejecutar la alineacin. Esto puede tardar una media hora ms
o menos. Una nueva ventana debe aparecer la indicacin Mauve Console, donde se
mostrar el progreso de la ejecucin, incluyendo cualquier mensaje de error.
Si encuentra errores, compruebe que ha especificado los archivos correctos para los
inputs - todos ellos deben ser fasta o mltiples-archivos de secuencias FASTA, y pueden
incluir hasta un genoma en formato GenBank (para proporcionar una anotacin).
8. Una vez finalizada la alineacin, aparecer la herramienta de visualizacin. Para
simplificar la imagen un poco, seleccione View Style uncheck LCB connecting
lines. Se debe tener este aspecto:

Row 1 = O104 ordered contigs.


Row 2 = alternative assembly
Row 3 = Ec55989 (EAEC) genome
Bloques coloreados indican regiones de la secuencia con homologa en los otros genomas.
Las lneas rojas indican los lmites de los contigs.
Ntese la similitud en las rdenes de nuestra asamblea de VELVET y el conjunto alternativo.
Ambas ensamblajes contienen contigs que no se asignan a la referencia del genoma.
Puede guardar una imagen esttica de lo que usted est viendo, seleccione Tools Export
Export image

Fin del sufrimiento!!!

Vous aimerez peut-être aussi