Académique Documents
Professionnel Documents
Culture Documents
454 Visin general Tutorial: de novo OTU recoger la diversidad y anlisis utilizando datos de 454
La obtencin de los datos
Secuencias (.fna)
Los niveles de calidad (.qual)
Archivo de asignacin (.txt delimitado por tabulaciones)
Validar el archivo de asignacin
Demultiplexar y filtro de calidad lee
De novo OTU recogiendo
Paso 1. Seleccin UOT sobre la base de similitud de secuencias dentro de las lecturas
Paso 2. Elija una secuencia representativa para cada OTU
Paso 3. Asignar a la taxonoma OTU secuencias representativas
Paso 4. Alinear las secuencias representativas OTU
Paso 5. Filtrar la alineacin
Paso 6. Elaborar un rbol filogentico
Paso 7. Hacer la tabla OTU
Resumir la tabla OTU
Hacer una red OTU
Resumir las comunidades de composicin taxonmica
Hacer un mapa de calor taxonoma
Calcular la diversidad alfa y alfa generar trazados de rarefaccin
Paso 1. Generar tablas OTU enrarecidos
Paso 2. Calcular las medidas de diversidad alfa para cada tabla OTU enrarecida
Paso 3. recopilar los resultados de diversidad alfa
Paso 4. Generar parcelas alfa rarefaccin
Visualizacin de las parcelas de rarefaccin alfa
Calcular la diversidad beta y generar grficos de ordenacin
Paso 1. Tabla de rarefy OTU para eliminar la heterogeneidad profundidad de muestreo
Paso 2. Calcular la diversidad beta
Paso 3. Ejecutar anlisis de coordenadas principales
Paso 4. Generar parcelas emperador PCoA
jackknifed diversidad beta y la agrupacin jerrquica
Los pasos 1 y 2. La agrupacin UPGMA
Los pasos 3, 4 y 5. Realizar el apoyo jackknifing
Paso 6. Comparar rboles UPGMA enrarecidos y determinar el apoyo navaja de bolsillo para los
nodos del rbol
Los pasos 7 y 8. Compara parcelas PCoA
Generar rbol de bootstrap
Generar biplots 3-D
Ejecutar secuencias de comandos de flujo de trabajo en paralelo
A modo de ejemplo, vamos a utilizar los datos de un estudio de la respuesta de las comunidades microbianas
intestinales de ratn para el ayuno ( Crawford et al. (2009) ). Para realizar este tutorial ejecutar de forma rpida
en un ordenador personal, vamos a utilizar un subconjunto de los datos generados a partir de 5 animales que
se mantengan en el mando ad libitum alimentados con la dieta, y 4 animales en ayunas durante 24 horas
antes del sacrificio. Al final de nuestro tutorial, vamos a ser capaces de comparar la estructura de la comunidad
de control frente a animales en ayunas. En particular, vamos a ser capaces de comparar los perfiles
taxonmicos para cada tipo de muestra y realizar alfa y beta diversidad anlisis para buscar las diferencias de
nivel comunitario en las muestras.
Si necesita ayuda mientras se trabaja a travs de la gua de aprendizaje, por favor visite http://help.qiime.org .
Abre un terminal y usar el cd comando para mover al directorio donde ha descargado los datos del tutorial. A
continuacin, descomprimir los datos del tutorial y se mueven en el directorio descomprimido que se crea:
descomprimir qiime_overview_tutorial.zip
cd qiime_overview_tutorial
Secuencias (.fna)
Este es el archivo de ndice de calidad generado 454-mquina, que contiene una puntuacin para cada base
en cada secuencia incluida en el archivo FASTA. Al igual que el archivo FASTA se mencion anteriormente,
el software de procesamiento de amplicn generar uno de estos archivos para cada zona de la placa PTP,
llamado 1.TCA.454Reads.qual , etc. A los efectos de este tutorial, vamos a utilizar el archivo de las puntuaciones
de calidadFasting_Example.qual .
A los efectos de este tutorial, vamos a utilizar el archivo de asignacin Fasting_Map.txt . El contenido del
archivo de correlacin se muestran aqu - como se puede ver, se proporciona una secuencia de nucletidos
de cdigo de barras para cada una de las 9 muestras, as como metadatos relacionados con el grupo de
tratamiento y fecha de nacimiento, y las descripciones de ejecucin generales acerca del proyecto:
Los cebadores inversos se pueden especificar en el archivo de asignacin, para la eliminacin durante la
etapa de demultiplexacin. Esto no es necesario, pero es muy recomendable, ya que salir en las secuencias
siguientes cebadores, tales como adaptadores de secuenciacin, puede interferir con la OTU picking y
asignacin taxonmica.
Por ejemplo, un archivo de asignacin con cebadores inversos se especifica en la ReversePrimer columna
podra ser:
Los cebadores inversos, como los cebadores directos, estn escritos en 5 '-> 3'. En este caso, estos no son
los verdaderos cebadores inversos usados, sino ms bien slo un sitio un poco conservado en las secuencias
utilizadas para este ejemplo.
El constructo del cebador y amplicn usado en Crawford et al. (2009) se muestra a continuacin, utilizando la
nomenclatura anotada QIIME:
454 secuenciacin, en la mayora de los casos, genera secuencias que comienzan en la BarcodeSequence ,
que es seguido por el LinkerPrimerSequence , ambos de los cuales se eliminan automticamente durante la
etapa de demultiplexacin se describe a continuacin. El ReversePrimer (es decir, el cebador al final de la
lectura) no se elimina por defecto, pero puede estar utilizando el -z opcin de split_libraries.py . La secuencia
del adaptador (adaptador B) no es una secuencia biolgica, por lo que debe ser eliminado si sospecha que
est contenida dentro de tus lecturas. Esto se puede lograr usando el -z opcin de split_libraries.py .
Eliminacin cebador inverso se puede lograr mediante la adicin de la -z opcin. Un comando de ejemplo
utilizando el archivo de asignacin con cebadores inversos descritos anteriormente:
Si el nmero de secuencias en las que el cebador inverso no es identificable es alta, usted debe comprobar
la secuencia del cebador para asegurarse de que est en 5 '-> 3' orientacin, o aumentar el nmero de
desajustes permitidos con --reverse_primer_mismatches .
Los datos que ya estn demultiplexed puede tener cebadores inversos removidos utilizando la secuencia de
comandos independiente truncate_reverse_primer.py .
Si usted est interesado en la eliminacin de ruido 454 de datos, consulte el tutorial de eliminacin de ruido .
Los resultados de pick_de_novo_otus.py estn en otus / , y una descripcin de las etapas llevadas a cabo y
los resultados siguen:
En este paso, todas las secuencias de todas las muestras se agrupan en unidades taxonmicas operacionales
(Otus) en funcin de su similitud de secuencia. UOT en QIIME son grupos de secuencias, con frecuencia
pretenden representar algn grado de relacin taxonmica. Por ejemplo, cuando las secuencias se agrupan
en 97% de similitud de secuencias, cada grupo resultante se piensa tpicamente como la representacin de
una especie. Este las tcnicas actuales para recoger UOT modelo y son conocidos por ser defectuoso, sin
embargo, en que el 97% UOT no se ajustan a lo que los humanos han llamado a las especies para muchos
microbios. Determinar exactamente cmo debe definirse Otus, y lo que representan, es un rea activa de
investigacin. Ver aqu para obtener ms informacin acerca de OTU picking con QIIME.
Dado que cada OTU puede estar compuesta de muchas secuencias relacionadas, escogeremos una
secuencia representante de cada OTU para el anlisis de aguas abajo. Esta secuencia representativa ser
utilizado para la identificacin taxonmica de la OTU y la alineacin filogentica. QIIME utiliza el archivo de
OTU creado arriba y extrae una secuencia representativa del archivo fasta por uno de varios mtodos.
En el / rep_set / otus del directorio, QIIME tiene un archivo FASTA seqs_rep_set.fasta que contiene una secuencia
representativa de cada OTU. En este archivo FASTA, la secuencia se ha cambiado el nombre con el
identificador OTU, y la informacin adicional en la lnea de cabecera refleja la secuencia utilizada como
representante:
> 0 PC.636_424
CTGGGCCGTATCTCAGTCCCAATGTGGCCGGTCGACCTCTC ....
> 1 PC.481_321
TTGGGCCGTGTCTCAGTCCCAATGTGGCCGTCCGCCCTCTC ....
La alineacin de las secuencias representativas y la filogenia inferencia OTU es necesario slo si las mtricas
filogenticos como UniFrac sern invocadas posteriormente. Alineaciones o bien se pueden generar de novo
usando programas tales como el msculo, o por medio de la alineacin a una alineacin existente con
herramientas como PyNAST . Para los pequeos estudios como este tutorial, cualquiera de estos mtodos es
posible. Sin embargo, para los estudios con muchas secuencias de (ms o menos, ms de 1000), de novo
alineadores son muy lentos y alineacin con PyNAST es necesario. Puesto que la alineacin es uno de los
cuellos de botella ms intensivos computacionalmente en la tubera, los grandes estudios se benefician
enormemente de la paralelizacin de esta tarea, que es posible con PyNAST .
Antes de inferir un rbol filogentico de las secuencias relativas, es beneficioso para filtrar la secuencia de
alineacin para eliminar columnas compuestas de slo lagunas, y ubicaciones conocido por ser
excesivamente variable. QIIME utiliza una mscara carril 16S alineacin (Lane, DJ 1991) de forma
predeterminada. Despus de filtrar, un archivo de alineacin filtrada se crea en el directorio otus /
pynast_aligned_seqs / .
El archivo de alineacin filtrada producida en el directorio otus / pynast_aligned_seqs / se utiliza entonces para
construir un rbol filogentico utilizando un programa de generacin de rboles.
El archivo rbol de formato Newick se escribe en rep_set.tre , que se encuentra en el otus / directorio. Este
archivo se puede ver en el software de visualizacin de rbol, y es necesario para UniFrac mediciones de
diversidad y otros anlisis filogenticamente-Aware (descritos ms adelante). El rbol obtenido puede ser
visualizado con programas tales como FIGTREE , que se utiliza para visualizar el rbol filogentico
almacenada en rep_set.tre :
El uso de asignaciones taxonmicas (paso 3) y el mapa OTU (paso 1) QIIME monta una mesa de OTU
abundancias en cada muestra con identificadores taxonmicos para cada OTU.
El resultado de este paso es otu_table.biom , que se encuentra en el otus / directorio. Para obtener ms
informacin sobre el formato de tabla OTU, que se almacena en el formato BIOM, consulte aqu .
Muestras NUM: 9
observaciones NUM: 419
Recuento total: 1.337
densidad Tabla (fraccin de los valores distintos de cero): 0.168
Para visualizar la red, se utiliza el Cytoscape programa (que puede ejecutar llamando Cytoscape desde la
lnea de comandos - puede que tenga que llamar a este principio, ya sea con un capital o minsculas 'C' en
funcin de la versin de Cytoscape ), donde cada roja crculo representa una muestra y cada cuadrado blanco
representa una OTU. Las lneas representan la UOT presente en una muestra particular (azul para controles
y verde para el ayuno). Para obtener ms informacin sobre cmo abrir los archivos
en Cytoscape consulte Realizacin de Cytoscape Redes .
Resumir las comunidades por la composicin taxonmica
Puede agrupar UOT por diferentes niveles taxonmicos (filo, clase, familia, etc.) con la secuencia de
comandos de flujo de trabajo summarize_taxa_through_plots.py . Tenga en cuenta que este proceso depende
directamente del mtodo utilizado para asignar la informacin taxonmica a OTUS (vase Asignacin de
Taxonoma arriba):
El script generar nuevas tablas en varios niveles taxonmicos (nos referiremos a ellas como tablas de
taxonoma , que son diferentes de tablas OTU ). Por ejemplo, la tabla de nivel de clase se encuentra
en taxa_summary / otu_table_L3.txt . Cada tabla de taxonoma contiene las abundancias relativas de taxones
dentro de cada muestra:
#OTU ID PC.636 PC.635 PC.356 PC.481 PC.354 PC.593 PC.355 PC.607 PC.634
no asignados; Otro; Otros ,027027027027 ,00671140939597 ,0133333333333 ,00684931506849 0.0
,00671140939597 ,00680272108844 ,0134228187919 0.02
k__Bacteria; Otro; Otros 0.0 0,0 0,0 0,0 0,0 0,0 0,0 ,00671140939597 0.0
k__Bacteria; p__Actinobacteria; c__Coriobacteriia ,00675675675676 0,0 0,0 ,00684931506849 0,0 0,0
0,0 0,0134228187919 0,0133333333333
k__Bacteria; p__Bacteroidetes; c__Bacteroidia 0,675675675676 0,530201342282 0,2 0.143835616438
,0805369127517 0,389261744966 0,285714285714 0,288590604027 0,64
k__Bacteria; p__Deferribacteres; c__Deferribacteres 0.0472972972973 ,0134228187919 0,0 0,0 0,0 0,0
0,0 0,0201342281879 0,0333333333333
k__Bacteria; p__Firmicutes; c__Bacilli ,027027027027 0.0 ,0933333333333 ,089041095890
0.107382550336 ,0335570469799 ,0136054421769 ,00671140939597 0.02
k__Bacteria; p__Firmicutes; c__Clostridia ,195945945946 ,436241610738 ,686666666667 ,712328767123
,798657718121 ,389261744966 0,69387755102 ,469798657718 ,213333333333
k__Bacteria; p__Firmicutes; c__Erysipelotrichi ,0135135135135 ,00671140939597 0.0 ,0342465753425
,0134228187919 ,147651006711 0.0 ,154362416107 ,0266666666667
Para ver los grficos resultantes, abra el archivo de rea de grfico de barras o HTML situada en
la taxa_summary / taxa_summary_plots carpeta. La siguiente tabla muestra las asignaciones de taxonoma para
cada muestra como un grfico de barras. Puede ratn sobre el grfico para ver qu taxones estn
contribuyendo al porcentaje indicado:
Un archivo PDF se crea como taxa_summary / otu_table_L3_heatmap.pdf . Las cuatro primeras muestras son de
ratones en ayunas y los cinco ltimos son de los controles. Esto ilustra claramente las diferencias de nivel de
clase en la composicin taxonmica de las muestras:
Aunque podramos ejecutar este flujo de trabajo con los (razonables) los parmetros por defecto, esto
proporciona una oportunidad para ilustrar el uso de parmetros personalizados en un flujo de trabajo
QIIME. Para ver qu medidas de diversidad alfa se calcula de forma predeterminada, ejecute:
alpha_diversity . py - h
lo que indica que los parmetros que se utilizarn de forma predeterminada son PD_whole_tree , Chao1 ,
y observed_otus . Si, adems, queramos calcular ndice de Shannon, podramos crear un archivo de
parmetros (que por el bien de este ejemplo que llamaremos alpha_params.txt ) que contiene la siguiente lnea:
Para obtener ms informacin sobre cmo crear archivos de parmetros, consulte aqu .
El directorio arare / rarefaccin / contendr muchos archivos de texto denominados rarefaccin _ ## _ # txt. ; el
primer grupo de nmeros representa el nmero de secuencias en la muestra, y el ltimo nmero representa
el nmero de iteracin. Si ha abierto uno de estos archivos, se encontrara una mesa OTU, donde para cada
muestra, la suma de los recuentos es igual al nmero de muestras tomadas.
Para mantener los resultados de alpha_rarefaction.py a un tamao manejable, estos resultados se eliminan a
menos que pase el --retain_intermediate_files opcin de alpha_rarefaction.py .
Paso 2. Calcular las medidas de diversidad alfa para cada tabla OTU
enrarecida
Las tablas enrarecidos son la base para el clculo de las mtricas de diversidad alfa, que describen la riqueza
y / o en la regularidad de los taxones en una sola muestra. QIIME permite a los usuarios calcular ms de dos
docenas de mtricas de diversidad diferente. La lista completa de las mtricas disponibles est
disponible aqu . Cada mtrica tiene diferentes fortalezas y limitaciones. Discusin tcnica de cada dato est
disponible en lnea y en los libros de texto de la ecologa, pero est ms all del alcance de este tutorial. De
forma predeterminada, QIIME calcula tres mtricas: Chao1 ( Chao1), observado Otus ( observed_otus ,
anteriormente conocido como especies observadas), y la diversidad filogentica ( PD_whole_tree ). Adems,
en el alpha_params.txt archivo aadimos el ndice de Shannon ( Shannon ) a la lista de medidas de diversidad
alfa que se ha calculado aqu.
El resultado de este paso produce archivos de texto con los resultados de los clculos de diversidad alfa
realizadas en las mesas OTU enrarecidos. Los resultados se encuentran en la / alpha_div / arare directorio.
Para mantener los resultados de alpha_rarefaction.py a un tamao manejable, estos resultados se eliminan a
menos que pase el --retain_intermediate_files opcin de alpha_rarefaction.py .
El directorio de salida arare / alpha_div / contendr un archivo de texto alpha_rarefaction _ ## _ # para cada
entrada de archivo de arare / rarefaccin /, donde los nmeros representan el nmero de muestras e iteraciones
como antes. El contenido de este archivo delimitado por tabuladores es la mtrica calculada para cada
muestra. Para contraer los archivos individuales en una sola tabla combinada, el flujo de trabajo
utiliza collate_alpha.py .
En el directorio de salida arare / alpha_div_collated / , habr un archivo para cada mtrica utilizada diversidad
alfa. Cada archivo contendr la medida de diversidad alfa para cada muestra, dispuestas en orden ascendente
de menor nmero de secuencias por muestra a mayor. Una parte de la observed_otus.txt archivo se muestran
a continuacin:
secuencias por muestra iteracin PC.636 PC.635 PC.356 PC.481 PC.354 PC.593 PC.355 PC.607
PC.634
alpha_rarefaction_10_0.txt 0 7,0 10,0 10 6,0 8,0 9,0 9,0 7,0 9,0 10,0
alpha_rarefaction_10_1.txt 10 1 9,0 10,0 8,0 8,0 9,0 6,0 8,0 10,0 9,0
alpha_rarefaction_10_2.txt 2 8,0 10,0 10 9,0 10,0 8,0 8,0 9,0 10,0 7,0
alpha_rarefaction_10_3.txt 3 8,0 9,0 10 7,0 6,0 10,0 9,0 7,0 10,0 7,0
alpha_rarefaction_10_4.txt 4 8,0 9,0 10 8,0 7,0 8,0 10,0 9,0 9,0 9.0
QIIME crea parcelas de diversidad alfa versus esfuerzo de secuenciacin simulado, conocido como parcelas
de rarefaccin, con el script make_rarefaction_plots.py . Este script toma un archivo de asignacin y cualquier
nmero de archivos generados por collate_alpha.py , y crea curvas de rarefaccin alfa. Cada curva representa
una muestra y se pueden agrupar por el metadatos de ejemplo suministrado en el archivo de asignacin.
Este paso genera una arare / alpha_rarefaction_plots / rarefaction_plots.html archivo que se puede abrir con un
navegador web, adems de otros archivos. El / alpha_rarefaction_plots / average_plots / arare carpeta contiene las
parcelas medias para cada mtrica y la categora.
El arare / alpha_rarefaction_plots / average_tables / carpeta contiene los promedios medida de diversidad para
cada tabla enrarecida, por lo que el usuario puede trazar las curvas de rarefaccin opcionalmente en otra
aplicacin. Para mantener los resultados de make_rarefaction_plots.py a un tamao manejable, estos
resultados no se generan a menos que pase el --generate_average_tables opcin de make_rarefaction_plots.py .
Para ver las parcelas de rarefaccin alfa, abra el archivo arare / alpha_rarefaction_plots /
rarefaction_plots.html . Una vez que la ventana del navegador est abierto, seleccione la
mtrica PD_whole_tree y la categora de tratamiento , para revelar una trama como la siguiente figura. Puede
hacer clic en el tringulo situado junto a cada etiqueta en la leyenda para ver todas las muestras que
contribuyen a esa categora. Debajo de cada parcela es una tabla que muestra los valores medios de cada
medida de la diversidad alfa para cada grupo de muestras en la categora especificada.
Al igual que la diversidad alfa, hay muchas posibles mtricas de diversidad beta que se pueden calcular con
QIIME. La lista completa de las mtricas se puede ver mediante la ejecucin de:
beta_diversity . py - s
A continuacin, vamos a calcular la diversidad beta entre nuestros 9 comunidades microbianas utilizando las
mtricas de diversidad beta predeterminado de ponderados y sin ponderar UniFrac , que son medidas
filogenticos utilizados ampliamente en los ltimos proyectos de secuenciacin de la comunidad
microbiana. Para realizar este anlisis, vamos a utilizar el beta_diversity_through_plots.py flujo de trabajo, que
realiza los siguientes pasos:
Podemos ejecutar el beta_diversity_through_plots.py flujo de trabajo con el siguiente comando, que requiere
la tabla OTU ( -i ) y el archivo de rbol ( -t ) de ms arriba , el archivo de asignacin de metadatos ( -m ), y el
nmero de secuencias por muestra ( - e , incluso la profundidad de muestreo):
Para eliminar la heterogeneidad de muestreo de profundidad, podemos realizar la rarefaccin en nuestra mesa
OTU. Rarefaccin es un enfoque ecolgico que permite a los usuarios para normalizar los datos obtenidos de
las muestras con diferentes esfuerzos de secuenciacin, y comparar la riqueza OTU de las muestras usando
estos datos estandarizados. Por ejemplo, si uno de sus muestras dieron 10.000 secuencias, y otro, slo se
obtuvo 1.000 secuencias, la diversidad de especies dentro de esas muestras puede ser mucho ms
influenciada por el esfuerzo de secuenciacin de la biologa subyacente. Utilizamos la rarefaccin de
submuestra al azar el mismo nmero de secuencias de cada muestra con el fin de comparar las comunidades
con un determinado nivel de esfuerzo de muestreo (una profundidad uniforme de muestreo ).
Ver la biom resuma mesa seccin anterior para el nmero de secuencias en cada una de las 9 comunidades.
Dado que todas las muestras tienen al menos 146 secuencias, un nivel de rarefaccin de 146 (especificado
por -e 146 arriba) nos permite comparar las 9 muestras a una profundidad igual secuenciacin. Todas las
muestras que contienen menos de 146 secuencias habran sido retirados de estos anlisis de la diversidad
beta.
Mtricas de diversidad beta evaluar las diferencias entre las comunidades microbianas. De forma
predeterminada, QIIME calcula tanto ponderados y sin ponderar UniFrac , que son medidas
filogenticamente-consciente de la diversidad beta.
Anlisis de coordenadas principales (PCoA) es una tcnica que ayuda a extraer y visualizar unos pocos
componentes altamente informativos de variacin a partir de datos complejas, multidimensionales. Esta es
una transformacin que mapea las muestras presentes en la matriz de distancia a un nuevo sistema de ejes
ortogonales tal que una cantidad mxima de variacin se explica por el primer principal de coordenadas, la
segunda mayor cantidad de variacin se explica por el segundo director de coordenadas, etc. . Las
coordenadas principales se pueden representar en dos o tres dimensiones para proporcionar una visualizacin
intuitiva de las diferencias entre muestras. Para obtener ms informacin sobre otras tcnicas de ordenacin
y PCoA, ver aqu .
Emperador permite la visualizacin de las parcelas PCoA en tres dimensiones. Los archivos HTML se crean
en bdiv_even146 / unweighted_unifrac_emperor_pcoa_plot y bdiv_even146 /
weighted_unifrac_emperor_pcoa_plot directorios. Para el tratamiento de la columna en el archivo de asignacin,
todas las muestras con el mismo tratamiento (control o ayuno) ser conseguir el mismo color. Por defecto, las
cinco muestras de control son de color rojo y las cuatro muestras en ayunas son de color azul (colores, y
muchos otros parmetros de trazado, se puede personalizar en emperador). Esto le permite visualizar
fcilmente "agrupamiento" por categora de metadatos. El software de visualizacin 3-D le permite rotar los
ejes para ver los datos desde diferentes perspectivas. Por defecto, el emperador va a trazar las tres primeras
coordenadas principales. Otras combinaciones se pueden ver mediante la opcin "Ejes" en emperador. Los 8
componentes se pueden ver usando el men "paralelo" izquierda abajo usando un paralelo coordenadas
trama.
Jackknifed diversidad beta y la agrupacin jerrquica
El jackknifed_beta_diversity.py flujo de trabajo utiliza navaja replica para estimar la incertidumbre en parcelas
PCoA y la agrupacin jerrquica de las comunidades microbianas. Muchos de los mismos conceptos
pertinentes a la diversidad beta y PCoA se utilizan aqu. jackknifed_beta_diversity.py realiza los siguientes
pasos:
1. Calcular matriz de distancias diversidad beta de la mesa OTU completo y el rbol ( beta_diversity.py ). Estos
se utilizan slo si el usuario pasa --master_tree completa .
2. Construir rbol UPGMA de matriz de distancia mxima ( upgma_cluster.py ). Esto slo se utiliza si el usuario
pasa --master_tree completa .
3. Construir tablas OTU enrarecida ( multiple_rarefactions_even_depth.py ).
4. Calcular las matrices de distancia de las tablas OTU enrarecidos ( beta_diversity.py ).
5. Construir rboles UPGMA de matrices de distancia (enrarecidos upgma_cluster.py ).
6. Comparar rboles UPGMA enrarecidos y determinar el apoyo navaja de bolsillo para los nodos del rbol
( tree_compare.py y consensus_tree.py ).
7. PCoA calcular en cada matriz de distancia enrarecida ( principal_coordinates.py ).
8. Comparar parcelas PCoA enrarecidos de cada matriz de distancia enrarecida ( make_emperor.py ).
Este rbol se muestra la relacin entre las 9 muestras, y revela que las 4 muestras de los intestinos de ratones
en ayunas se agrupan (PC.6xx, los datos de ayuno est en Fasting_Map.txt ). Los rboles UPGMA resultantes
de este paso no deben ser interpretados directamente. Por el contrario, slo se utilizan en el paso 6 si el
usuario pasa --master_tree completa . El valor por defecto ( --master_tree consenso ) dar lugar a un resultado
ms biolgicamente significativos, por lo que estos se proporcionan slo como una opcin de legado.
Para medir la solidez de los resultados a la profundidad de secuenciacin, llevamos a cabo un anlisis
jackknifing, en el que un menor nmero de secuencias se eligen al azar de cada muestra, y el rbol UPGMA
resultante de este subconjunto de datos se compara con el rbol que representa los datos de la totalidad
conjunto. Este proceso se repite con muchos subconjuntos al azar de los datos, y los nodos del rbol que
resulten ms consistente a travs de conjuntos de datos jackknifed se consideran ms robusto.
En primer lugar, las mesas jackknifed OTU deben ser generados por submuestreo el conjunto de datos
completo. En este tutorial, cada muestra contiene entre 146 y 150 secuencias, como se muestra con biom
resuma mesa .
Para asegurarse de que un subconjunto al azar de secuencias se selecciona entre cada muestra, elegimos
para seleccionar 110 secuencias de cada muestra (75% de la muestra ms pequea, aunque este valor es
slo una gua), que est designado por el -e opcin cuando se ejecuta el flujo de trabajo (vase ms arriba).
Ms navaja replica a proporcionar una mejor estimacin de la variabilidad esperada en los resultados de la
diversidad beta, pero a costa de tiempo de clculo ms tiempo. De forma predeterminada, QIIME genera 10
rplicas navaja de bolsillo de los datos disponibles. Cada rplica es una simulacin de un esfuerzo de
secuenciacin ms pequeo (110 secuencias en cada muestra, como se define anteriormente).
El flujo de trabajo a continuacin, calcula una matriz de distancia para cada conjunto de datos jackknifed, lo
que se traduce en 10 archivos de matriz de distancia por escrito a la / unweighted_unifrac / rare_dm / jack de
abonados y las 10 matrices de distancia por escrito a la / weighted_unifrac / rare_dm / jack directorio. Cada
conjunto de 10 matrices de distancia se utiliza como entrada a la agrupacin jerrquica con UPGMA, con la
salida escrita a los conector / unweighted_unifrac / rare_upgma / y conector / weighted_unifrac / rare_upgma
/ directorios.
UPGMA agrupacin de las matrices 10 a distancia los resultados en 10 agrupamientos jerrquicos (o rboles
UPGMA) de las comunidades microbianas 9 de ratn, con cada rbol UPGMA se basa en una submuestra
aleatoria de la secuencia de datos disponibles.
Este paso del flujo de trabajo compara cada rbol UPGMA a un consenso de los rboles. Tres archivos se
escriben en conector / unweighted_unifrac / upgma_cmp / y conector / weighted_unifrac / upgma_cmp / :
master_tree.tre , que es idntica a jackknife_named_nodes.tre pero cada nodo interno de la agrupacin UPGMA
se le asigna un nombre nico
jackknife_named_nodes.tre
jackknife_support.txt explica con qu frecuencia un determinado nodo interno tena el mismo conjunto de
muestras descendientes de las agrupaciones jackknifed UPGMA como lo hace en el cluster UPGMA usando
el conjunto de datos completo. Un valor de 0,5 indica que la mitad de los conjuntos de datos jackknifed apoyar
ese nodo, mientras que 1,0 indica un soporte perfecto.
Las parcelas replicadas PCoA jackknifed pueden ser comparados para evaluar el grado de variacin de una
rplica a la siguiente. Emperador muestra esta variacin, mostrando elipsoides de confianza alrededor de las
muestras representadas en un diagrama PCoA. Las parcelas resultantes estn en jack / unweighted_unifrac /
emperor_pcoa_plots y conector / weighted_unifrac / emperor_pcoa_plots :
Generar rbol de bootstrap
jackknife_named_nodes.tre se puede ver con otro programa de visualizacin de rbol de higuera o. Sin embargo,
como un ejemplo, podemos visualizar el rbol de bootstrap usando de QIIME make_bootstrapped_tree.py ,
como sigue:
El PDF resultante muestra el rbol con nodos internos de colores, rojo para el apoyo 75-100%, amarillo de 50-
75%, 25-50% para los verdes, y azules para <soporte 25%. Aunque UPGMA muestra que PC.354 clster y el
grupo PC.593 juntos y PC.481 y PC.6xx juntos, no podemos tener una alta confianza en este resultado. Sin
embargo, hay un excelente soporte navaja para todas las muestras en ayunas (PC.6xx) La agrupacin
separada de las muestras no en ayunas.
Generar biplots 3-D
Podemos aadir taxones de las tablas de la taxonoma en el taxa_summary / directorio a una parcela PCoA 3-
D utilizando el emperador make_emperor.py . Las coordenadas de un determinado taxn se representan
como la media ponderada de las coordenadas de todas las muestras, cuando las ponderaciones son las
abundancias relativas de que el taxn de las muestras. El tamao de la esfera que representa un taxn es
proporcional a la abundancia relativa media del taxn en todas las muestras. El siguiente comando crea un
biplot se presentan los 5 ms abundante taxones a nivel de clase: