Vous êtes sur la page 1sur 15

EVALUACIÓN DE LA PRECISIÓN Y EFICIENCIA DE LOS MÉTODOS DE

ALINEACIÓN DE SECUENCIAS MÚLTIPLES

Resumen: Una comparación de las 10 herramientas de alineación de secuencia múltiple (MSA) más
populares, a saber, MUSCLE, MAFFT (L-INS-i), MAFFT (FFT-NS-2), T-Coffee, ProbCons,
SATe, Clustal Omega, Kalign, Multalin y Dialign-TX se presentan. También nos centramos en la
importancia de algunas implementaciones integradas en el algoritmo de cada herramienta. Sobre la
base de 10 árboles simulados de diferentes números de taxones generados por R, se construyeron
400 alineaciones conocidas y archivos de secuencia utilizando indel-Seq-Gen. Se generaron un total
de 4000 alineaciones de prueba para estudiar el efecto de la longitud de la secuencia, el tamaño de
indel, la tasa de eliminación y la tasa de inserción. Los resultados mostraron que la calidad de la
alineación dependía en gran medida del número de eliminaciones e inserciones en las secuencias y
que la longitud de la secuencia y el tamaño indel tenían un efecto más débil. En general, ProbCons
estuvo constantemente en la parte superior de la lista de las herramientas MSA evaluadas. SATe,
siendo poco menos preciso, fue 529.10% más rápido que ProbCons y 236.72% más rápido que
MAFFT (L-INS-i). Entre otras herramientas, Kalign y MUSCLE lograron la mayor suma de pares.
También consideramos los conjuntos de datos de referencia de BALiBASE y los resultados
relativos a las alineaciones generadas por BAliBASE e indel-Seq-Gen fueron consistentes en la
mayoría de los casos.

Palabras clave: Herramientas de alineación de secuencia múltiple, estudio comparativo de


herramientas MSA, puntaje de suma de pares, puntaje de columna, parámetros evolutivos

I. Introducción

Las alineaciones de secuencias múltiples (MSA) se han vuelto muy escrutadas y un enfoque
fundamental en varios dominios de investigación en biología molecular y bioinformática, como
estudios de epidemiología y virulencia, 1 diseño de fármacos, 2 reconstrucción del árbol
filogenético, predicción de la estructura 3D, identificación de regiones conservadas , 3-5 y encontrar
la función molecular.6–8 Se han desarrollado docenas de algoritmos como parte de un intento de
mejorar la precisión de las alineaciones, pero aún no existe un único método MSA que pueda
generar alineaciones precisas para todos los tipos de prueba 9. Los repositorios refinados
manualmente de MSA como BAliBASE, 10 PREFAB, 11 y SABmark12 son buenas fuentes de
alineamientos precisos para medir el rendimiento de varios programas de MSA, pero tienen una
serie de desventajas, como el tamaño pequeño que no cubren. La gama completa de escenarios de
evolución de proteínas y debido a la homología posicional incierta que evalúa la precisión de las
alineaciones se vuelve difícil.

Además, debido a la falta de historia evolutiva entre las secuencias, las alineaciones de referencia
no pueden usarse para probar aplicaciones de software filogenético. Los desarrolladores también
pueden estar equivocados para desarrollar algoritmos para resolver los problemas que se resaltan
solo en los conjuntos de alineación seleccionados manualmente.14 Finalmente, se requiere
experiencia de alto nivel para generar alineaciones de referencia.

Las alineaciones simuladas / verdaderas son una alternativa a las alineaciones de referencia para
comparar las herramientas de MSA. La principal motivación de las secuencias simuladas es que se
conoce su verdadera historia evolutiva, que es muy útil para generar alineaciones precisas y árboles
filogenéticos. En segundo lugar, el usuario puede generar alineaciones simuladas que comprenden
velocidad de inserción variable, velocidad de eliminación, longitud de secuencia, tamaño indele y
número de secuencias. En tercer lugar, en comparación con las alineaciones de referencia, es muy
fácil para el usuario final generar alineaciones simuladas. Las secuencias simuladas también tienen
algunos inconvenientes. Primero, debido a la dependencia de todas las observaciones extraídas de
alineaciones verdaderas sobre las simplificaciones y suposiciones del modelo utilizado para
reconstruir estas alineaciones, las secuencias simuladas no pueden dar una explicación para todos
los aspectos evolutivos. La otra amenaza potencial es el uso de configuraciones de simulación más
cercanas a la estrategia de algunos métodos MSA que otros. Por ejemplo, el modelo seleccionado
de evolución de secuencia podría ser similar al modelo fundamental de una herramienta MSA
particular y, por lo tanto, proporcionarle una ventaja excesiva15. Teniendo en cuenta las desventajas
de las secuencias simuladas, es necesario comparar los resultados de alineaciones verdaderas con
Los resultados de las secuencias de referencia. Sin embargo, la fácil construcción de alineaciones
simuladas es una de las principales motivaciones para aplicarlas al estudio comparativo de los
métodos de MSA.

Varios simuladores de secuencia, con sus propias fortalezas y debilidades, están disponibles.
ROSE16 genera MSA para secuencias de ADN, ARN y proteínas, y también se registra la
verdadera historia evolutiva. ROSE incorpora indeles linealmente de acuerdo con la distribución
evolutiva de distancia y longitud. Los modelos indel con probabilidades indel no lineales no se
pueden mostrar en ROSE. SIMPROT17 es otra herramienta de simulación que incorpora indels; sin
embargo, no admite la característica de secuencia de raíz como entrada, la conservación de motivos
o la modificación de frecuencias de aminoácidos entre subsecuencias. Tampoco genera
alineamientos para secuencias de nucleótidos. MySSP18 simula secuencias de ADN utilizando
diferentes modelos de evolución del ADN, como Jukes-Cantor, 19 Kimura de dos parámetros, 20 de
entrada igual y Hasegawa – Kishino – Yano.21 Incorpora las características de indeles, patrones no
estacionarios y salida de secuencias ancestrales. Indel-Seq-Gen − 2.1.03 (iSGv2.0) 22 genera
secuencias de ADN y familias de proteínas altamente divergentes al incorporar una serie de
modelos indel. También puede modelar evoluciones de ADN codificantes y no codificantes.
iSGv2.0 es una nueva herramienta para generar conjuntos de datos simulados. iSGv2.0 mejora a
iSGv1.0 mediante la adición de la conservación de motivos, la evolución específica del linaje, el
uso de seguimiento indel, expresiones regulares similares a PROSITE y restricciones de longitud de
subsecuencia, así como la evolución del ADN codificante y no codificante. Los autores en su
artículo original afirmaron que iSGv2.0 tiene características únicas para generar secuencias de
proteínas altamente divergentes con la incorporación de indeles.

En la era actual, hay una gran cantidad de métodos MSA disponibles. Los estudios
comparativos9,14,23 de los programas de MSA mostraron que ninguno de ellos era capaz de
generar alineamientos precisos para todos los casos de prueba. La elección de un método MSA se
basa en las secuencias a alinear. En este artículo, presentamos un estudio comparativo de 10 de los
métodos MSA más utilizados basados en un enfoque diferente. Los programas MSA seleccionados
son T-Coffee, 24 MAFFT (FF-TNS-2), MAFFT (L-INS-i), 25,26 MUSCLE, 11,27 Kalign, 28,29
DialignTX, 30 Multalin, 31 Clustal Omega, 32 ProbCons, 33 y SATe.34,35 Nuestro estudio
también se centró en la importancia de algunas implementaciones integradas en el algoritmo de
cada programa. Usando varios parámetros evolutivos, se construyeron alineaciones simuladas a
través de iSG. Como parte de la entrada a iSG, se generaron árboles simulados bajo el modelo de
nacimiento y muerte utilizando el paquete TreeSim36 integrado en R, que es un conjunto de
herramientas de software para la interpretación de datos y la vista gráfica.37 El modelo de
nacimiento y muerte permite que las especies se especian con una tasa constante b, y se extingue
con una tasa constante d. En consecuencia, el árbol simulado crece a la velocidad de b − d. Para
asegurar el crecimiento neto del árbol filogenético, la tasa de natalidad debe ser más alta que la tasa
de mortalidad. iSG produjo las secuencias alineadas y no alineadas. Las secuencias no alineadas se
utilizaron como entrada para los programas MSA seleccionados para generar MSA, que luego se
compararon con las alineaciones producidas por iSG. También presentamos una comparación de los
resultados obtenidos en las alineaciones simuladas y los resultados obtenidos en las alineaciones de
referencia BALiBASE. Esta comparación, con algunas excepciones, confirmó que las alineaciones
simuladas pueden usarse como una alternativa para el estudio comparativo de las herramientas de
MSA.

II. Resultados

Secuencias simuladas y alineaciones. Se utilizaron secuencias simuladas y alineaciones generadas


por iSG para estudiar el efecto de la longitud de la secuencia, el tamaño de indel, la tasa de
eliminación y la tasa de inserción en la precisión de la alineación. Se construyeron cuatrocientos
alineamientos conocidos y los archivos de secuencia correspondientes sin indeles basados en los
árboles generados por R. Los dos puntajes más populares, es decir, la suma de pares (SPS) y el
puntaje de columna (CS) se aplicaron para medir la calidad de los alineamientos.

Evaluación de herramientas MSA: precisión de alineación general. Para cada una de las 400
alineaciones de referencia en el conjunto de datos simulado, se aplicaron los 10 métodos MSA, lo
que resultó en un total de 4000 alineaciones de prueba. Estas 4000 alineaciones de prueba
consistieron en 1000 alineaciones con un tamaño indele variable, 1000 alineaciones con una
longitud de secuencia variable, 1000 alineaciones con una tasa de eliminación variable y 1000
alineaciones con una tasa de inserción variable. Los parámetros evolutivos variables se muestran en
la Tabla 1. La precisión general de estas alineaciones se midió utilizando puntajes promedio de
suma de pares. El experimento confirmó hallazgos anteriores9,14 en el sentido de que ProbCons
superó a todas las demás herramientas de MSA (Fig. 1). SATe, que no se probó en los estudios
anteriores, estaba en la segunda posición y MAFFT (L-INS-i) estaba en la tercera posición. Entre
otras herramientas, Kalign logró el puntaje más alto. T-Coffee y MAFFT (FF-TNS-2) generaron las
alineaciones de menor calidad. El análisis de varianza unidireccional (ANOVA) mostró un nivel
significativo de 0.002, lo que significa que hay una diferencia significativa entre SPS de las
alineaciones generadas por las herramientas de MSA. La Tabla de comparaciones múltiples (MCT)
desarrollada usando la prueba post hoc de Tukey confirmó nuestros resultados de que ProbCons,
SATe y MAFFT (L-INS-i) eran las herramientas más precisas. ANOVA y MCT se adjuntan como
archivo suplementario (ANOVA-MCT).
Tabla 1. Cuatro conjuntos de parámetros evolutivos.

Figura 1. Calidad de alineación general medida con SPS. Las barras de error corresponden a una
desviación estándar. ProbCons mantuvo su primera posición pero MAFFT (L-INS-i) perdió la
segunda posición, que estaba ocupada por el SATe.

Evaluación de la herramienta MSA: efecto del tamaño indel. Para evaluar el efecto del tamaño
de indel, generamos 1000 alineaciones (100 alineaciones por cada método MSA) con diferentes
tamaños de indel (5-950). Este estudio mostró que la calidad de la alineación era mucho menos
dependiente del tamaño de indel (gráficos de líneas de las figuras 2A y 2B), pero sin embargo, la
evaluación del efecto del tamaño de indel en la calidad de alineación medida con SPS (Fig. 2A)
mostró que ProbCons fue el de mejor desempeño. SATe y MAFFT (L-INS-i) estaban en la segunda
y tercera posición, respectivamente. Entre otras herramientas de MSA, Dialign-TX logró el SPS
más alto. Multalin generó alineaciones con el SPS más bajo. El estudio del efecto del tamaño indel
sobre la calidad de alineación medida con CS (Fig. 2B) mostró que ProbCons, SATe y MAFFT (L-
INS-i) estaban en la primera, segunda y tercera posiciones, respectivamente. Entre otros programas
de MSA, T-Coffee tuvo el mejor desempeño. La mayoría de las herramientas de MSA como Clustal
Omega, Multalin, Kalign, MAFFT (FFTNS-2), MUSCLE y Dialign-TX lograron un CS muy bajo.

Figura 2. Efecto de variar el tamaño de indel en la calidad de alineación. El tamaño de indel no


afectó la calidad de alineación (gráficos de líneas); sin embargo, ProbCons fue el que mejor se
desempeñó. MAFFT (L-INS-i) y SATe lograron la segunda y tercera posición, respectivamente.
Evaluación de la herramienta MSA: efecto de la longitud de la secuencia. Para estudiar el
efecto de aumentar la longitud de la secuencia sobre la calidad de la alineación, se generó otro
conjunto de datos que tenía 1000 alineaciones (100 alineaciones por cada método MSA) de
longitudes de secuencia variables (30–2500 residuos). Este experimento mostró que la longitud de
la secuencia tenía un efecto más débil en la alineación (gráficos de líneas de las figuras 3A y 3B),
pero sin embargo, el estudio del efecto de la longitud de la secuencia medida con SPS (figura 3A)
mostró que ProbCons logró los puntajes promedio más altos. SATe y MAFFT (L-INS-i) estuvieron
consistentemente en la segunda y tercera posición, respectivamente. Entre otras herramientas de
MSA, MUSCLE y Multalin lograron el SPS más alto y más bajo, respectivamente. La evaluación
del efecto de la longitud de la secuencia medida con CS (Fig. 3B) mostró que ProbCons estaba en la
parte superior, seguido de SATe y MAFFT (L-INS-i), mientras que otros programas de MSA
lograron una CS baja.

Figura 3. Efecto de aumentar la longitud de la secuencia sobre la precisión de la alineación. Los gráficos de
líneas A y B muestran que la longitud de la secuencia tuvo un efecto más débil en el rendimiento de todos los
métodos de MSA; sin embargo, ProbCons superó a todas las demás herramientas de MSA. SATe y MAFFT
(L-INS-i) estaban en la segunda y tercera posición, respectivamente. Entre otras herramientas de MSA,
MUSCLE y MAFFT (FFT-NS-2) dieron buenas SPS y CS, respectivamente.
Evaluación de la herramienta MSA: efecto de la tasa de eliminación. Se estudió el efecto de la tasa de
eliminación sobre la calidad de la alineación generando alineaciones con tasas de eliminación variables (Tabla
1). De manera similar a los estudios del efecto del tamaño indel y la longitud de la secuencia sobre la calidad
de la alineación, se investigó el efecto de la tasa de eliminación mediante el desarrollo de un conjunto de
datos que consta de 1000 alineaciones (100 alineaciones por cada método MSA). Este estudio mostró
resultados diferentes. Primero, se observó una compensación entre el aumento de la tasa de eliminación y la
calidad de la alineación. La alta tasa de eliminación afectó la precisión de casi todas las herramientas de MSA
(gráficos de líneas de las figuras 4A y 4B). En segundo lugar, SATe logró la suma promedio más alta de
puntajes de pares (Fig. 4A) y puntajes de columna (Fig. 4B). En el caso de la calidad de alineación medida
con SPS, ProbCons y Multalin estaban en la segunda y tercera posición, respectivamente. Entre otras
herramientas de MSA, Kalign y MUSCLE fueron los mejores. MAFFT (FFT-NS-2) mostró la precisión más
pequeña. En el caso de la calidad de alineación medida con CS, MAFFT (L-INS-i) y Multalin estaban en la
segunda y tercera posición, respectivamente.

Figura 4. Efecto de aumentar la tasa de eliminación en la calidad de alineación. El estudio mostró resultados
diferentes. En primer lugar, SATe venció a ProbCons. En segundo lugar, una tasa de eliminación más alta
tuvo un efecto significativo en la calidad de la alineación (gráficos de líneas A y B). En el caso de la calidad
de alineación medida con CS, SATe, MAFFT (L-INS-i) y Multalin, se encontraban en la primera, segunda y
tercera posición, respectivamente.
Evaluación de la herramienta MSA: efecto de la tasa de inserción. Para investigar el efecto de aumentar la
tasa de inserción, se generó el cuarto conjunto de datos que consta de 1000 alineaciones (100 alineaciones por
cada método MSA) con una tasa de inserción variable (Tabla 1). Los resultados de este estudio fueron
similares al estudio del "efecto de la tasa de eliminación en la calidad de la alineación", que mostró que el
rendimiento de todas las herramientas de MSA era altamente dependiente de la tasa de inserción (gráficos de
líneas de las figuras 5A y 5B). La evaluación del efecto de la tasa de inserción medida con SPS (Fig. 5A)
mostró que SATe generó las alineaciones más precisas. ProbCons, Kalign y MAFFT (L-INS-i) estaban en la
segunda, tercera y cuarta posición, respectivamente. T-Coffee alcanzó el SPS más bajo. El estudio de la tasa
de inserción en la calidad de alineación medida con CS (Fig. 5B) mostró que SATe superó a todos los demás
programas de MSA. MUSCLE, MAFFT (L-INS-i) y ProbCons estaban en la segunda, tercera y cuarta
posición, respectivamente. T-Coffee logró el CS más bajo.

Figura 5. Efecto de aumentar la velocidad de inserción en la precisión de alineación. La tasa de inserción tuvo
un efecto significativo en la calidad de la alineación. El rendimiento de casi todas las herramientas de MSA
fue pobre con una alta tasa de inserción (gráficos de líneas). SATe logró el promedio más alto de SPS.
ProbCons y Kalign estaban en la segunda y tercera posición, respectivamente. La precisión de T-Coffee fue la
más baja. El estudio de la tasa de inserción medida con CS mostró que SATe, MUSCLE y MAFFT (L-INS-i)
estaban en primera, segunda y tercera posición, respectivamente. ProbCons estaba en la cuarta posición.
Evaluación de la herramienta MSA: tiempo consumido por cada método MSA. Los resultados mostraron
que, en general, la precisión de ProbCons fue la más alta; Sin embargo, también era la herramienta más lenta.
SATe, siendo la segunda herramienta más precisa, fue un 529% más rápido que ProbCons. MAFFT (L-INS-i)
consumió más tiempo que SATe y menos tiempo que ProbCons. Sin embargo, MUSCLE fue la herramienta
más rápida. La Figura 6 muestra el tiempo empleado en segundos por cada método MSA.

Figura 6. Eficiencia de las herramientas de MSA. ProbCons pasó el tiempo máximo. SATe fue poco menos
preciso pero 529.10% más rápido que ProbCons y 236.72% más rápido que MAFFT (L-INS-i). MUSCLE fue
la herramienta más rápida. Solo tomó 375 segundos.

Guía del usuario para elegir las herramientas de MSA. Era importante clasificar los métodos de MSA en
función de los experimentos realizados en este estudio. Los resultados se resumen en la Figura 7. ProbCons,
SATe y MAFFT (L-INS-i) fueron las mejores herramientas para secuencias con diferentes tamaños de indeles
y longitudes de secuencia. Para secuencias con tasa de inserción variable, SATe, ProbCons y Kalign lograron
el SPS más alto. En el caso de secuencias con una tasa de eliminación variable, SATe, ProbCons y Multalin
superaron a otras herramientas de MSA. En general, SATe, basado en su calidad de alineación general y
velocidad de procesamiento, fue la mejor herramienta.

Figura 7. Guía del usuario para elegir las herramientas de MSA. ProbCons, SATe y MAFFT (L-INS-i) son las
mejores herramientas para secuencias con diferentes tamaños de indel y longitud de secuencia. Para
secuencias con tasa de inserción variable, SATe, ProbCons y Kalign lograron el SPS más alto. En el caso de
secuencias con una tasa de eliminación variable, SATe, ProbCons y Multalin superaron a otras herramientas
de MSA.
Comparación de los resultados obtenidos en datos simulados con los resultados obtenidos en secuencias
de referencia. Para determinar que los resultados obtenidos en las alineaciones simuladas de iSG también
eran aplicables a las alineaciones de referencia, medimos la precisión de las 10 herramientas MSA utilizando
seis casos de prueba de referencia (RV11, RV12, RV20, RV30, RV40 y RV50) disponibles en el versión 3 de
BALiBASE (ftp: // ftp-igbmc. u-strasbg.fr/pub/BAliBASE3). RV11 contiene secuencias que tienen distancias
iguales. RV12 comprendió secuencias con huérfanos. RV20 consta de secuencias de subfamilias desviadas.
RV30 comprendía secuencias de familias con secuencias altamente divergentes. RV40 contiene secuencias
con extensiones de terminal N / C. RV50 comprende secuencias con grandes inserciones. En general, los
resultados obtenidos en las alineaciones de referencia BALiBASE fueron similares a los obtenidos en las
alineaciones verdaderas (Fig. 8). PronCons y MAFFT (L-INS-i) dieron rendimientos similares en los
conjuntos de referencia BALiBASE RV11, RV20, RV30 y RV50. En el caso del conjunto de referencia
BALiBASE RV12, ProbCons superó a MAFFT (L-INS-i); sin embargo, en RV40, MAFFT (L-INS-i)
funcionó mejor que todos los demás métodos de MSA. SATe, excepto en RV11 (donde dio un rendimiento
igual a ProbCons y MAFFT (L-INS-i)), superó todas las herramientas de MSA en todos los conjuntos de
referencia. Casi todas las herramientas de MSA funcionaron mucho mejor, pero en general las tendencias
fueron similares. ProbCons, SATe y MAFFT (L-INS-i) fueron consistentemente las mejores herramientas. Sin
embargo, en contraste con los resultados obtenidos en secuencias simuladas, SATe, Clustal Omega y T-
Coffee mostraron diferentes rendimientos. SATe superó a todas las demás herramientas de MSA, y T-Coffee
mostró un mejor rendimiento que MUSCLE. Clustal Omega superó a Kalign, Multalin y Dialign-TX. Otras
herramientas de MSA fueron casi consistentes en su desempeño. El tiempo dedicado a las alineaciones de
referencia BALiBASE por todas las herramientas de MSA también fue muy similar al tiempo dedicado a las
alineaciones simuladas (Fig. 9). En el caso de ambos conjuntos de datos, SATe fue más rápido que ProbCons
y T-Coffee. Sin embargo, también se observaron algunas diferencias. Kalign, con una diferencia de un
minuto, consumió menos tiempo que MUSCLE. MAFFT (L-INS-i) y Dialign-TX fueron más rápidos que
SATe y Multalin, respectivamente. En general, los hallazgos encontrados a partir de la comparación de los
resultados obtenidos en datos simulados con los resultados obtenidos en secuencias de referencia fueron
consistentes y confirmaron hallazgos previos14 en el sentido de que ProbCons y MAFFT (L-INS-i) fueron las
mejores herramientas.

Figura 8. Comparación general de la calidad de alineación entre los resultados obtenidos en datos simulados
y los resultados obtenidos en secuencias de referencia. Con la excepción de SATe, T-Coffee y Clustal Omega,
que obtuvieron mejores resultados en caso de alineamientos de referencia, los resultados fueron similares a
los resultados obtenidos en datos simulados y confirmaron los hallazgos anteriores.
Figura 9. Comparación de eficiencia entre los resultados obtenidos en datos simulados y los resultados
obtenidos en secuencias de referencia. Los principales hallazgos fueron casi similares. SATe fue más rápido
que ProbCons y T-Coffee. Sin embargo, Kalign, MAFFT (L-INS-i) y Dialign-TX mostraron una mejor
eficiencia que MUSCLE, SATe y Multalin, respectivamente, en las alineaciones de referencia
III. Discusión
Utilizamos 4000 alineaciones para probar si los métodos MSA tienen potencial para generar alineaciones de
alta calidad. La precisión y la eficiencia de las últimas versiones de los métodos MSA (que se basaban en
varios algoritmos y técnicas) se evaluaron con sus parámetros / configuraciones predeterminadas. Las
diferentes configuraciones de parámetros pueden mejorar su rendimiento. Generamos intencionalmente
alineaciones que comprenden una tasa de inserción muy alta, tasa de eliminación, tamaño indele y longitud de
secuencia. La investigación general de la calidad de la alineación mostró que, en el caso de secuencias
simuladas, así como los conjuntos de referencia v3.0 de BAliBASE, 10 ProbCons, 33 SATe, 34,35 y MAFFT
(L-INS-i) 25,26 obtuvieron los mejores resultados. Los mismos resultados han sido reportados por los
estudios previos9,14,23. Entre otros métodos de MSA, en caso de alineaciones simuladas, Kalign28,29 y
MUSCLE11,27 lograron el SPS más alto, 38 siendo MUSCLE el método más eficiente, y en En el caso de los
conjuntos de datos de referencia BALiBASE, T-Coffee generó las alineaciones más precisas, pero fue
consistentemente más lento que MUSCLE.
Los estudios sobre el efecto del tamaño indel y la longitud de la secuencia medida con SPS y CS mostraron
que tienen el menor efecto en el rendimiento de las herramientas MSA; sin embargo, ProbCons, SATe y
MAFFT (L-INS-i) estaban en la primera, segunda y tercera posición, respectivamente. Estos resultados
confirmaron los hallazgos de los estudios previos.14,39 La investigación del efecto de la tasa de eliminación
en la calidad de la alineación mostró que el rendimiento de los métodos de MSA fue significativamente bajo
en las tasas de eliminación más altas. Nuin et al informaron los mismos hallazgos.14 SATe logró el mayor
SPS y CS. En el caso de la alineación medida con SPS, ProbCons y Multalin fueron el segundo y tercer mejor
desempeño. En el caso de la calidad de alineación medida con CS, Multalin, MUSCLE y MAFFT (L-INS-i)
estaban en segunda, tercera y cuarta posición, respectivamente. El estudio del efecto de la tasa de inserción en
la calidad de la alineación también confirmó los hallazgos previos14 en el sentido de que la calidad de la
alineación depende significativamente de la tasa de inserción. En el caso de la calidad de alineación medida
con SPS y CS, SATe superó a todos los demás métodos de MSA. La calidad de alineación medida con SPS
mostró que Kalign y ProbCons estaban en la segunda y tercera posición, respectivamente. La precisión de
alineación medida usando CS mostró que MUSCLE, MAFFT (L-INS-i) y ProbCons estaban en la segunda,
tercera y cuarta posición, respectivamente. Para los dos parámetros evolutivos, es decir, la tasa de eliminación
y la tasa de inserción, T-Coffee logró el SPS y CS más bajos.
Todos los métodos de MSA funcionaron mucho mejor con las alineaciones de referencia BALiBASE que los
conjuntos de datos simulados, pero las tendencias generales fueron similares. Nuestros hallazgos
generalmente confirmaron los resultados de los estudios previos9,14,23. Un hallazgo distinguido fue el hecho
de que cuando se utilizaron conjuntos de datos simulados, SATe superó a MAFFT (L-INS-i). Entre las
mejores herramientas de MSA, SATe también fue la herramienta más rápida. Los artículos originales de
MAFFT (L-INS-i) 25,26 y ProbCons33 los colocaron en la parte superior con la mejor precisión en las
alineaciones de referencia. Nuestros resultados también demostraron la afirmación de los autores de
Kalign28,29 de que su eficiencia está muy cerca del modo rápido de MUSCLE11,27 y MAFFT (FFT-NS-2)
25,26, pero la precisión es comparable a otras herramientas de MSA.
Nuestro estudio destacó las fortalezas y debilidades de todas las herramientas de MSA. ProbCons, que se basa
en el enfoque de coherencia, 23 superó a otras herramientas de MSA cuando se probaron las alineaciones con
longitud de secuencia variable y tamaño indeleble. SATe, que se basa en un enfoque iterativo de dividir y
conquistar, 34 superó a todos los métodos de MSA cuando se investigaron las alineaciones que comprenden
una alta tasa de inserción o eliminación. Sin embargo, en general, hay una pequeña diferencia entre ProbCons
y SATe. MAFFT (L-INS-i), que también adoptó un enfoque de coherencia en su algoritmo, 23 estaba en la
tercera posición en todos los casos de prueba. Entre otras herramientas MAS, en general, Kalign y Multalin,
cuyo proceso de generación de alineación se basa en un enfoque de alineación progresiva, fueron las mejores
alternativas28,29,31. Sin embargo, en el caso de longitudes de secuencia y tamaños de indel altos, no
generaron alineaciones de alta calidad. . Su rendimiento fue bueno cuando se utilizaron alineaciones con altas
tasas de inserción y eliminación. El algoritmo utilizado por Clustal Omega se basa en el enfoque del modelo
oculto de Markov32 y DialignTX se basa en un algoritmo basado en la consistencia.30 En general, ambas
herramientas funcionaron muy mal, y especialmente en el caso de grandes tamaños de indel y grandes
longitudes de secuencia, generaron alineaciones de baja calidad. MUSCLE, que se basa en un enfoque
iterativo, 27 se desempeñó mejor cuando se proporcionaron alineaciones que comprenden altas tasas de
eliminación e inserción. En el caso de los conjuntos de datos de referencia, T-Coffee, que se basa en un
enfoque de coherencia, funcionó mejor que MUSCLE. El rendimiento de MUSCLE y MAFFT (FFT-NS-2)
fue consistente para todos los casos de prueba.

IV. Materiales y métodos


La Figura 10 describe todos los pasos de la metodología adoptada en este trabajo de investigación.

Figura 10. Metodología del estudio comparativo.

 Construcción de árboles simulados. El paquete TreeSim de R se utilizó para generar 10 árboles


simulados que comprenden diferentes números de taxones (10, 25, 75, 200, 350, 500, 600, 700, 850 y
1000) bajo el modelo de nacimiento-muerte.
 Construcción de alineaciones simuladas. Se usó iSGv2.0 para construir cuatro conjuntos de datos. Cada
uno de los cuatro conjuntos de datos constaba de 100 alineaciones; 100 con velocidad de eliminación
variable, 100 con velocidad de inserción variable, 100 con tamaño de indel variable y 100 con longitud
de secuencia variable. Por lo tanto, se generaron un total de 400 alineaciones conocidas.
 Construcción de alineaciones de prueba. Cada uno de los métodos de MSA se aplicó para generar 100
alineaciones con una velocidad de eliminación variable, 100 alineaciones con una velocidad de inserción
variable, 100 alineaciones con un tamaño de indel variable y 100 alineaciones con una longitud de
secuencia variable. Por lo tanto, se generó un total de 400 alineaciones por cada método MSA, lo que
resultó en un gran total de 4000 alineaciones. La Tabla 1 muestra los cuatro parámetros y sus valores
variables (pares de bases) utilizados para construir las alineaciones verdaderas. Cada uno de los cuatro
conjuntos tenía uno variable (resaltado) y tres parámetros constantes.
 Procedimiento de evaluación de precisión de alineación. La práctica más común de medir la precisión
de los programas MSA es calcular SPS y CS comparando una alineación generada por una herramienta
MSA con una alineación de referencia.38 SPS se calcula contando los pares de residuos alineados
correctamente. Mide la capacidad de las herramientas de MSA para alinear algunas, si no todas, las
secuencias en una alineación.40 Deje que una alineación de N secuencias comprenda M columnas. La
columna cth se puede designar como Ac1, Ac2, ..., AcN. Para cada par de residuos Acj y Ack, definimos
Scjk de modo que Scjk = 1, si Acj y Ack están en la misma columna de alineación de referencia. La
puntuación para la columna cth (Sc) se puede definir de la siguiente manera.

La suma de la puntuación del par para la alineación completa se puede calcular como

Cr denota el número de columnas y Src representa la puntuación de la columna cth en la alineación de


referencia.
El puntaje de columna examina la capacidad de las herramientas de MSA para alinear todas las columnas
correctamente.39 Se calcula dividiendo las columnas "coincidentes" entre las alineaciones de prueba y
referencia con el número total de columnas "consideradas" en la alineación de la prueba. Cc = 1 si una
columna de una alineación (prueba) coincide con la columna de alineación de referencia; de lo contrario,
es cero.

La precisión de los métodos de MSA se midió utilizando SPS y CS. MQAT, que es una herramienta
interactiva para calcular puntajes de calidad de varias alineaciones simultáneamente, 41 se usó para
calcular SPS y CS.

 Análisis estadístico. Para cada uno de los cuatro conjuntos de datos (basados en cuatro parámetros
evolutivos), se calcularon el promedio de SPS y el promedio de CS a partir de los resultados producidos
por los 10 métodos MSA. Se realizó ANOVA unidireccional para determinar el nivel de importancia para
la precisión de todas las herramientas de MSA. Para encontrar la diferencia significativa entre
herramientas específicas de MSA, desarrollamos MCT usando la prueba post hoc de Tukey. Las
diferencias de medias positivas o negativas indican la diferencia significativa entre las herramientas de
MSA. El P, 0.05 fue usado como el nivel de significancia.
 Métodos de MSA evaluados. Las 10 herramientas MSA se seleccionaron en función de dos parámetros:
(1) los algoritmos subyacentes y (2) su popularidad. La Tabla 2 describe las herramientas de MSA con
sus versiones, algoritmos principales y URL para descargar. Todos estos métodos MSA se ejecutaron
utilizando parámetros predeterminados.

 Máquina de computación. Se usó una máquina informática con procesador Core i7 3.34 GHz, 8 GB de
RAM y sistema operativo Fedora para el estudio comparativo de los métodos MSA.
Conclusiones
Nuestro estudio revela que SATe era la mejor herramienta, en función de su precisión y eficiencia de
alineación general. En general, los resultados mostraron que ProbCons estaba constantemente en la parte
superior de la lista de herramientas MSA evaluadas, pero era una herramienta muy lenta. SATe, siendo poco
menos preciso, fue 529.10% más rápido que ProbCons y 236.72% más rápido que MAFFT (L-INS-i). Entre
otras herramientas, Kalign y MUSCLE otorgaron las SPS y CS más altas, respectivamente. Una comparación
de los resultados obtenidos en las alineaciones simuladas y los resultados obtenidos en las alineaciones de
referencia BALiBASE mostró tendencias similares. Nuestro análisis permite al usuario establecer con más
detalle las fortalezas y debilidades de cada herramienta MSA y su enfoque algorítmico. También se confirmó
que iSG era una opción adecuada para evaluar la calidad de la alineación. Permite al usuario construir grandes
conjuntos de datos simulados en segundos, con control total de sus características.

Vous aimerez peut-être aussi