Vous êtes sur la page 1sur 13

23/06/2016

Bioinformtica

COMPANY
LOGO

Filogentica
1

Introduccin

rboles

Super camino eureliano

Alineamiento global y local

Programas - Referencias
J. C. Carbajal L.

D.A.I. Bioinformtica

Introduccin

COMPANY
LOGO

Las comparacin entre organismos se puede abordar de


dos maneras
Filogentica Tradicional: a travs de sus fenotipos
P.ej. presencia o ausencia de alas
Filogentica Molecular: a travs de sus secuencias
Es en la que nos centraremos en el mbito de la
bioinformtica
rbol verdadero: representa los eventos de
diferenciacin reales ocurridos durante la evolucin.
Imposible de generar
rbol inferido: representa una serie de eventos
evolutivos inferidos a partir de los datos disponibles,
basndonos en algn modelo
J. C. Carbajal L.

D.A.I. Bioinformtica

Introduccin

COMPANY
LOGO

Introduccin

COMPANY
LOGO

Teora de la evolucin: los organismos cambian con el


tiempo, de manera que los descendientes difieren
funcional y estructuralmente respecto a su ancestro
Los organismos pueden clasificarse segn sus
relaciones ancestrales.

Filogentica o filogenia: reconstruccin de las


relaciones ancestrales entre los organismos
Representacin: El rbol de la Vida
Principio: agrupar los seres vivos de acuerdo a su
nivel de similitud

J. C. Carbajal L.

D.A.I. Bioinformtica

Introduccin

COMPANY
LOGO

El rbol de la vida tiene histricamente un componente filosfico y cosmognico


(Siglo XIII o anterior)

J. C. Carbajal L.

D.A.I. Bioinformtica

Introduccin

Los primeros rboles de la vida en


trminos de filogentica tradicional (S
XVIII) no tenan en cuenta un ancestro
comn.

COMPANY
LOGO

Los rboles de
Haeckel ya incluyen
una raz

Hitchcock 1840, separa animales y plantas.

Su primer rbol
(1866) insina el
ancestro del
hombre .
Su segundo rbol
(1879) abandona el
antropocentrismo

Darwin (1859) intuye ancestros


comunes.
sta es la nica ilustracin de
El Origen de las Especies

D.A.I. Bioinformtica

J. C. Carbajal L.

D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

COMPANY
LOGO

Introduccin

rbol filogentico, inferido por la comparacin de genes ribosmicos


Tres ramas principales: bacterias, arqueas y eukariotas

Introduccin

Gracias a la filogentica molecular podemos comparar y aadir ms


organismos y eventos evolutivos

J. C. Carbajal L.

D.A.I. Bioinformtica

rboles

rboles

D.A.I. Bioinformtica

rboles

Representan las secuencias


que estamos analizando
D.A.I. Bioinformtica

rboles
Caractersticas

OTU: nodo hoja o externo

J. C. Carbajal L.

J. C. Carbajal L.

D.A.I. Bioinformtica

COMPANY
LOGO

Representa ancestros
hipotticos de los taxones
HTU: Hypothetical
Taxonomic Unit
Nodo raz: ltimo nodo
interno
Ancestro comn ms
reciente de todos los
taxones

COMPANY
LOGO

La filogentica molecular estudia las relaciones


evolutivas, desde distintos campos (morfologa,
anatoma, fisiologa, paleontologa)
Nos centraremos en su estudio mediante la
construccin de rboles filogenticos a partir de
secuencias
rbol: grafo en el que dos nodos slo estn conectados
por un camino de relaciones ancestro-descendiente
Nodo: representa una unidad taxonmica
Rama: conecta dos nodos

J. C. Carbajal L.

Nodo interno (o punto de


divergencia)

J. C. Carbajal L.

D.A.I. Bioinformtica

COMPANY
LOGO

rboles

COMPANY
LOGO

COMPANY
LOGO

fundamentales

Topologa: relaciones establecidas por los nodos


internos
Determinan la clasificacin de las secuencias
En algunos casos, las posiciones son
intercambiables
Longitud de las ramas
Cuantifican el nivel de similitud entre secuencias
Puede tambin modelarse su anchura en funcin
del bootstrapping
Cuantifica el nivel de consenso de la
inferencia
D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

Tipos de rbol

rbol no escalado

La longitud de
las ramas es
constante
rbol escalado

COMPANY
LOGO

COMPANY
LOGO

Tipos de rbol

La longitud de
las ramas es
proporcional
al n de
cambios en la
secuencia

Los tres representan las mismas relaciones evolutivas,


pero algunos aprovechan la escala para cuantificarlas
D.A.I. Bioinformtica

Tipos de rbol

COMPANY
LOGO

rboles y complejidad

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

Tipos de rbol

D.A.I. Bioinformtica

J. C. Carbajal L.

COMPANY
LOGO

Anlisis filogentico

N de posibles topologas
para n nodos finales:
Para rboles
enraizados:
= 2 5 !/23 3
Para rboles no
enraizados:

D.A.I. Bioinformtica

rbol enraizado: tiene nodo


raz
Hay un ancestro comn
Direccin temporal
definida
rbol no enraizado
A veces el nodo raz no
es de inters o es difcil
de localizar
Misma informacin de
relaciones pero sin
ancestro comn ni
direccin temporal
D.A.I. Bioinformtica

J. C. Carbajal L.

Anlisis filogentico

= 2 3 !/22 2
A partir de n=12, es
obligatorio usar
heursticas
Imposible calcular
todos los rboles
posibles
D.A.I. Bioinformtica

J. C. Carbajal L.

D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

Anlisis filogentico

A partir de secuencias moleculares, construir un rbol


filogentico que refleje sus relaciones
Desde un punto de vista de usuario final, se puede
ver como una caja negra: entran secuencias y salen
rboles
Objetivo:
Comprender los distintos mtodos de anlisis
filogentico
Saber manejar algunas herramientas para realizar
anlisis filogenticos

D.A.I. Bioinformtica

Eleccin de secuencias y MSA

COMPANY
LOGO

1.

2.
3.
4.
5.

Seleccin de las secuencias a analizar


A partir de una de las BBDD vistas, en formato
fasta
Anlisis mltiple de secuencias
Mediante uno de los mtodos o herramientas vistas
Eleccin de un modelo de sustitucin
Construccin del rbol (inferencia filogentica)
Evaluacin del rbol

J. C. Carbajal L.

D.A.I. Bioinformtica

COMPANY
LOGO

La calidad de los datos de entrada es crtica


Si no, tendremos una solucin GIGO (Garbage In,
Garbage Out)
En el caso de construccin filogentica implica:
Elegir secuencias que tenga sentido analizar
evolutivamente
Asegurarse de que las secuencias son homlogas
Maximizar la bondad del MSA elegido
Probar distintos algoritmos y parmetros
(matrices, huecos, etc.)
La informacin en el MSA debe ser consistente
con el rbol construido

COMPANY
LOGO

Fases

J. C. Carbajal L.

COMPANY
LOGO

Modelos de sustitucin

Definicin matemtica de la distancia entre dos


secuencias de longitud N

Distancia de Hamming: cuenta el nmero de cambios (p)


Distancia de Hamming normalizada: p = p/N

(MSA: Multiple Sequence Alignment)


D.A.I. Bioinformtica

Modelos de sustitucin

J. C. Carbajal L.

D.A.I. Bioinformtica

COMPANY
LOGO

Problema: sustituciones observadas vs reales

Correccin de Jukes-Cantor

D.A.I. Bioinformtica

J. C. Carbajal L.

J. C. Carbajal L.

COMPANY
LOGO

Correccin de Jukes-Cantor (1969)


Sea la distancia de Hamming normalizada y el
nmero de residuos distintos (4 para nucletidos, 20
para aminocidos)
1

=
ln 1

1
es una estimacin del nmero de cambios reales
Considera que la probabilidad de sustitucin es igual
para todas las combinaciones de nucletidos /
aminocidos

D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

Modelo de Kimura

Modelos de Kimura (1980) para nucletidos

Asigna distintas probabilidades de sustitucin

Modelo de dos parmetros (b): distinta probabilidad a


transversin que a transicin

Algunas posiciones dentro de la


protena varan mucho y otras
muy poco
La tercera posicin de un
codn suele tener una tasa
de sustitucin ms alta que
los dos primeros (cdigo
degenerado)
Algunas regiones de las
protenas tienen dominios
conservados
Para ello se asocia una tasa de
sustitucin distinta a cada
posicin, usando una distribucin
gamma
El parmetro modula la
forma de la distribucin
Protenas que evolucionan
rpidamente tienen una
pequea

Mtodos basados en distancias

Mtodos de maximizacin de la parsimonia


Mtodos de maximizacin de la similitud
Inferencia bayesiana

Descartan informacin sobre los residuos puntuales


(caracteres)

Los mtodos basados en caracteres tienen esa


informacin en cuenta

An as, a menudo ambos mtodos generan rboles muy


parecidos
J. C. Carbajal L.

D.A.I. Bioinformtica

COMPANY
LOGO

UPGMA

Es un mtodo sencillo que se basa en agrupar las


secuencias ms cercanas en base a su distancia

El proceso es el siguiente:
a) Calculamos la matriz de distancias, elegimos
la menor distancia: 1,2
b) Unimos las secuencias 1 y 2, siendo la
longitud de la rama la 0.5 1,2 Calculamos las
distancias al nuevo nodo (1,2) y
seleccionamos la menor distancia ahora: 4,5
c) Calculamos las distancias al nuevo nodo (4,5),
la longitud de las ramas, y elegimos de nuevo
la menor: 3,45

d) Continuamos hasta terminar de unir nodos

UPGMA: Unweighted Pair Group Method with Arithmetic Mean

J. C. Carbajal L.

Mtodos
basados en
caracteres

Los mtodos basados en distancias calculan la distancia


entre secuencias completas para calcular el rbol

Se calculan las distancias entre las secuencias, dos a


dos
Generando una matriz de distancias
Se van uniendo las secuencias con nodos internos segn
las distancias observadas
Son mtodos muy rpidos, particularmente tiles si
tenemos un gran nmero de secuencias (>50)
Veremos UPGMA y Neighbor-Joining

D.A.I. Bioinformtica

COMPANY
LOGO

Existen varias aproximaciones para construir el rbol

COMPANY
LOGO

J. C. Carbajal L.

Inferencia filogentica

J. C. Carbajal L.

Debido a la
diferencia en anillos

D.A.I. Bioinformtica

COMPANY
LOGO

Valores muy pequeos indican que casi todas las


posiciones tienen la misma tasa de sustitucin.
Casi toda la variacin se puede atribuir a unos
pocos nucletidos que varan mucho

Mtodos de distancia

Aunque hay cuatro tipos


de transversiones y slo
dos de transiciones, por
las propiedades qumicas
de las bases, la
transicin es mucho ms
comn

J. C. Carbajal L.

D.A.I. Bioinformtica

Transversin (): cambio de purina a pirimidina (o viceversa)


Modelos ms complejos (c): distintas probabilidades para cada
sustitucin

Modelo Gamma

COMPANY
LOGO

Modelo de Kimura

Transicin (): cambio de purina a purina (o de pirimidina a


pirimidina)

D.A.I. Bioinformtica

COMPANY
LOGO

D.A.I. Bioinformtica

UPGMA asume que el reloj molecular de todos


los nodos es igual

Es un mtodo muy utilizado en anlisis de


microarrays, pero para anlisis filogenticos
suele ser bastante menos preciso que el mtodo
de Neighbor-Joining

J. C. Carbajal L.

23/06/2016

COMPANY
LOGO

Neighbor joining
Se definen dos nodos como vecinos si
existe un nodo interno X que los
conecta directamente

Para N OTUs, podemos tener N-2 pares


de nodos vecinos

Mtodo

UPGMA (The Unweighted Pair Group Method with


Arithmetic Mean)

1. Comenzamos con todos los OTUs unidos


directamente en un rbol de estrella
(todos son vecinos)

2. Se hacen las N(N-1)/2 comparaciones


entre OTUs vecinos para determinar
cul es la pareja ms cercana
3. Esos OTUs se unen mediante un nuevo
nodo interno y volvemos al paso dos,
decrementando en 1 el valor de N

COMPANY
LOGO

Mas simple mtodo para la construccin de rboles.


Asume el rango de cambio a lo largo de las ramas del
rbol es constante
Las distancias son ultra mtricas (equidistantes a la
raz todos los OTUS).
Distancias ultra mtricas: definido por la condicin de
los 3 puntos (the three-point condition):
Para cualquier taxa, las dos distancias mas grandes
son iguales.

El algoritmo minimiza la longitud de una


rama en cada paso, as que no asegura
una longitud mnima global

J. C. Carbajal L.

D.A.I. Bioinformtica

COMPANY
LOGO

UPGMA - Procedimiento

1. Calcula las longitudes de las ramas entre las


secuencias mas cercanas
2. Promedia la distancia entre el par o entre el
grupo de secuencias.
3. Continua hasta que todas las secuencias estn
incluidas en el rbol
4. Finalmente, predice una posicin para la raz
del rbol

UPGMA - Algoritmo

J. C. Carbajal L.

COMPANY
LOGO

UPGMA -

COMPANY
LOGO

= funcin distancia entre especies


Definicin de la distancia , entre 2 clusters de las
especies y :
, =

1
,
+

D.A.I. Bioinformtica

J. C. Carbajal L.

D.A.I. Bioinformtica

Donde = | | y = | |

D.A.I. Bioinformtica

Ejemplo 1

J. C. Carbajal L.

COMPANY
LOGO

Una especie por cluster.


Busqueda del y que tenga la menor distancia .
Creacin de un nuevo cluster ().
Coneccin de y en el rbol a un nuevo nodo, el cual
corresponde al nuevo cluster (), y dar a las dos ramas
,

conectoras y a () la longitud 2
.
Calculo de la distancia desde el nuevo cluster a todos los
otros clusters como un promedio de las distancias de sus
componentes.

, , =
+

+ ,
+ ,
Eliminar las columnas y filas en D y adicionar una columna y
una fila por cluster (), con ,
Realizar todo el procedimiento hasta que no queden clusters.
D.A.I. Bioinformtica

J. C. Carbajal L.

D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

Ejemplo 1 -

D.A.I. Bioinformtica

Ejemplo 1 -

D.A.I. Bioinformtica

Ejemplo 1 -

D.A.I. Bioinformtica

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

Ejemplo 1 -

dist(A,B),C = (distAC + distBC) / 2 = 4

dist(A,B),D = (distAD + distBD) / 2 = 6

dist(A,B),E = (distAE + distBE) / 2 = 6

dist(A,B),F = (distAF + distBF) / 2 = 8

D.A.I. Bioinformtica

Ejemplo 1 -

D.A.I. Bioinformtica

Ejemplo 2

D.A.I. Bioinformtica

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

23/06/2016

Ejemplo 2 -

D.A.I. Bioinformtica

Ejemplo 2 -

D.A.I. Bioinformtica

Ejemplo 2 -

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

Ejemplo 2 -

D.A.I. Bioinformtica

Ejemplo 2 -

D.A.I. Bioinformtica

Ejemplo 1 y 2

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

EJEMPLO2

EJEMPLO1
D.A.I. Bioinformtica

J. C. Carbajal L.

D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

Mxima parsimonia

COMPANY
LOGO

parsimonia.(Del lat. parsimona).


f. Lentitud y sosiego en el modo de hablar o de
obrar; f lema, frialdad de nimo.
f. Frugalidad y moderacin en los gastos.
Parte de la asuncin de que el rbol que mejor explica
las relaciones evolutivas es aqul que tiene las ramas
ms cortas a nivel global
El ms simple de todos

D.A.I. Bioinformtica

Mxima parsimonia: mtodo

J. C. Carbajal L.

Mxima similitud

D.A.I. Bioinformtica

Mxima similitud

J. C. Carbajal L.

D.A.I. Bioinformtica

J. C. Carbajal L.

Mxima Parsimonia

J. C. Carbajal L.

COMPANY
LOGO

Construye un rbol con una topologa y longitud de


ramas que maximiza la probabilidad de ser el generador
de las secuencias observadas.
Es uno de los mtodos computacionalmente ms
costosos, pero tambin de los ms flexibles
Permite variar el modelo entre distintas ramas o
subfamilias, algo que los algoritmos de mxima
parsimonia no hacen
De esta manera modelan mejor los casos en los que
hay gran diferencia evolutiva entre distintas ramas

D.A.I. Bioinformtica

COMPANY
LOGO

Mtodo de los cuartetos (Schmidt et al. 2002)


Para n secuencias, calculamos todas las topologas
posibles de cuartetos de secuencias
Para cada cuarteto, habr 3 topologas posibles
Para 12 secuencias, esto significa 495 cuartetos a
probar

12!
12!
12

=
=
=
= 495
4! 124
4! 8 !
4
4
Para cada cuarteto, se estima cul de las tres
topologas es mejor, y se le asigna
Los cuartetos se van ensamblando en el rbol final

Identificar residuos informativos


No son informativos aquellos que no tienen al menos
dos nucletidos distintos para dos o ms secuencias
informativo significa que vara bastante en el
alineamiento
Se construyen rboles con distintas topologas.
Se les asigna un coste y se elige aqul de menor
coste
Si hay muchos rboles se usan heursticas para
reducir la complejidad

D.A.I. Bioinformtica

COMPANY
LOGO

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

El mtodo de MP selecciona el rbol que tiene el mnimo


nmero de cambios evolutivos, i.e., el rbol cuyas ramas
tengan promedio la mnima longitud.
Se basa en el principio conocido como Navaja de Occam
(Occams razor) formulado por William Ockham en el
siglo XIV
Este principio hace referencia a un tipo de
razonamiento basado en una premisa muy simple: en
igualdad de condiciones la solucin ms sencilla es
probablemente la correcta.
Esto es porque la solucin ms simple requiere el menor
nmero de suposiciones y de operaciones lgicas

D.A.I. Bioinformtica

J. C. Carbajal L.

23/06/2016

COMPANY
LOGO

Mxima parsimonia

Para el anlisis logentico, la parsimonia es una buena


suposicin
Siguiendo este principio, un rbol con el menor nmero
de substituciones es probablemente la mejor opcin
para explicar las diferencias entre los taxones
estudiados
Esta perspectiva se justica por el hecho de que los
cambios evolutivos que suceden dentro de lapsos de
tiempo cortos son relativamente raros

D.A.I. Bioinformtica

COMPANY
LOGO

Los sitios informativos son los que pueden a menudo ser


explicados median una topologa de rbol nica
Los sitios no-informativos son constantes o tienen
cambios que ocurren una sola vez
Los sitios constantes obviamente no son tiles para
evaluar diferentes topologas
Los sitios con cambios ocurriendo una sola vez tampoco
son tiles porque pueden ser explicados por mltiples
topologas
Por esta razn los sitios no-informativos son
desechados en el proceso de construccin de un rbol
logentico de MP
D.A.I. Bioinformtica

Esto implica que un rbol con cambios mnimos es muy


probable que sea una buena estimacin del verdadero
rbol

Al minimizar los cambios, el mtodo minimiza el ruido


logentico debido a la homoplasia (cambio evolutivo
paralelo que hace que dos organismos presenten un
mismo carcter adquirido independientemente) y a la
evolucin independiente.

D.A.I. Bioinformtica

J. C. Carbajal L.

J. C. Carbajal L.

Construccin del rbol filogentico con MP

J. C. Carbajal L.

Construccin del rbol filogentico con MP

COMPANY
LOGO

La construccin del rbol logentico de MP funciona


buscando todas las posibles topologas de rboles y
reconstruyendo secuencias de ancestros que requieren
el mnimo nmero de cambios evolutivos a las secuencias
actuales
Para ahorrar tiempo de cmputo, slo un pequeo
nmero de sitios, que tienen informacin logentica
importante, son usados en la determinacin del rbol
Estos sitios son llamados sitios informativos, los cuales
son denidos como sitios que tienen al menos dos tipos
diferentes de caracteres, cada uno ocurriendo al menos
dos veces

D.A.I. Bioinformtica

J. C. Carbajal L.

Construccin del rbol filogentico con MP

COMPANY
LOGO

Mxima parsimonia

Ejemplo de extraccin de sitios informativos

D.A.I. Bioinformtica

J. C. Carbajal L.

Construccin del rbol filogentico con MP

COMPANY
LOGO

COMPANY
LOGO

Una vez que los sitios informativos son identicados y


los no-informativos son descartados, el mnimo nmero
de substituciones en cada sitio informativo es calculado
para una topologa dada
El nmero total de cambios en todos los sitios
informativos son sumados para cada posible topologa
Y el rbol con el ms pequeo nmero de cambios es
elegido como el mejor

D.A.I. Bioinformtica

J. C. Carbajal L.

10

23/06/2016

Construccin del rbol filogentico con MP

La clave para contar un nmero mnimo de sustituciones


para un sitio particular es determinar los estados del
carcter ancestral en los nodos internos
Debido a que estos estados de caracteres ancestrales
no se conocen directamente, pueden existir mltiples
soluciones posibles
En este caso, el principio de parsimonia se aplica para
elegir los estados de los caracteres que resultan en un
mnimo nmero de sustituciones

D.A.I. Bioinformtica

Construccin del rbol filogentico con MP

J. C. Carbajal L.

Construccin del rbol filogentico con MP

COMPANY
LOGO

COMPANY
LOGO

Proceso de inferencia de una secuencia ancestral en


dos pasos

J. C. Carbajal L.

Construccin del rbol filogentico con MP

COMPANY
LOGO

Importancia del problema

Ciencias biolgicas
Desarrollo de nuevas vacunas

Estudio de la dinmica de comunidades microbianas


Estudio de antibacteriales y herbicidas
Desarrollo inteligente de nuevos frmacos

Ciencias de la computacin
El problema de MP es NP-completo
Equivale al problema del rbol de Steiner en hipercubos
[Garey and Johnson, 1977]
El nmero de rboles con raz para n secuencias es:
= 2 3 !/22 2 !
Para n=30 hay 4.95 1038 rboles (100 millones de
sol./seg 1.57 1021 siglos)
D.A.I. Bioinformtica

J. C. Carbajal L.

J. C. Carbajal L.

Planteamiento formal del problema de MP

COMPANY
LOGO

Es necesario subrayar que en realidad la secuencia de


nodos ancestrales no siempre puede ser determinada
sin ambigedad
A veces, puede haber varios caracteres que resultan en
un mismo puntaje de parsimonia para un determinado
nmero de topologas
Tambin es posible que haya dos o ms topologas que
tienen el mismo puntaje de parsimonia
En estos casos se tiene que construir un rbol de
consenso que representa a todos los rboles
parsimoniosos

D.A.I. Bioinformtica

J. C. Carbajal L.

Construccin del rbol filogentico con MP

D.A.I. Bioinformtica

La inferencia de una secuencia ancestral se realiza en


dos pasos:
1. Se recorre el rbol de las hojas hacia la raz para
determinar todos los posibles estados de los
caracteres ancestrales
2. Se recorre el rbol de la raz hacia las hojas para
asignar secuencias ancestrales que exigen el
nmero mnimo de sustituciones (puntaje de
parsimonia)

D.A.I. Bioinformtica

COMPANY
LOGO

COMPANY
LOGO

Dado el conjunto = 1 , 2 , , en donde n


secuencias de longitud , previamente alineadas sobre
un alfabeto ;
Un rbol binario con raz = (, ), tambin llamado
rbol filogentico, est compuesto por los conjuntos V
y E que corresponden a sus nodos y aristas
= 2 1 se encuentra dividido en dos
subconjuntos:
, que contiene 1 nodos internos (ancestros
hipotticos) cada uno con dos descendientes
, compuesto de hojas, i.e., nodos sin
descendientes
D.A.I. Bioinformtica

J. C. Carbajal L.

11

23/06/2016

Planteamiento formal del problema de MP

COMPANY
LOGO

La secuencia de parsimonia para cada nodo interno


cuyos descendientes son = 1 , 2 , , y
= 1 , 2 , , se calcula con la siguiente relacin:
, =
=
,

El costo de parsimonia (mutaciones) de la secuencia


est definido por:

Planteamiento formal del problema de MP

COMPANY
LOGO

El problema MP consiste entonces en encontrar una


topologa de para lo cual sea mnimo, i.e.,
= min :
Donde es el conjunto de todas las posibles topologas de
rbol (espacio de bsqueda).

1, =
= ; =
0,
=1

El costo de parsimonia para el rbol T se obtiene de la


siguiente manera
=

D.A.I. Bioinformtica

J. C. Carbajal L.

Planteamiento formal del problema de MP

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

COMPANY
LOGO

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

J. C. Carbajal L.

J. C. Carbajal L.

Planteamiento formal del problema de MP

J. C. Carbajal L.

Planteamiento formal del problema de MP

COMPANY
LOGO

D.A.I. Bioinformtica

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

J. C. Carbajal L.

Planteamiento formal del problema de MP

COMPANY
LOGO

COMPANY
LOGO

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

J. C. Carbajal L.

12

23/06/2016

Planteamiento formal del problema de MP

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

Mtodos Bayesianos

COMPANY
LOGO

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

J. C. Carbajal L.

Planteamiento formal del problema de MP

Evaluacin de los rboles

COMPANY
LOGO

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

COMPANY
LOGO

COMPANY
LOGO

Dadas = 4 secuencias de longitud = 4 y la


siguiente topologa de rbol, calculamos la secuencia de
parsimonia para cada nodo interno y sumamos el
nmero total de mutaciones.

D.A.I. Bioinformtica

J. C. Carbajal L.

Aproximacin estadstica basada en la teora de Bayes


Se calcula la probabilidad de que nuestro rbol sea
correcto condicionada por los datos que tenemos:
(|)
Lo contrario a otros mtodos, que calculan la
probabilidad de que nuestros datos se adapten al
rbol: (|)
Como en los de mxima probabilidad y mxima
parsimonia, son mtodos complejos y no entraremos en
mayores detalles

Planteamiento formal del problema de MP

J. C. Carbajal L.

Planteamiento formal del problema de MP

COMPANY
LOGO

J. C. Carbajal L.

COMPANY
LOGO

cadenas generales (longitud arbitraria)

Para ms informacin, recurrir a:


Pevsner, 2009: Ch 7 Molecular Phylogeny and Evolution

D.A.I. Bioinformtica

J. C. Carbajal L.

D.A.I. Bioinformtica

J. C. Carbajal L.

13

Vous aimerez peut-être aussi