Vous êtes sur la page 1sur 56

Phylogénie moléculaire

Thomas Gaillard
thomas.gaillard@polytechnique.edu

École Polytechnique
Sommaire

1 Introduction

2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance

3 Applications

4 Bibliographie
Introduction

Sommaire

1 Introduction

2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance

3 Applications

4 Bibliographie
Introduction

Phylogénie

Définition : ?

Étymologie :
φῦλον = tribu, genre, espèce
γένεσις = origine, source, naissance

Intérêt :
origine de la vie
histoire évolutive des gènes et des organismes
classification et taxonomie
annotation fonctionnelle
épidémiologie
...
Introduction

Historique

phylogénie = taxonomie + évolution

Molecules as
Documents of
Evolutionary History
Zuckerlandl & Pauling,
1965

Darwin, 1837

Haeckel, 1866
Introduction

Données de départ

Approche morphologique :
matrice de caractères

Approche moléculaire :
alignement multiple de séquences homologues
goshawk GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
vulture GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
duck GALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPAALTPEVHASLDKFMCAVGAVLTAKYR
alligator GALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSPEIHASLDKFLCAVSAVLTSKYR
lesser GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLACHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
giant GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
moose GTLSDLSDLHAHKLRVDPVNFKLLSHTLLVTLAAHLPSDFTPAVHASLDKFLANVSTVLTSKYR
axolotl ATLVKLSDKHAHDLMVDPAEFPRLAEDILVVLGFHLPAKFTYAVQCSIDKFLHVTMRLCISKYR
Introduction

Homologie

Deux séquences sont dites gène ancestral


homologues lorsqu’elles
possèdent un ancêtre commun
gène α gène β
Les évènements de spéciation
donnent des orthologues
gène α gène α gène β gène β
rat souris souris rat
Les évènements de duplication
donnent des paralogues orthologues orthologues
paralogues
homologues
Introduction

Arbres
vocabulaire

définition mathématique : graphe connexe acyclique


arbre binaire : chaque nœud possède au plus deux fils

arbre raciné arbre non-raciné


racine 5

9 1

8
8
temps

7 7

6 6 4
2
2 4
3 5
3
1
feuilles
Introduction

Arbres
comptage

1
non-racinés racinés 3
feuilles 3 4 n 3 n
nœuds internes 2
nœuds
branches
arbres
Introduction

Arbres
codage et représentations

Codage :
correspondance entre arbres et parenthèses imbriquées
(Arthur Cayley, 1857)
format Newick :
((1,(2,3)),(4,5));
((1,(2,3)6)7,(4,5)8)9;
((1:3 ,(2:1 ,3:1.3 )6:1 )7:2 ,(4:3 ,5:3.5 )8:1 )9;

Représentations :
rectangulaire oblique circulaire radiale
3
1 1

4
2
7 5
1
2 2 4
1
6 1.3
9 3 3 1
3
4 4
1
8 3 3
3.5
5 5 1

2
2
Introduction

L’arbre de la vie

http://itol.embl.de
Construction d’arbres

Sommaire

1 Introduction

2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance

3 Applications

4 Bibliographie
Construction d’arbres

Construction d’arbres phylogénétiques

1 choix des séquences

2 alignement multiple des séquences

3 sélection d’une partie de l’alignement

construction de l’arbre
modèle modèle
de distance probabiliste
4
maximum maximum
UPGMA
de de
NJ
parcimonie vraisemblance

5 évaluation de l’arbre
Construction d’arbres Alignement multiple des séquences

Alignement multiple des séquences

Toutes les approches phylogénétiques moléculaires commencent par


un alignement multiple des séquences
1
beta MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLA
delta MVHLTPEEKTAVNALWGKVN--VDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLA
epsilon MVHFTAEEKAAVTSLWSKMN--VEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAILGNPKVKAHGKKVLTSFGDAIK
gamma MGHFTEEDKATITSLWGKVN--VEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIK
theta -MALSAEDRALVRALWKKLGSNVGVYTTEALERTFLAFPATKTYFSHL-DLSP-----GSSQVRAHGQKVADALSLAVE
alpha -MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHGKKVADALTNAVA
zeta -MSLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF-DLHP-----GSAQLRAHGSKVVAAVGDAVK
myoglobin -MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILK

80
beta HLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------
delta HLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH------
epsilon NMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH------
gamma HLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH------
theta RLDDLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR------
alpha HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------
zeta SIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR------
myoglobin KKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG

Les zones de faible similarité sont ignorées


Construction d’arbres Modèles d’évolution

Distance évolutive
La p-distance est l’estimation la plus simple de la distance entre deux
séquences :

p = n/l

avec n le nombre de substitutions et l le nombre de sites


La distance évolutive d est supérieure à la distance observée p
substitution(s) séquence 1 séquence 2 p d
simple C C→A ? ?
multiples A A→C→T ? ?
coïncidentes C→A C→G ? ?
parallèles T→A T→A ? ?
convergentes A→T A→C→T ? ?
inverse C C→T→C ? ?
Avec un modèle d’évolution, on peut estimer d à partir de p
Soit λ le taux global de substitutions dans une séquence
On a d = λt
Construction d’arbres Modèles d’évolution

Modèle de Jukes-Cantor
modèle à un seul paramètre
même taux de substitution α pour les quatre nucléotides
Jukes & Cantor, 1969

Matrice de taux de substitution :


A C G T
 
A −3α α α α
C α −3α α α 
Q=  
G  α α −3α α 
T α α α −3α

Matrice de probabilité de substitution :


On a P 0 (t) = QP(t)
A C G T
 
A r (t) s(t) s(t) s(t)
C  s(t) r (t) s(t) s(t) 
On pose P(t) =   avec r (t) + 3s(t) = 1
G  s(t) s(t) r (t) s(t) 
T s(t) s(t) s(t) r (t)
Construction d’arbres Modèles d’évolution

Modèle de Jukes-Cantor
On obtient le système d’équations différentielles :
r 0 = −3αr + 3αs
s 0 = αr − αs
Qui a pour solutions :
r (t) = 14 (1 + 3e −4αt )
s(t) = 14 (1 − e −4αt )
p
1
probabilité

0.75
0.5
r (t)
0.25 s(t)
0 t
0 temps
lorsque t = 0, r = 1 et s = 0
lorsque t → ∞, r = s = 14 (fréquences d’équilibre des nucléotides)
Construction d’arbres Modèles d’évolution

Distance de Jukes-Cantor
Par définition, d = λt, et λ = 3α pour Jukes-Cantor
La probabilité globale de substitution est p = 3s(t)
4
On obtient : p = 43 (1 − e − 3 d )
Et la distance de Jukes-Cantor : d = − 43 ln(1 − 43 p)

p
1
distance observée

aléatoire
0.75
0.5
0.25
0 d
0 0.5 1 1.5
distance évolutive
lorsque p = 75%, d → ∞
Construction d’arbres Modèles d’évolution

Autres modèles

ADN
K80 Kimura 1980
2 paramètres, distingue transition et transversion
d = − 12 ln(1 − 2p − q) − 14 ln(1 − 2q)
HKY85 Hasegawa, Kishino et Yano 1985
Kimura avec fréquences d’équilibre différentes
pour les quatre nucléotides
...
GTR « Generalised time-reversible », Tavaré 1986
le plus général avec la réversibilité
Protéines
PAM « Point Accepted Mutation »
Dayhoff, Schwartz & Orcutt, 1978
...
Construction d’arbres Utilisation de matrices de distance

Matrices de distance

Une matrice de distance dij est calculée à partir de l’alignement de


séquences et d’un modèle de distance

- beta delta epsilon gamma theta alpha zeta myoglobin


beta 0.00 0.07 0.30 0.34 1.20 0.93 1.18 2.22
delta 0.07 0.00 0.33 0.35 1.17 0.95 1.13 2.14
epsilon 0.30 0.33 0.00 0.22 1.21 1.05 1.03 2.07
gamma 0.34 0.35 0.22 0.00 1.19 0.99 1.03 2.05
theta 1.20 1.17 1.21 1.19 0.00 0.51 0.77 1.87
alpha 0.93 0.95 1.05 0.99 0.51 0.00 0.56 1.88
zeta 1.18 1.13 1.03 1.03 0.77 0.56 0.00 1.64
myoglobin 2.22 2.14 2.07 2.05 1.87 1.88 1.64 0.00

(distances calculées avec modèle PAM)


Construction d’arbres Utilisation de matrices de distance

Méthode UPGMA

UPGMA =
« unweighted pair group method with arithmetic averages »
Sokal & Michener, 1958
méthode standard de clustering hiérarchique ascendant
but : regrouper progressivement les séquences p dans des clusters Ci
1 P
distance inter-cluster : dij = |Ci ||Cj| p∈Ci ,q∈Cj dpq
avec |Ci | et |Cj | le nombre de séquences dans les clusters Ci et Cj , et
dpq la matrice de distance inter-séquences
variantes :
dij = minp∈Ci ,q∈Cj dpq (saut minimum ou « single linkage »)
dij = maxp∈Ci ,q∈Cj dpq (saut maximum ou « complete linkage »)
Construction d’arbres Utilisation de matrices de distance

Méthode UPGMA : algorithme

Initialisation :
Attribuer à chaque séquence i son propre cluster Ci .
Définir une feuille pour chaque séquence, à hauteur zéro.
Itération :
Déterminer les deux clusters Ci et Cj pour lesquels dij est minimale.
Définir un nouveau cluster Ck = Ci ∪ Cj , et calculer dkl pour tout l.
Définir un nœud k avec pour descendants i et j,
et le placer à hauteur dij /2.
Ajouter Ck aux clusters courants et supprimer Ci et Cj .
Terminaison :
Lorsqu’il reste seulement deux clusters Ci et Cj ,
placer la racine à hauteur dij /2.
Construction d’arbres Utilisation de matrices de distance

Méthode UPGMA : exemple

5 séquences, représentées comme des points du plan

• •
1 2


3


4

5
Construction d’arbres Utilisation de matrices de distance

Hypothèse de l’horloge moléculaire

UPGMA produit des arbres dont les branches peuvent être vues comme des
temps mesurés par une « horloge moléculaire »
L’hypothèse de l’horloge moléculaire suppose que les mutations surviennent
à une vitesse constante
Les distances entre un nœud et ses feuilles sont identiques

3
2

4
1 1 4 2 3

arbre correct arbre produit par UPGMA


Construction d’arbres Utilisation de matrices de distance

Méthode Neighbor-joining

Ne requiert pas l’hypothèse de l’horloge moléculaire


mais seulement l’additivité des distances
Additivité des distances : la distance entre une paire
de feuilles est la somme des longueurs des branches le
m
long du chemin qui les relie
Pour trois feuilles i, j, et m, il y a un nœud k où les
branches vers ces feuilles se rejoignent.
k
Par additivité, on a : i
j
dim = dik + dkm , djm = djk + dkm , et dij = dik + djk
La distance du nœud k à la feuille m est donc :
dkm = 21 (dim + djm − dij )
Produit un arbre non-raciné
Construction d’arbres Utilisation de matrices de distance

Méthode Neighbor-joining

Les feuilles les plus proches ne sont pas forcément


voisines 1 2
0.1 0.1 0.1
Comment déterminer si des feuilles sont voisines à
partir des distances dij ?
0.4 0.4
Procédure proposée par Saitou & Nei (1987) et
modifiée par Studier & Keppler (1988)
3 4
On introduit Dij = dij − (ri + rj )
1 P d13 > d12
avec ri = (|L|−2) m∈L dim (? > ?)
et |L| le nombre de feuilles mais
D13 < D12
On peut prouver que Dij est minimale si et (? < ?)
seulement si i et j sont voisines
Construction d’arbres Utilisation de matrices de distance

Méthode Neighbor-joining : algorithme

T est l’arbre courant


L est la liste courante des feuilles

Initialisation :
Définir T comme l’ensemble des nœuds feuilles, un pour chaque
séquence, et L = T .
Itération :
Choisir une paire i, j dans L pour laquelle Dij est minimale.
Définir un nouveau nœud k avec dkm = 12 (dim + djm − dij ),
pour tout m de L.
Ajouter k à T avec des branches vers i et j de longueur
dik = 12 (dij + ri − rj ) et djk = dij − dik .
Retirer i et j de L et ajouter k.
Terminaison :
Lorsque L contient deux nœuds i et j,
ajouter la dernière branche entre i et j, de longueur dij .
Construction d’arbres Maximum de parcimonie

Maximum de parcimonie

Principe de parcimonie :
(lex parsimoniae, « principe de simplicité »,
ou encore « principe d’économie »)
« Les hypothèses suffisantes les plus simples
sont les plus vraisemblables »
rasoir d’Ockham :
Pluralitas non est ponenda sine necessitate
« Les multiples ne doivent pas être utilisés sans nécessité »

En phylogénie : trouver l’arbre qui peut expliquer les observations


avec le minimum de substitutions
Construction d’arbres Maximum de parcimonie

Maximum de parcimonie
Deux composantes :
1 calcul du coût pour un arbre donné
2 exploration de l’espace des arbres pour identifier
l’arbre de coût minimal

Exemple :
quatre séquences alignées AAG, AAA, GGA, AGA
coût = 1 par substitution
trois exemples d’arbres possibles :

? ? ?

? ? ? ? ? ?
AGA GGA AGA
AAA AGA GGA
GGA AAA AAA
AAG AAG AAG

coût = ? coût = ? coût = ?


Construction d’arbres Maximum de parcimonie

Maximum de parcimonie
Algorithme de parcimonie traditionnelle

minimise le coût total de l’arbre pour un site u (Fitch, 1971)


n séquences x 1 , . . . , x n
xui désigne le résidu de la séquence i au site u
Rk est une liste des résidus de coût minimal pour le nœud k
k
C est le coût courant de l’arbre {Rk }
i
Initialisation : {Ri } j
Soit C = 0 et k = 2n − 1. {Rj }
Récursion. Calcul de l’ensemble Rk :
Si k est un nœud feuille : Rk = xuk .
Si k n’est pas un nœud feuille :
calculer Ri et Rj pour les nœuds filles i et j, puis
Rk = Ri ∩ Rj si cette intersection n’est pas vide,
Rk = Ri ∪ Rj sinon et incrémenter C .
Terminaison :
Le coût minimal de l’arbre est C .
Construction d’arbres Maximum de parcimonie

Maximum de parcimonie
Algorithme de parcimonie pondérée

minimise le coût total de l’arbre pour un site u


Sankoff & Cedergren, 1983
S(a, b) est le coût pour une substitution du résidu a vers b
Sk (a) est le coût minimal pour l’attribution du résidu a au nœud k k
{A:Sk (A),...}
Initialisation : i
Soit k = 2n − 1, le numéro du nœud racine. {A:Si (A),...} j
Récursion. Calculer Sk (a) pour tout a comme suit : {A:Sj (A),...}

Si k est un nœud feuille :


Sk (a) = 0 si a = xuk , sinon Sk (a) = ∞.
Si k n’est pas un nœud feuille :
calculer Si (a) et Sj (a) pour tout a pour les nœuds filles i et j, et
obtenir Sk (a) = minb (Si (b) + S(a, b)) + minc (Sj (c) + S(a, c)).
Terminaison :
Le coût minimal de l’arbre est mina S2n−1 (a).
Construction d’arbres Maximum de parcimonie

Maximum de parcimonie
Reconstitution de la séquence des ancêtres

Ajouter des pointeurs de chaque résidu a du nœud k vers les résidus


correspondants b et c des nœuds filles i et j, qui minimisaient Sk (a)
(les pointeurs peuvent avoir plusieurs cibles) :
lk (a) = argminb (Si (b) + S(a, b))
rk (a) = argminc (Sj (c) + S(a, c))
À la fin, choisir un résidu a à la racine donnant le coût minimal pour S2n−1 ,
puis remonter jusqu’aux feuilles en lisant les pointeurs, choisissant
arbitrairement lorsque le pointeur a plusieurs cibles.

{A: ?,B: ?} ?

{A: ?,B: ?} ?

{A: ?,B: ?} ?
{A:∞,B:0} B
{A:∞,B:0} B
{A:0,B:∞} {A:0,B:∞} A A
Construction d’arbres Maximum de vraisemblance

Maximum de vraisemblance
Terminologie

soit un modèle probabiliste de paramètres θ


P(x |θ) est la probabilité d’observer les résultats x étant donnés les
paramètres θ
L(θ|x ) = P(x |θ) est la vraisemblance des paramètres θ étant donnés
les résultats x
estimer les paramètres d’un modèle probabiliste à partir d’un jeu de
données fiable D
maximum de vraisemblance :

θML = argmax P(D|θ)


θ

si la quantité de données est limitée, risque de surajustement


(« overfitting »)
par exemple un tirage [pile,pile,pile] donnerait
P(pile) = 1, P(face) = 0
Construction d’arbres Maximum de vraisemblance

Maximum de vraisemblance
En phylogénie

Soit un modèle probabiliste d’évolution, qui permet de calculer les


probabilités de substitution P(b|a, t)

Soit un ensemble de n séquences x 1 , . . . , x n

On cherche l’arbre T de longueurs de branches t1 , . . . , t2n−2 qui


maximise la vraisemblance P(x 1 , . . . , x n |T , t1 , . . . , t2n−2 )
Construction d’arbres Maximum de vraisemblance

Maximum de vraisemblance
Deux séquences

a
arbre T avec branches de longueur t1 et t2 t2
deux séquences x 1 et x 2 t1
xu2
xu1

Pour un site u, probabilité d’avoir les résidus xu1 et xu2 aux feuilles :

P(xu1 , xu2 |T , t1 , t2 ) = ?

Pour N sites, probabilité d’avoir les séquences x 1 et x 2 aux feuilles :


N
Y
P(x 1 , x 2 |T , t1 , t2 ) = P(xu1 , xu2 |T , t1 , t2 )
u=1
Construction d’arbres Maximum de vraisemblance

Maximum de vraisemblance
Nombre arbitraire de séquences

n séquences x 1 , . . . , x n
arbre T avec branches de longueur t1 , . . . , t2n−2
t6 aα(6)
les nœuds non-feuilles sont numérotés de n + 1 à 2n − 1
α(i) est l’ancêtre immédiat du nœud i a6
t3 aα(3)
xu3

Pour un site u, probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles :

P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 ) = ?

Pour N sites, probabilité d’avoir les séquences x 1 , . . . , x n aux feuilles :


N
Y
P(x 1 , . . . , x n |T , t1 , . . . , t2n−2 ) = P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 )
u=1
Construction d’arbres Maximum de vraisemblance

Maximum de vraisemblance
Algorithme de Felsenstein

proposé par Felsenstein en 1981


calcule la probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles k
ti a
pour l’arbre T et les branches t1 , . . . , t2n−2 i tj
P(Lk |a) est la probabilité de toutes les feuilles sous le nœud k b j
c
sachant que le résidu en k est a
Initialisation :
Soit k = 2n − 1.
Récursion. Calculer P(Lk |a) pour tout a comme suit :
Si k est un nœud feuille :
P(Lk |a) = 1 si a = xuk , P(Lk |a) = 0 si a 6= xuk .
Si k n’est pas un nœud feuille :
Calculer P(Li |a) et P(Lj |a) pour tout a
pour les nœuds
P filles i et j, puis
P(Lk |a) = b,c P(b|a, ti )P(Li |b)P(c|a, tj )P(Lj |c).
Terminaison :
La vraisemblance pour le site u est
P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 ) = a qa P(L2n−1 |a).
P
Construction d’arbres

Enraciner un arbre non-raciné


Certains algorithmes produisent un arbre non-raciné
Utilisation d’un groupe extérieur :
séquence/espèce qui est plus distante des séquences/espèces étudiées
que celles-ci le sont entre elles
→ le nœud où part la branche vers le groupe extérieur est défini
comme la racine

giant

moose
lesser

duck

axolotl
goshawk
alligator

vulture
Autre méthode :
prendre le milieu de la plus longue chaîne de branches consécutives
(il s’agit de la racine si l’hypothèse de l’horloge moléculaire est
valable)
Construction d’arbres

Bootstrap
Le « bootstrap » est une méthode générale en statistiques qui permet
d’évaluer l’incertitude d’une estimation due à un échantillonnage incomplet
(Efron, 1979).
Cette méthode a été appliquée aux arbres phylogénétiques par Felsenstein
(1985).
L’idée est d’évaluer la robustesse d’un trait phylogénétique (par exemple, le
fait qu’un ensemble d’espèces soient dans une même branche) en perturbant
les données.
Construction d’arbres

Bootstrap
1 À partir du jeu de données initial (alignement de séquences), on génère des
jeux de données artificiels de même taille, en effectuant des tirages aléatoires
(typiquement, de 100 à 1000) avec remise (une colonne de l’alignement peut
apparaître plusieurs fois).
2 Pour chaque jeu de données artificiel, on construit un arbre phylogénétique
avec la même méthode.
3 La fréquence avec laquelle un trait phylogénétique est présent est une
mesure de sa robustesse.

90%
75%
1 3

... ...
Construction d’arbres

Comparaison des méthodes


Méthodes utilisant les matrices de distance
+ rapide et simple
+ pas besoin d’explorer l’espace des arbres
− utilisation d’une matrice de distance (perte d’information)
− hypothèse de l’horloge moléculaire pour UPGMA
Maximum de parcimonie
+ simple
+ moins coûteux que le maximum de vraisemblance
− plus coûteux que les matrices de distance
− attraction des longues branches
− impossible d’évaluer tous les arbres si beaucoup de séquences
Maximum de vraisemblance
+ justification théorique
+ meilleurs résultats en général
− coûteux
− nécessite un modèle probabiliste d’évolution
− impossible d’évaluer tous les arbres si beaucoup de séquences
Construction d’arbres

Limitations

limites des données, modèles, algorithmes, et


de l’échantillonnage des arbres
différence entre phylogénie de gènes et
d’espèces
taux variables de mutation
recombinaison génétique
hybridation
transferts horizontaux de gènes et xénologie
convergence évolutive et homoplasie
conservation de l’ADN ≈ 100000 ans Smets & Barkay, Nature
... Rev. Microbiol. 2005
Construction d’arbres

Logiciels (libres)

PHYLIP bibliothèque logicielle complète, par J. Felsenstein


fastDNAml maximum de vraisemblance
PAML maximum de vraisemblance et inférence bayésienne
TREE-PUZZLE maximum de vraisemblance
RAxML maximum de vraisemblance
PhyML maximum de vraisemblance
FastTree maximum de vraisemblance
MrBayes inférence bayésienne
SeaView interface graphique pour l’alignement de séquences et la
phylogénie
FigTree visualisation d’arbres
TreeView X visualisation d’arbres
...
Construction d’arbres

Serveurs

http://www.phylogeny.fr

simple à utiliser
analyses à la carte
interface à de nombreux programmes
alignement multiple MUSCLE,
T-Coffee/3D-Coffee,
ClustalW, ProbCons
phylogénie PhyML, TNT, BioNJ,
MrBayes
arbres TreeDyn, Drawgram,
Drawtree, ATV
utilitaires Gblocks, Jalview, Readseq
Applications

Sommaire

1 Introduction

2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance

3 Applications

4 Bibliographie
Applications

L’énigme du panda géant

Pendant longtemps, on ne savait pas dans


quelle famille classer les pandas géants.

Les pandas géants ressemblent aux ours mais


ont des caractéristiques inhabituelles pour les
ours et typiques des ratons laveurs (par exemple,
ils n’hibernent pas).

En 1985, Steven O’Brien et collègues ont résolu l’énigme de la


classification du panda géant en utilisant des séquences d’ADN et des
méthodes phylogénétiques.
Applications

L’énigme du panda géant


Arbre évolutif du panda géant

A molecular solution to the riddle of the giant panda’s phylogeny.


S. J. O’Brien et al., Nature 1985, 317, 140.
Applications

Preuve d’une contamination par le VIH

À Lafayette (Louisiane) en 1994, une femme prétend que son


ex-amant, le Dr Schmidt, lui a injecté du sang contaminé par le VIH.

Les archives montrent que le médecin avait prélevé du sang d’un


patient séropositif le même jour.

Comment prouver que c’est le sang de ce patient qui aurait été


injecté à la plaignante ?
Applications

Preuve d’une contamination par le VIH

Première utilisation judiciaire d’analyses phylogénétiques.

Molecular evidence of HIV-1 transmission in a criminal case.


M. L. Metzker et al., PNAS USA 2002, 99, 14292.
Applications

Combien de fois l’évolution a-t-elle inventé les ailes ?

Étude portant sur les phasmes, famille d’insectes ayant


ou non des ailes.

L’apparition des ailes semble un évènement évolutif compliqué.


Applications

Combien de fois l’évolution a-t-elle inventé les ailes ?

Loss and recovery of wings in stick insects.


M. F. Whiting et al., Nature 2003, 421, 264.
Applications

Origine de l’homme moderne

Hypothèse de l’origine africaine récente (« Out of Africa »)


formulée dès 1871 par Darwin
évolution vers l’homme moderne en Afrique il y a 200000–100000 ans
migration hors d’Afrique il y a 80000 ans
remplacement des humanoïdes antérieurs

Hypothèse de l’origine multi-régionale


proposée par Wolpoff en 1984
migration hors d’Afrique il y a 2 millions d’années
Homo erectus et non Homo sapiens a effectué la migration
évolution vers Homo sapiens indépendante dans plusieurs régions
Applications

Origine de l’homme moderne

Mitochondrial DNA and human evolution.


R. L. Cann et al., Nature 1987, 325, 31.
African Populations and the Evolution of Human Mitochondrial DNA.
L. Vigilant et al., Science 1991, 253, 1503.
Applications

Origine de l’homme moderne

Carte des premières migrations humaines


Bibliographie

Sommaire

1 Introduction

2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance

3 Applications

4 Bibliographie
Bibliographie

Bibliographie

Livres
Biological Sequence Analysis, R. Durbin et al., 1998
An Introduction to Bioinformatics Algorithms,
N. Jones & P. Pevzner, 2004
Inferring Phylogenies, J. Felsenstein, 2004

Articles
JC Jukes & Cantor, 1969
UPGMA Sokal & Michener, 1958
NJ Saitou & Nei, 1987 ; Studier & Keppler, 1988
parcimonie traditionnelle Fitch, 1971
parcimonie pondérée Sankoff & Cedergren, 1983
algorithme de Felsenstein Felsenstein, 1981

Vous aimerez peut-être aussi