Académique Documents
Professionnel Documents
Culture Documents
Thomas Gaillard
thomas.gaillard@polytechnique.edu
École Polytechnique
Sommaire
1 Introduction
2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance
3 Applications
4 Bibliographie
Introduction
Sommaire
1 Introduction
2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance
3 Applications
4 Bibliographie
Introduction
Phylogénie
Définition : ?
Étymologie :
φῦλον = tribu, genre, espèce
γένεσις = origine, source, naissance
Intérêt :
origine de la vie
histoire évolutive des gènes et des organismes
classification et taxonomie
annotation fonctionnelle
épidémiologie
...
Introduction
Historique
Molecules as
Documents of
Evolutionary History
Zuckerlandl & Pauling,
1965
Darwin, 1837
Haeckel, 1866
Introduction
Données de départ
Approche morphologique :
matrice de caractères
Approche moléculaire :
alignement multiple de séquences homologues
goshawk GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
vulture GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
duck GALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPAALTPEVHASLDKFMCAVGAVLTAKYR
alligator GALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSPEIHASLDKFLCAVSAVLTSKYR
lesser GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLACHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
giant GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
moose GTLSDLSDLHAHKLRVDPVNFKLLSHTLLVTLAAHLPSDFTPAVHASLDKFLANVSTVLTSKYR
axolotl ATLVKLSDKHAHDLMVDPAEFPRLAEDILVVLGFHLPAKFTYAVQCSIDKFLHVTMRLCISKYR
Introduction
Homologie
Arbres
vocabulaire
9 1
8
8
temps
7 7
6 6 4
2
2 4
3 5
3
1
feuilles
Introduction
Arbres
comptage
1
non-racinés racinés 3
feuilles 3 4 n 3 n
nœuds internes 2
nœuds
branches
arbres
Introduction
Arbres
codage et représentations
Codage :
correspondance entre arbres et parenthèses imbriquées
(Arthur Cayley, 1857)
format Newick :
((1,(2,3)),(4,5));
((1,(2,3)6)7,(4,5)8)9;
((1:3 ,(2:1 ,3:1.3 )6:1 )7:2 ,(4:3 ,5:3.5 )8:1 )9;
Représentations :
rectangulaire oblique circulaire radiale
3
1 1
4
2
7 5
1
2 2 4
1
6 1.3
9 3 3 1
3
4 4
1
8 3 3
3.5
5 5 1
2
2
Introduction
L’arbre de la vie
http://itol.embl.de
Construction d’arbres
Sommaire
1 Introduction
2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance
3 Applications
4 Bibliographie
Construction d’arbres
construction de l’arbre
modèle modèle
de distance probabiliste
4
maximum maximum
UPGMA
de de
NJ
parcimonie vraisemblance
5 évaluation de l’arbre
Construction d’arbres Alignement multiple des séquences
80
beta HLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------
delta HLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH------
epsilon NMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH------
gamma HLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH------
theta RLDDLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR------
alpha HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------
zeta SIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR------
myoglobin KKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
Distance évolutive
La p-distance est l’estimation la plus simple de la distance entre deux
séquences :
p = n/l
Modèle de Jukes-Cantor
modèle à un seul paramètre
même taux de substitution α pour les quatre nucléotides
Jukes & Cantor, 1969
Modèle de Jukes-Cantor
On obtient le système d’équations différentielles :
r 0 = −3αr + 3αs
s 0 = αr − αs
Qui a pour solutions :
r (t) = 14 (1 + 3e −4αt )
s(t) = 14 (1 − e −4αt )
p
1
probabilité
0.75
0.5
r (t)
0.25 s(t)
0 t
0 temps
lorsque t = 0, r = 1 et s = 0
lorsque t → ∞, r = s = 14 (fréquences d’équilibre des nucléotides)
Construction d’arbres Modèles d’évolution
Distance de Jukes-Cantor
Par définition, d = λt, et λ = 3α pour Jukes-Cantor
La probabilité globale de substitution est p = 3s(t)
4
On obtient : p = 43 (1 − e − 3 d )
Et la distance de Jukes-Cantor : d = − 43 ln(1 − 43 p)
p
1
distance observée
aléatoire
0.75
0.5
0.25
0 d
0 0.5 1 1.5
distance évolutive
lorsque p = 75%, d → ∞
Construction d’arbres Modèles d’évolution
Autres modèles
ADN
K80 Kimura 1980
2 paramètres, distingue transition et transversion
d = − 12 ln(1 − 2p − q) − 14 ln(1 − 2q)
HKY85 Hasegawa, Kishino et Yano 1985
Kimura avec fréquences d’équilibre différentes
pour les quatre nucléotides
...
GTR « Generalised time-reversible », Tavaré 1986
le plus général avec la réversibilité
Protéines
PAM « Point Accepted Mutation »
Dayhoff, Schwartz & Orcutt, 1978
...
Construction d’arbres Utilisation de matrices de distance
Matrices de distance
Méthode UPGMA
UPGMA =
« unweighted pair group method with arithmetic averages »
Sokal & Michener, 1958
méthode standard de clustering hiérarchique ascendant
but : regrouper progressivement les séquences p dans des clusters Ci
1 P
distance inter-cluster : dij = |Ci ||Cj| p∈Ci ,q∈Cj dpq
avec |Ci | et |Cj | le nombre de séquences dans les clusters Ci et Cj , et
dpq la matrice de distance inter-séquences
variantes :
dij = minp∈Ci ,q∈Cj dpq (saut minimum ou « single linkage »)
dij = maxp∈Ci ,q∈Cj dpq (saut maximum ou « complete linkage »)
Construction d’arbres Utilisation de matrices de distance
Initialisation :
Attribuer à chaque séquence i son propre cluster Ci .
Définir une feuille pour chaque séquence, à hauteur zéro.
Itération :
Déterminer les deux clusters Ci et Cj pour lesquels dij est minimale.
Définir un nouveau cluster Ck = Ci ∪ Cj , et calculer dkl pour tout l.
Définir un nœud k avec pour descendants i et j,
et le placer à hauteur dij /2.
Ajouter Ck aux clusters courants et supprimer Ci et Cj .
Terminaison :
Lorsqu’il reste seulement deux clusters Ci et Cj ,
placer la racine à hauteur dij /2.
Construction d’arbres Utilisation de matrices de distance
• •
1 2
•
3
•
4
•
5
Construction d’arbres Utilisation de matrices de distance
UPGMA produit des arbres dont les branches peuvent être vues comme des
temps mesurés par une « horloge moléculaire »
L’hypothèse de l’horloge moléculaire suppose que les mutations surviennent
à une vitesse constante
Les distances entre un nœud et ses feuilles sont identiques
3
2
4
1 1 4 2 3
Méthode Neighbor-joining
Méthode Neighbor-joining
Initialisation :
Définir T comme l’ensemble des nœuds feuilles, un pour chaque
séquence, et L = T .
Itération :
Choisir une paire i, j dans L pour laquelle Dij est minimale.
Définir un nouveau nœud k avec dkm = 12 (dim + djm − dij ),
pour tout m de L.
Ajouter k à T avec des branches vers i et j de longueur
dik = 12 (dij + ri − rj ) et djk = dij − dik .
Retirer i et j de L et ajouter k.
Terminaison :
Lorsque L contient deux nœuds i et j,
ajouter la dernière branche entre i et j, de longueur dij .
Construction d’arbres Maximum de parcimonie
Maximum de parcimonie
Principe de parcimonie :
(lex parsimoniae, « principe de simplicité »,
ou encore « principe d’économie »)
« Les hypothèses suffisantes les plus simples
sont les plus vraisemblables »
rasoir d’Ockham :
Pluralitas non est ponenda sine necessitate
« Les multiples ne doivent pas être utilisés sans nécessité »
Maximum de parcimonie
Deux composantes :
1 calcul du coût pour un arbre donné
2 exploration de l’espace des arbres pour identifier
l’arbre de coût minimal
Exemple :
quatre séquences alignées AAG, AAA, GGA, AGA
coût = 1 par substitution
trois exemples d’arbres possibles :
? ? ?
? ? ? ? ? ?
AGA GGA AGA
AAA AGA GGA
GGA AAA AAA
AAG AAG AAG
Maximum de parcimonie
Algorithme de parcimonie traditionnelle
Maximum de parcimonie
Algorithme de parcimonie pondérée
Maximum de parcimonie
Reconstitution de la séquence des ancêtres
{A: ?,B: ?} ?
{A: ?,B: ?} ?
{A: ?,B: ?} ?
{A:∞,B:0} B
{A:∞,B:0} B
{A:0,B:∞} {A:0,B:∞} A A
Construction d’arbres Maximum de vraisemblance
Maximum de vraisemblance
Terminologie
Maximum de vraisemblance
En phylogénie
Maximum de vraisemblance
Deux séquences
a
arbre T avec branches de longueur t1 et t2 t2
deux séquences x 1 et x 2 t1
xu2
xu1
Pour un site u, probabilité d’avoir les résidus xu1 et xu2 aux feuilles :
P(xu1 , xu2 |T , t1 , t2 ) = ?
Maximum de vraisemblance
Nombre arbitraire de séquences
n séquences x 1 , . . . , x n
arbre T avec branches de longueur t1 , . . . , t2n−2
t6 aα(6)
les nœuds non-feuilles sont numérotés de n + 1 à 2n − 1
α(i) est l’ancêtre immédiat du nœud i a6
t3 aα(3)
xu3
Pour un site u, probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles :
Maximum de vraisemblance
Algorithme de Felsenstein
giant
moose
lesser
duck
axolotl
goshawk
alligator
vulture
Autre méthode :
prendre le milieu de la plus longue chaîne de branches consécutives
(il s’agit de la racine si l’hypothèse de l’horloge moléculaire est
valable)
Construction d’arbres
Bootstrap
Le « bootstrap » est une méthode générale en statistiques qui permet
d’évaluer l’incertitude d’une estimation due à un échantillonnage incomplet
(Efron, 1979).
Cette méthode a été appliquée aux arbres phylogénétiques par Felsenstein
(1985).
L’idée est d’évaluer la robustesse d’un trait phylogénétique (par exemple, le
fait qu’un ensemble d’espèces soient dans une même branche) en perturbant
les données.
Construction d’arbres
Bootstrap
1 À partir du jeu de données initial (alignement de séquences), on génère des
jeux de données artificiels de même taille, en effectuant des tirages aléatoires
(typiquement, de 100 à 1000) avec remise (une colonne de l’alignement peut
apparaître plusieurs fois).
2 Pour chaque jeu de données artificiel, on construit un arbre phylogénétique
avec la même méthode.
3 La fréquence avec laquelle un trait phylogénétique est présent est une
mesure de sa robustesse.
90%
75%
1 3
... ...
Construction d’arbres
Limitations
Logiciels (libres)
Serveurs
http://www.phylogeny.fr
simple à utiliser
analyses à la carte
interface à de nombreux programmes
alignement multiple MUSCLE,
T-Coffee/3D-Coffee,
ClustalW, ProbCons
phylogénie PhyML, TNT, BioNJ,
MrBayes
arbres TreeDyn, Drawgram,
Drawtree, ATV
utilitaires Gblocks, Jalview, Readseq
Applications
Sommaire
1 Introduction
2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance
3 Applications
4 Bibliographie
Applications
Sommaire
1 Introduction
2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance
3 Applications
4 Bibliographie
Bibliographie
Bibliographie
Livres
Biological Sequence Analysis, R. Durbin et al., 1998
An Introduction to Bioinformatics Algorithms,
N. Jones & P. Pevzner, 2004
Inferring Phylogenies, J. Felsenstein, 2004
Articles
JC Jukes & Cantor, 1969
UPGMA Sokal & Michener, 1958
NJ Saitou & Nei, 1987 ; Studier & Keppler, 1988
parcimonie traditionnelle Fitch, 1971
parcimonie pondérée Sankoff & Cedergren, 1983
algorithme de Felsenstein Felsenstein, 1981