Phylogenie Gaillard

Phylogénie moléculaire
Thomas Gaillard
thomas.gaillard@polytechnique.edu
École Polytechnique
Sommaire
1 Introduction
2 Construction d’arbres
Alignement multiple des séquences
Modèles d’évolution
Utilisation de matrices de distance
Maximum de parcimonie
Maximum de vraisemblance
3 Applications
4 Bibliographie
Introduction
Sommaire
1 Introduction
3 Applications
4 Bibliographie
Introduction
Phylogénie
Définition : ?
Étymologie :
φῦλον = tribu, genre, espèce
γένεσις = origine, source, naissance
Intérêt :
origine de la vie
histoire évolutive des gènes et des organismes
classification et taxonomie
annotation fonctionnelle
épidémiologie
...
Introduction
Historique
phylogénie = taxonomie + évolution
Molecules as
Documents of
Evolutionary History
Zuckerlandl & Pauling,
1965
Darwin, 1837
Haeckel, 1866
Introduction
Données de départ
Approche morphologique :
matrice de caractères
Approche moléculaire :
alignement multiple de séquences homologues
goshawk GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
vulture GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
duck GALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPAALTPEVHASLDKFMCAVGAVLTAKYR
alligator GALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSPEIHASLDKFLCAVSAVLTSKYR
lesser GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLACHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
giant GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
moose GTLSDLSDLHAHKLRVDPVNFKLLSHTLLVTLAAHLPSDFTPAVHASLDKFLANVSTVLTSKYR
axolotl ATLVKLSDKHAHDLMVDPAEFPRLAEDILVVLGFHLPAKFTYAVQCSIDKFLHVTMRLCISKYR
Introduction
Homologie
Deux séquences sont dites gène ancestral

homologues lorsqu’elles
possèdent un ancêtre commun
gène α gène β
Les évènements de spéciation
donnent des orthologues
gène α gène α gène β gène β
rat souris souris rat
Les évènements de duplication
donnent des paralogues orthologues orthologues
paralogues
homologues
Introduction
Arbres
vocabulaire
définition mathématique : graphe connexe acyclique

arbre binaire : chaque nœud possède au plus deux fils
arbre raciné arbre non-raciné

racine 5
9 1
8
8
temps
7 7
6 6 4
2
2 4
3 5
3
1
feuilles
Introduction
Arbres
comptage
1
non-racinés racinés 3
feuilles 3 4 n 3 n
nœuds internes 2
nœuds
branches
arbres
Introduction
Arbres
codage et représentations
Codage :
correspondance entre arbres et parenthèses imbriquées
(Arthur Cayley, 1857)
format Newick :
((1,(2,3)),(4,5));
((1,(2,3)6)7,(4,5)8)9;
((1:3 ,(2:1 ,3:1.3 )6:1 )7:2 ,(4:3 ,5:3.5 )8:1 )9;
Représentations :
rectangulaire oblique circulaire radiale
3
1 1
4
2
7 5
1
2 2 4
1
6 1.3
9 3 3 1
3
4 4
1
8 3 3
3.5
5 5 1
2
2
Introduction
L’arbre de la vie
http://itol.embl.de
Construction d’arbres
Sommaire
1 Introduction
3 Applications
4 Bibliographie
Construction d’arbres phylogénétiques
1 choix des séquences
2 alignement multiple des séquences
3 sélection d’une partie de l’alignement
construction de l’arbre
modèle modèle
de distance probabiliste
4
maximum maximum
UPGMA
de de
NJ
parcimonie vraisemblance
5 évaluation de l’arbre
Construction d’arbres Alignement multiple des séquences
Toutes les approches phylogénétiques moléculaires commencent par

un alignement multiple des séquences
1
beta MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLA
delta MVHLTPEEKTAVNALWGKVN--VDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLA
epsilon MVHFTAEEKAAVTSLWSKMN--VEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAILGNPKVKAHGKKVLTSFGDAIK
gamma MGHFTEEDKATITSLWGKVN--VEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIK
theta -MALSAEDRALVRALWKKLGSNVGVYTTEALERTFLAFPATKTYFSHL-DLSP-----GSSQVRAHGQKVADALSLAVE
alpha -MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHGKKVADALTNAVA
zeta -MSLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF-DLHP-----GSAQLRAHGSKVVAAVGDAVK
myoglobin -MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILK
80
beta HLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------
delta HLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH------
epsilon NMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH------
gamma HLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH------
theta RLDDLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR------
alpha HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------
zeta SIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR------
myoglobin KKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
Les zones de faible similarité sont ignorées

Construction d’arbres Modèles d’évolution
Distance évolutive
La p-distance est l’estimation la plus simple de la distance entre deux
séquences :
p = n/l
avec n le nombre de substitutions et l le nombre de sites

La distance évolutive d est supérieure à la distance observée p
substitution(s) séquence 1 séquence 2 p d
simple C C→A ? ?
multiples A A→C→T ? ?
coïncidentes C→A C→G ? ?
parallèles T→A T→A ? ?
convergentes A→T A→C→T ? ?
inverse C C→T→C ? ?
Avec un modèle d’évolution, on peut estimer d à partir de p
Soit λ le taux global de substitutions dans une séquence
On a d = λt
Modèle de Jukes-Cantor
modèle à un seul paramètre
même taux de substitution α pour les quatre nucléotides
Jukes & Cantor, 1969
Matrice de taux de substitution :

A C G T
 
A −3α α α α
C α −3α α α 
Q=  
G  α α −3α α 
T α α α −3α
Matrice de probabilité de substitution :

On a P 0 (t) = QP(t)
A C G T
 
A r (t) s(t) s(t) s(t)
C  s(t) r (t) s(t) s(t) 
On pose P(t) =   avec r (t) + 3s(t) = 1
G  s(t) s(t) r (t) s(t) 
T s(t) s(t) s(t) r (t)
Modèle de Jukes-Cantor
On obtient le système d’équations différentielles :
r 0 = −3αr + 3αs
s 0 = αr − αs
Qui a pour solutions :
r (t) = 14 (1 + 3e −4αt )
s(t) = 14 (1 − e −4αt )
p
1
probabilité
0.75
0.5
r (t)
0.25 s(t)
0 t
0 temps
lorsque t = 0, r = 1 et s = 0
lorsque t → ∞, r = s = 14 (fréquences d’équilibre des nucléotides)
Distance de Jukes-Cantor
Par définition, d = λt, et λ = 3α pour Jukes-Cantor
La probabilité globale de substitution est p = 3s(t)
4
On obtient : p = 43 (1 − e − 3 d )
Et la distance de Jukes-Cantor : d = − 43 ln(1 − 43 p)
p
1
distance observée
aléatoire
0.75
0.5
0.25
0 d
0 0.5 1 1.5
distance évolutive
lorsque p = 75%, d → ∞
Autres modèles
ADN
K80 Kimura 1980
2 paramètres, distingue transition et transversion
d = − 12 ln(1 − 2p − q) − 14 ln(1 − 2q)
HKY85 Hasegawa, Kishino et Yano 1985
Kimura avec fréquences d’équilibre différentes
pour les quatre nucléotides
...
GTR « Generalised time-reversible », Tavaré 1986
le plus général avec la réversibilité
Protéines
PAM « Point Accepted Mutation »
Dayhoff, Schwartz & Orcutt, 1978
...
Construction d’arbres Utilisation de matrices de distance
Matrices de distance
Une matrice de distance dij est calculée à partir de l’alignement de

séquences et d’un modèle de distance
- beta delta epsilon gamma theta alpha zeta myoglobin

beta 0.00 0.07 0.30 0.34 1.20 0.93 1.18 2.22
delta 0.07 0.00 0.33 0.35 1.17 0.95 1.13 2.14
epsilon 0.30 0.33 0.00 0.22 1.21 1.05 1.03 2.07
gamma 0.34 0.35 0.22 0.00 1.19 0.99 1.03 2.05
theta 1.20 1.17 1.21 1.19 0.00 0.51 0.77 1.87
alpha 0.93 0.95 1.05 0.99 0.51 0.00 0.56 1.88
zeta 1.18 1.13 1.03 1.03 0.77 0.56 0.00 1.64
myoglobin 2.22 2.14 2.07 2.05 1.87 1.88 1.64 0.00
(distances calculées avec modèle PAM)

Méthode UPGMA
UPGMA =
« unweighted pair group method with arithmetic averages »
Sokal & Michener, 1958
méthode standard de clustering hiérarchique ascendant
but : regrouper progressivement les séquences p dans des clusters Ci
1 P
distance inter-cluster : dij = |Ci ||Cj| p∈Ci ,q∈Cj dpq
avec |Ci | et |Cj | le nombre de séquences dans les clusters Ci et Cj , et
dpq la matrice de distance inter-séquences
variantes :
dij = minp∈Ci ,q∈Cj dpq (saut minimum ou « single linkage »)
dij = maxp∈Ci ,q∈Cj dpq (saut maximum ou « complete linkage »)
Méthode UPGMA : algorithme
Initialisation :
Attribuer à chaque séquence i son propre cluster Ci .
Définir une feuille pour chaque séquence, à hauteur zéro.
Itération :
Déterminer les deux clusters Ci et Cj pour lesquels dij est minimale.
Définir un nouveau cluster Ck = Ci ∪ Cj , et calculer dkl pour tout l.
Définir un nœud k avec pour descendants i et j,
et le placer à hauteur dij /2.
Ajouter Ck aux clusters courants et supprimer Ci et Cj .
Terminaison :
Lorsqu’il reste seulement deux clusters Ci et Cj ,
placer la racine à hauteur dij /2.
Méthode UPGMA : exemple
5 séquences, représentées comme des points du plan
• •
1 2
•
3
•
4
•
5
Hypothèse de l’horloge moléculaire
UPGMA produit des arbres dont les branches peuvent être vues comme des
temps mesurés par une « horloge moléculaire »
L’hypothèse de l’horloge moléculaire suppose que les mutations surviennent
à une vitesse constante
Les distances entre un nœud et ses feuilles sont identiques
3
2
4
1 1 4 2 3
arbre correct arbre produit par UPGMA

Méthode Neighbor-joining
Ne requiert pas l’hypothèse de l’horloge moléculaire

mais seulement l’additivité des distances
Additivité des distances : la distance entre une paire
de feuilles est la somme des longueurs des branches le
m
long du chemin qui les relie
Pour trois feuilles i, j, et m, il y a un nœud k où les
branches vers ces feuilles se rejoignent.
k
Par additivité, on a : i
j
dim = dik + dkm , djm = djk + dkm , et dij = dik + djk
La distance du nœud k à la feuille m est donc :
dkm = 21 (dim + djm − dij )
Produit un arbre non-raciné
Méthode Neighbor-joining
Les feuilles les plus proches ne sont pas forcément

voisines 1 2
0.1 0.1 0.1
Comment déterminer si des feuilles sont voisines à
partir des distances dij ?
0.4 0.4
Procédure proposée par Saitou & Nei (1987) et
modifiée par Studier & Keppler (1988)
3 4
On introduit Dij = dij − (ri + rj )
1 P d13 > d12
avec ri = (|L|−2) m∈L dim (? > ?)
et |L| le nombre de feuilles mais
D13 < D12
On peut prouver que Dij est minimale si et (? < ?)
seulement si i et j sont voisines
Méthode Neighbor-joining : algorithme
T est l’arbre courant

L est la liste courante des feuilles
Initialisation :
Définir T comme l’ensemble des nœuds feuilles, un pour chaque
séquence, et L = T .
Itération :
Choisir une paire i, j dans L pour laquelle Dij est minimale.
Définir un nouveau nœud k avec dkm = 12 (dim + djm − dij ),
pour tout m de L.
Ajouter k à T avec des branches vers i et j de longueur
dik = 12 (dij + ri − rj ) et djk = dij − dik .
Retirer i et j de L et ajouter k.
Terminaison :
Lorsque L contient deux nœuds i et j,
ajouter la dernière branche entre i et j, de longueur dij .
Construction d’arbres Maximum de parcimonie
Principe de parcimonie :
(lex parsimoniae, « principe de simplicité »,
ou encore « principe d’économie »)
« Les hypothèses suffisantes les plus simples
sont les plus vraisemblables »
rasoir d’Ockham :
Pluralitas non est ponenda sine necessitate
« Les multiples ne doivent pas être utilisés sans nécessité »
En phylogénie : trouver l’arbre qui peut expliquer les observations

avec le minimum de substitutions
Deux composantes :
1 calcul du coût pour un arbre donné
2 exploration de l’espace des arbres pour identifier
l’arbre de coût minimal
Exemple :
quatre séquences alignées AAG, AAA, GGA, AGA
coût = 1 par substitution
trois exemples d’arbres possibles :
? ? ?
? ? ? ? ? ?
AGA GGA AGA
AAA AGA GGA
GGA AAA AAA
AAG AAG AAG
coût = ? coût = ? coût = ?

Algorithme de parcimonie traditionnelle
minimise le coût total de l’arbre pour un site u (Fitch, 1971)

n séquences x 1 , . . . , x n
xui désigne le résidu de la séquence i au site u
Rk est une liste des résidus de coût minimal pour le nœud k
k
C est le coût courant de l’arbre {Rk }
i
Initialisation : {Ri } j
Soit C = 0 et k = 2n − 1. {Rj }
Récursion. Calcul de l’ensemble Rk :
Si k est un nœud feuille : Rk = xuk .
Si k n’est pas un nœud feuille :
calculer Ri et Rj pour les nœuds filles i et j, puis
Rk = Ri ∩ Rj si cette intersection n’est pas vide,
Rk = Ri ∪ Rj sinon et incrémenter C .
Terminaison :
Le coût minimal de l’arbre est C .
Algorithme de parcimonie pondérée
minimise le coût total de l’arbre pour un site u

Sankoff & Cedergren, 1983
S(a, b) est le coût pour une substitution du résidu a vers b
Sk (a) est le coût minimal pour l’attribution du résidu a au nœud k k
{A:Sk (A),...}
Initialisation : i
Soit k = 2n − 1, le numéro du nœud racine. {A:Si (A),...} j
Récursion. Calculer Sk (a) pour tout a comme suit : {A:Sj (A),...}
Si k est un nœud feuille :

Sk (a) = 0 si a = xuk , sinon Sk (a) = ∞.
calculer Si (a) et Sj (a) pour tout a pour les nœuds filles i et j, et
obtenir Sk (a) = minb (Si (b) + S(a, b)) + minc (Sj (c) + S(a, c)).
Terminaison :
Le coût minimal de l’arbre est mina S2n−1 (a).
Reconstitution de la séquence des ancêtres
Ajouter des pointeurs de chaque résidu a du nœud k vers les résidus

correspondants b et c des nœuds filles i et j, qui minimisaient Sk (a)
(les pointeurs peuvent avoir plusieurs cibles) :
lk (a) = argminb (Si (b) + S(a, b))
rk (a) = argminc (Sj (c) + S(a, c))
À la fin, choisir un résidu a à la racine donnant le coût minimal pour S2n−1 ,
puis remonter jusqu’aux feuilles en lisant les pointeurs, choisissant
arbitrairement lorsque le pointeur a plusieurs cibles.
{A: ?,B: ?} ?
{A: ?,B: ?} ?
{A: ?,B: ?} ?
{A:∞,B:0} B
{A:∞,B:0} B
{A:0,B:∞} {A:0,B:∞} A A
Construction d’arbres Maximum de vraisemblance
Terminologie
soit un modèle probabiliste de paramètres θ

P(x |θ) est la probabilité d’observer les résultats x étant donnés les
paramètres θ
L(θ|x ) = P(x |θ) est la vraisemblance des paramètres θ étant donnés
les résultats x
estimer les paramètres d’un modèle probabiliste à partir d’un jeu de
données fiable D
maximum de vraisemblance :
θML = argmax P(D|θ)

θ
si la quantité de données est limitée, risque de surajustement

(« overfitting »)
par exemple un tirage [pile,pile,pile] donnerait
P(pile) = 1, P(face) = 0
En phylogénie
Soit un modèle probabiliste d’évolution, qui permet de calculer les

probabilités de substitution P(b|a, t)
Soit un ensemble de n séquences x 1 , . . . , x n
On cherche l’arbre T de longueurs de branches t1 , . . . , t2n−2 qui

maximise la vraisemblance P(x 1 , . . . , x n |T , t1 , . . . , t2n−2 )
Deux séquences
a
arbre T avec branches de longueur t1 et t2 t2
deux séquences x 1 et x 2 t1
xu2
xu1
Pour un site u, probabilité d’avoir les résidus xu1 et xu2 aux feuilles :
P(xu1 , xu2 |T , t1 , t2 ) = ?
Pour N sites, probabilité d’avoir les séquences x 1 et x 2 aux feuilles :

N
Y
P(x 1 , x 2 |T , t1 , t2 ) = P(xu1 , xu2 |T , t1 , t2 )
u=1
Nombre arbitraire de séquences
n séquences x 1 , . . . , x n
arbre T avec branches de longueur t1 , . . . , t2n−2
t6 aα(6)
les nœuds non-feuilles sont numérotés de n + 1 à 2n − 1
α(i) est l’ancêtre immédiat du nœud i a6
t3 aα(3)
xu3
Pour un site u, probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles :
P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 ) = ?
Pour N sites, probabilité d’avoir les séquences x 1 , . . . , x n aux feuilles :

N
Y
P(x 1 , . . . , x n |T , t1 , . . . , t2n−2 ) = P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 )
u=1
Algorithme de Felsenstein
proposé par Felsenstein en 1981

calcule la probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles k
ti a
pour l’arbre T et les branches t1 , . . . , t2n−2 i tj
P(Lk |a) est la probabilité de toutes les feuilles sous le nœud k b j
c
sachant que le résidu en k est a
Initialisation :
Soit k = 2n − 1.
Récursion. Calculer P(Lk |a) pour tout a comme suit :
Si k est un nœud feuille :
P(Lk |a) = 1 si a = xuk , P(Lk |a) = 0 si a 6= xuk .
Calculer P(Li |a) et P(Lj |a) pour tout a
pour les nœuds
P filles i et j, puis
P(Lk |a) = b,c P(b|a, ti )P(Li |b)P(c|a, tj )P(Lj |c).
Terminaison :
La vraisemblance pour le site u est
P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 ) = a qa P(L2n−1 |a).
P
Enraciner un arbre non-raciné

Certains algorithmes produisent un arbre non-raciné
Utilisation d’un groupe extérieur :
séquence/espèce qui est plus distante des séquences/espèces étudiées
que celles-ci le sont entre elles
→ le nœud où part la branche vers le groupe extérieur est défini
comme la racine
giant
moose
lesser
duck
axolotl
goshawk
alligator
vulture
Autre méthode :
prendre le milieu de la plus longue chaîne de branches consécutives
(il s’agit de la racine si l’hypothèse de l’horloge moléculaire est
valable)
Bootstrap
Le « bootstrap » est une méthode générale en statistiques qui permet
d’évaluer l’incertitude d’une estimation due à un échantillonnage incomplet
(Efron, 1979).
Cette méthode a été appliquée aux arbres phylogénétiques par Felsenstein
(1985).
L’idée est d’évaluer la robustesse d’un trait phylogénétique (par exemple, le
fait qu’un ensemble d’espèces soient dans une même branche) en perturbant
les données.
Bootstrap
1 À partir du jeu de données initial (alignement de séquences), on génère des
jeux de données artificiels de même taille, en effectuant des tirages aléatoires
(typiquement, de 100 à 1000) avec remise (une colonne de l’alignement peut
apparaître plusieurs fois).
2 Pour chaque jeu de données artificiel, on construit un arbre phylogénétique
avec la même méthode.
3 La fréquence avec laquelle un trait phylogénétique est présent est une
mesure de sa robustesse.
90%
75%
1 3
... ...
Comparaison des méthodes

Méthodes utilisant les matrices de distance
+ rapide et simple
+ pas besoin d’explorer l’espace des arbres
− utilisation d’une matrice de distance (perte d’information)
− hypothèse de l’horloge moléculaire pour UPGMA
+ simple
+ moins coûteux que le maximum de vraisemblance
− plus coûteux que les matrices de distance
− attraction des longues branches
− impossible d’évaluer tous les arbres si beaucoup de séquences
+ justification théorique
+ meilleurs résultats en général
− coûteux
− nécessite un modèle probabiliste d’évolution
− impossible d’évaluer tous les arbres si beaucoup de séquences
Limitations
limites des données, modèles, algorithmes, et

de l’échantillonnage des arbres
différence entre phylogénie de gènes et
d’espèces
taux variables de mutation
recombinaison génétique
hybridation
transferts horizontaux de gènes et xénologie
convergence évolutive et homoplasie
conservation de l’ADN ≈ 100000 ans Smets & Barkay, Nature
... Rev. Microbiol. 2005
Logiciels (libres)
PHYLIP bibliothèque logicielle complète, par J. Felsenstein

fastDNAml maximum de vraisemblance
PAML maximum de vraisemblance et inférence bayésienne
TREE-PUZZLE maximum de vraisemblance
RAxML maximum de vraisemblance
PhyML maximum de vraisemblance
FastTree maximum de vraisemblance
MrBayes inférence bayésienne
SeaView interface graphique pour l’alignement de séquences et la
phylogénie
FigTree visualisation d’arbres
TreeView X visualisation d’arbres
...
Serveurs
http://www.phylogeny.fr
simple à utiliser
analyses à la carte
interface à de nombreux programmes
alignement multiple MUSCLE,
T-Coffee/3D-Coffee,
ClustalW, ProbCons
phylogénie PhyML, TNT, BioNJ,
MrBayes
arbres TreeDyn, Drawgram,
Drawtree, ATV
utilitaires Gblocks, Jalview, Readseq
Applications
Sommaire
1 Introduction
3 Applications
4 Bibliographie
Applications
L’énigme du panda géant
Pendant longtemps, on ne savait pas dans

quelle famille classer les pandas géants.
Les pandas géants ressemblent aux ours mais

ont des caractéristiques inhabituelles pour les
ours et typiques des ratons laveurs (par exemple,
ils n’hibernent pas).
En 1985, Steven O’Brien et collègues ont résolu l’énigme de la

classification du panda géant en utilisant des séquences d’ADN et des
méthodes phylogénétiques.
Applications
L’énigme du panda géant

Arbre évolutif du panda géant
A molecular solution to the riddle of the giant panda’s phylogeny.

S. J. O’Brien et al., Nature 1985, 317, 140.
Applications
Preuve d’une contamination par le VIH
À Lafayette (Louisiane) en 1994, une femme prétend que son

ex-amant, le Dr Schmidt, lui a injecté du sang contaminé par le VIH.
Les archives montrent que le médecin avait prélevé du sang d’un

patient séropositif le même jour.
Comment prouver que c’est le sang de ce patient qui aurait été

injecté à la plaignante ?
Applications
Preuve d’une contamination par le VIH
Première utilisation judiciaire d’analyses phylogénétiques.
Molecular evidence of HIV-1 transmission in a criminal case.

M. L. Metzker et al., PNAS USA 2002, 99, 14292.
Applications
Combien de fois l’évolution a-t-elle inventé les ailes ?
Étude portant sur les phasmes, famille d’insectes ayant

ou non des ailes.
L’apparition des ailes semble un évènement évolutif compliqué.

Applications
Combien de fois l’évolution a-t-elle inventé les ailes ?
Loss and recovery of wings in stick insects.

M. F. Whiting et al., Nature 2003, 421, 264.
Applications
Origine de l’homme moderne
Hypothèse de l’origine africaine récente (« Out of Africa »)

formulée dès 1871 par Darwin
évolution vers l’homme moderne en Afrique il y a 200000–100000 ans
migration hors d’Afrique il y a 80000 ans
remplacement des humanoïdes antérieurs
Hypothèse de l’origine multi-régionale

proposée par Wolpoff en 1984
migration hors d’Afrique il y a 2 millions d’années
Homo erectus et non Homo sapiens a effectué la migration
évolution vers Homo sapiens indépendante dans plusieurs régions
Applications
Mitochondrial DNA and human evolution.

R. L. Cann et al., Nature 1987, 325, 31.
African Populations and the Evolution of Human Mitochondrial DNA.
L. Vigilant et al., Science 1991, 253, 1503.
Applications
Carte des premières migrations humaines

Bibliographie
Sommaire
1 Introduction
3 Applications
4 Bibliographie
Bibliographie
Bibliographie
Livres
Biological Sequence Analysis, R. Durbin et al., 1998
An Introduction to Bioinformatics Algorithms,
N. Jones & P. Pevzner, 2004
Inferring Phylogenies, J. Felsenstein, 2004
Articles
JC Jukes & Cantor, 1969
UPGMA Sokal & Michener, 1958
NJ Saitou & Nei, 1987 ; Studier & Keppler, 1988
parcimonie traditionnelle Fitch, 1971
parcimonie pondérée Sankoff & Cedergren, 1983
algorithme de Felsenstein Felsenstein, 1981

Phylogenie Gaillard

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Phylogenie Gaillard

Transféré par

Droits d'auteur :

Formats disponibles

Phylogénie moléculaire

phylogénie = taxonomie + évolution

Deux séquences sont dites gène ancestral

définition mathématique : graphe connexe acyclique

arbre raciné arbre non-raciné

Construction d’arbres phylogénétiques

1 choix des séquences

2 alignement multiple des séquences

3 sélection d’une partie de l’alignement

Alignement multiple des séquences

Toutes les approches phylogénétiques moléculaires commencent par

Les zones de faible similarité sont ignorées

avec n le nombre de substitutions et l le nombre de sites

Matrice de taux de substitution :

Matrice de probabilité de substitution :

Une matrice de distance dij est calculée à partir de l’alignement de

- beta delta epsilon gamma theta alpha zeta myoglobin

(distances calculées avec modèle PAM)

Méthode UPGMA : algorithme

Méthode UPGMA : exemple

5 séquences, représentées comme des points du plan

Hypothèse de l’horloge moléculaire

arbre correct arbre produit par UPGMA

Ne requiert pas l’hypothèse de l’horloge moléculaire

Les feuilles les plus proches ne sont pas forcément

Méthode Neighbor-joining : algorithme

T est l’arbre courant

En phylogénie : trouver l’arbre qui peut expliquer les observations

coût = ? coût = ? coût = ?

minimise le coût total de l’arbre pour un site u (Fitch, 1971)

minimise le coût total de l’arbre pour un site u

Si k est un nœud feuille :

Ajouter des pointeurs de chaque résidu a du nœud k vers les résidus

soit un modèle probabiliste de paramètres θ

θML = argmax P(D|θ)

si la quantité de données est limitée, risque de surajustement

Soit un modèle probabiliste d’évolution, qui permet de calculer les

Soit un ensemble de n séquences x 1 , . . . , x n

On cherche l’arbre T de longueurs de branches t1 , . . . , t2n−2 qui

Pour N sites, probabilité d’avoir les séquences x 1 et x 2 aux feuilles :

P(xu1 , . . . , xun |T , t1 , . . . , t2n−2 ) = ?

Pour N sites, probabilité d’avoir les séquences x 1 , . . . , x n aux feuilles :

proposé par Felsenstein en 1981

Enraciner un arbre non-raciné

Comparaison des méthodes

limites des données, modèles, algorithmes, et

PHYLIP bibliothèque logicielle complète, par J. Felsenstein

L’énigme du panda géant

Pendant longtemps, on ne savait pas dans

Les pandas géants ressemblent aux ours mais

En 1985, Steven O’Brien et collègues ont résolu l’énigme de la

L’énigme du panda géant

A molecular solution to the riddle of the giant panda’s phylogeny.

Preuve d’une contamination par le VIH

À Lafayette (Louisiane) en 1994, une femme prétend que son

Les archives montrent que le médecin avait prélevé du sang d’un

Comment prouver que c’est le sang de ce patient qui aurait été

Preuve d’une contamination par le VIH

Première utilisation judiciaire d’analyses phylogénétiques.

Molecular evidence of HIV-1 transmission in a criminal case.

Combien de fois l’évolution a-t-elle inventé les ailes ?

Étude portant sur les phasmes, famille d’insectes ayant

L’apparition des ailes semble un évènement évolutif compliqué.