Vous êtes sur la page 1sur 15

Bioinformatique Bioinformatics

Inférence phylogénique La genèse d’homologies


par spéciation et duplication

Rappels (revoir les diapos du chapitre « concepts »)


!  Evénements évolutifs de spéciation / duplication
!  Homologie versus analogie
"  Homologie : similarité provenant d’un ancêtre commun, évolution divergente.
"  Analogie: la similarité ne provient pas d’un ancêtre commun, évolution convergente.
"  Inférence du caractère d’homologie (voir aussi « recherches par similarités de
séquences »).
!  Arbre réconcilié (arbre des espèces + arbre des molécules).
!  Isomorphisme d’un arbre phylogénétique (permutations des branches n’affectent pas les

! 
relations).
Catégories d’homologie
Représentations arborescentes
"  Orthologues: caractères homologues dont le dernier ancêtre commun précède
immédiatement un événement de spéciation.
"  Paralogues: caractères homologues dont le dernier ancêtre commun précède
immédiatement une duplication.
"  Identification de ces types d’homologies sur un arbre réconcilié.

Structures des arbres phylogénétiques Arbres enracinés ou non enracinés


!  Les relations évolutives entre les objets étudiés !  Les arbres non-enracinés ne sont pas à proprement parler des arbres phylogénétiques car
(espèces, organes, séquences) sont représentées ils n’indiquent pas de direction temporelle
par des arbres phylogénétiques -> indiquent les distances, mais pas les relations de parenté entre les nœuds.
!  Les arbres sont des graphes composés de noeuds
et de branches
A !  La racine définit un une orientation de l’arbre, et donc un chemin évolutif unique vers
chaque feuille.
"  Noeuds = unités taxonomiques
F !  Elle symbolise le dernier ancêtre commun (i.e. le plus récent) de toutes les OTU.
•  Feuilles ou OTU = Unités Taxonomiques
Opérationnelles (A, B, C, D, E), espèces
pour laquelle on dispose d’échantillons (en
phylogénie moléculaire, les échantillons H B
consistent en séquences macromoléculaires). Arbre non-enraciné Arbre enraciné
•  Noeuds internes ou HTU = Unités C
C A
taxonomiques Hypothétiques (F, G, H, I), G F
correspondent aux espèces ancestrales, I B
inférées à partir des OTU.
H D H
"  Branches = relations de parenté(ancêtre/ G B
descendants) entre unités taxonomiques Racine D F G C
•  Branches internes A I
•  Branches externes I
!  On appelle topologie l’ensemble des Racine D
branchements de l’arbre.
E E
E
!  Source: Emese Meglézc 5 6
Comment enraciner un arbre phylogénétique ? L’isomorphisme des arbres phylogénétiques
!  Connaissance a priori de la feuille la plus externe parmi les OTU étudiées, qu’on définit comme
!  Il faut éviter le piège d’évaluer les distance entre feuilles sur base de leur proximité
groupe extérieur (« outgroup »).
verticale.
"  Exemple: chien, loup, souris, rat et poulet. Sur base des connaissances biologiques, on décide
"  Les structures ci-dessous sont absolument identiques.
que le groupe extérieur est le poulet. On place la racine sur la branche qui sépare ce groupe
"  Pourtant les feuilles B et D semblent voisines sur le graphe de gauche, et éloignées sur celui de
des autres.
droite.
!  Sans connaissance a priori du groupe le plus externe parmi les OTU étudiées
!  Pour évaluer la distance entre deux nœuds d’un arbre, il faut prendre en compte la
"  Enracinement au poids moyen: on enracine l’arbre sur la branche qui minimise la moyenne longueur totale du chemin le plus court pour les rejoindre (somme des longueurs de
des distances aux feuilles.
branches).
"  Ceci implique une hypothèse d’horloge moléculaire: on considère que le taux de mutation
est constant au cours de l’évolution, et que la longueur des branches (calculée sur base du
C A
nombre de mutations) est donc proportionnelle au temps écoulé. Cette hypothèse n’est F
généralement pas très réaliste, il s’agit d’une approximation. G
Souris Loup H
F
H D B
Loup I B I G C
H Rat F
G H Chien
G Souris
F
Chien I I
Racine A Racine D
Racine Rat

Poulet E E
!  Adapté d’après Emese Meglézc Poulet 7 !  Source: Emese Meglézc 8

Echelle d’un arbre phylogénétique Cladistique, cladogrammes et clades


LW Felis catus
Cladogramme des LW Equus caballus
!  Cladogramme !  Phylogramme !  Cladistique séquences d’opsines LW Bos taurus
LW Capra hircus
chez les mammifères.
"  Représentation sans échelle. "  Représentation avec échelle "  (Du grec: klados = branche) domaine de la MW Sus scrofa
MW Odocoileus virginianus
Exercice: pourquoi
biologie qui détermine les relations évolutives LW Globicephala melas
"  L’arbre indique uniquement l’ordre des "  L’arbre indique les distances certaines espèces LW Tursiops truncatus
entre organismes sur base de similarités entre LW Phocoenoides phocoena
branchements. évolutives entre nœuds. caractères. apparaissent-elles à LW Delphinus delphis
plusieurs endroits de LW Phoca vitulina
"  Les longueurs de branches ne sont pas "  Les longueurs de branches sont
!  Cladogramme l’arbre ?!
LW Pagophilus groenlandicus
MW Mus musculus
proportionnelles au nombre de proportionnelles au nombre "  Représentation arborée basée sur des MW Rattus norvegicus
MW Cavia porcellus
changements évolutifs. d’événements évolutifs (substitutions bifurcations (branchements binaires), MW Oryctolagus cuniculus
ou substitution/sites). représentant un scenario évolutif de
MW Sciurus carolinensis
MW Homo sapiens
divergences entre espèces ou séquences. LW Homo sapiens
MW Callithrix jacchus

A A !  Clade LW Tarsipes rostratus


LW Cercartetus concinnus
F "  Sous-ensemble d’un cladogramme composé MW Macropus eugenii
LW Myrmecobius fasciatus
F d’un nœud ancestral et de tous ses LW Isoodon obesulus
LW Didelphis aurita
descendants. LW Ornithorhynchus anatinus
H B B LW Tachyglossus aculeatus
H !  Note SW mouse
C C "  Le cladogramme ne représente que
SW Rattus norvegicus
G SW Myotis laniger
SW Myotis ricketti
I G l’ordre des branchements, et pas les SW Daubentonia madagascariensis
I temps évolutifs.
SW Bos taurus
SW human
SW Pan paniscus
Racine D "  Les longueurs des branches d’un SW Pan troglodytes
Racine D SW Saimiri bolivensis
cladogramme ne sont pas SW Macropus eugenii
E proportionnelle à la distance entre
SW Setonix brachyurus
SW Isoodon obesulus
E 0,1
nœuds.
SW Tarsipes rostratus
SW Sminthopsis crassicaudata
SW Didelphis aurita
"  Seule la topologie est informative. SW Thylamys elegans
SW Ornithorhynchus anatinus
"  Il n’y a pas d’échelle temporelle. SW Tachyglossus aculeatus
!  Source: Emese Meglézc 9 LW Canis familiaris 10

LW Felis catus

Cladistique, cladogrammes et clades Phylogramme LW Equus caballus


LW Bos taurus
LW Capra hircus
LW Felis catus MW Sus scrofa
LW Equus caballus !  Phylogramme MW Odocoileus virginianus
!  Ceci est également un cladogramme LW Bos taurus
LW Capra hircus "  Les longueurs des branches sont
LW Globicephala melas
LW Tursiops truncatus
MW Sus scrofa proportionnelles aux nombre d’événements
"  Quoique les branches soient MW Odocoileus virginianus
LW Phocoenoides phocoena
LW Globicephala melas évolutifs (mutations). LW Delphinus delphis
rectangulaires, le dessin ci-contre LW Tursiops truncatus LW Phoca vitulina
"  Le phylogramme ci-contre représente les LW Pagophilus groenlandicus
représente une succession de LW Phocoenoides phocoena
LW Delphinus delphis relations phylogénétiques inférées pour les MW Mus musculus
divergences évolutives, sans LW Phoca vitulina
LW Pagophilus groenlandicus opsines de mammifères.
MW Rattus norvegicus
MW Cavia porcellus
considération pour l’échelle de temps ou MW Mus musculus
"  La racine devrait se trouver entre les groupes
MW Oryctolagus cuniculus
MW Rattus norvegicus MW Sciurus carolinensis
les distances entre éléments. MW Cavia porcellus d’opsines sensibles au bleu (Short-Wave MW Homo sapiens
MW Oryctolagus cuniculus LW Homo sapiens
Sensitive, SW) et celles sensibles au rouge
"  Il s’agit donc d’un cladogramme. MW Sciurus carolinensis MW Callithrix jacchus
MW Homo sapiens ou au vert (Medium-Wave + Long-Wave). LW Tarsipes rostratus
LW Homo sapiens
!  Notes: LW Cercartetus concinnus
MW Callithrix jacchus
MW Macropus eugenii
LW Tarsipes rostratus
"  L’échelle relative figure au bas de la figure. LW Myrmecobius fasciatus
LW Cercartetus concinnus
MW Macropus eugenii LW Isoodon obesulus
"  L’arbre n’est pas enraciné, même si son LW Didelphis aurita
LW Myrmecobius fasciatus
LW Isoodon obesulus orientation de gauche à droite donne l’illusion LW Ornithorhynchus anatinus
LW Didelphis aurita LW Tachyglossus aculeatus
LW Ornithorhynchus anatinus
d’un axe temporel. SW mouse
LW Tachyglossus aculeatus "  La distance entre deux nœuds est la somme
SW Rattus norvegicus
SW mouse SW Myotis laniger
SW Rattus norvegicus des longueurs des segments qui les séparent. SW Myotis ricketti
SW Myotis laniger SW Daubentonia madagascariensis
SW Myotis ricketti "  La distance verticale est trompeuse: deux
SW Bos taurus
SW Daubentonia madagascariensis feuilles successives sur l’axe vertical SW human
SW Bos taurus SW Pan paniscus
SW human (LW Tachyglossus and SW mouse) peuvent
SW Pan troglodytes
SW Pan paniscus néanmoins être très éloignées si l’on suit les SW Saimiri bolivensis
SW Pan troglodytes
SW Saimiri bolivensis branches. SW Macropus eugenii
SW Macropus eugenii SW Setonix brachyurus
"  Les longueurs de branches ne sont que des SW Isoodon obesulus
SW Setonix brachyurus
SW Isoodon obesulus approximations imparfaites des distances SW Tarsipes rostratus
SW Tarsipes rostratus SW Sminthopsis crassicaudata
SW Sminthopsis crassicaudata inférées. SW Didelphis aurita
SW Didelphis aurita SW Thylamys elegans
SW Thylamys elegans SW Ornithorhynchus anatinus
SW Ornithorhynchus anatinus SW Tachyglossus aculeatus
SW Tachyglossus aculeatus LW Canis familiaris
LW Canis familiaris 11 0.1 12
Chronogramme L’hypothèse de l’horloge moléculaire
!  Chronogramme
"  Les longueurs des branches sont proportionnelles aux temps évolutifs. !  L’hypothèse de l’horloge moléculaire consiste à supposer que les taux d’évolution ne
"  En phylogénie moléculaire, les espèces pour lesquelles on dispose de séquences (OTU) sont varient pas entre branches.
généralement actuelles (sauf cas exceptionnels: homme de Neandertal, mammouth). Les OTU !  Cette hypothèse n’est généralement pas valide
apparaissent donc alignées verticalement sur les représentations de chronogrammes. "  Dans certains cas, deux gènes divergent d’un ancêtre commun, mais l’un diverge plus
"  La contrainte d’alignement des OTU pose une difficulté pour positionner les nœuds internes (HTU): vite que l’autre. Cette dernière situation est d’ailleurs plutôt commune: une duplication
on est forcé de recourir à l’hypothèse d’horloge moléculaire (voir diapo suivante), en supposant que
crée une certaine redondance, et l’une des copies peut évoluer plus vite que l’autre,
la longueur assignée aux segments respectifs est proportionnelle aux événements de mutation (la
seule mesure dont on dispose).
qui conserve la fonction initiale (les mutations sont se produisent sur les deux copies,
mais sont contre-sélectionnées sur l’une des deux).
"  Par ailleurs, pour un même gène, le taux de mutations peut varier selon les époques.
!  Cette hypothèse a cependant une valeur pragmatique, car elle permet de positionner les
Chronogramme
noeuds ancestraux (HTU) dans un chronogramme.
META BRUME
META RHIME
Q8UBY0
META CAMJE
META VIBCH
META YERPE
META ECOLI
META ECO57
META SALTI
META SALTY
META LACLA
META STRPN
AAL00238
META BACSU
META THEMA
META BACHD
META CLOAB
0.1 13 14

Chronogramme versus phylogramme Résumé : représentations arborescentes


!  L’arbre de gauche est un chronogramme
"  Longueurs de branches proportionnelles au temps
!  L’arbre de droite est un phylogramme.
"  Les OTU ne sont pas alignées, car les différentes branches sont associées à des taux
variables de mutations.

Ultrametric tree (with clock) Without clock


(e.g. UPGMA) (e.g. neighbour-joining)
META BRUME META BACSU
META RHIME META BACHD
Q8UBY0 META CLOAB
META CAMJE META THEMA
META VIBCH META BRUME
META YERPE META RHIME
META ECOLI Q8UBY0
META ECO57 META LACLA
META SALTI META STRPN
META SALTY AAL00238
META LACLA META CAMJE
META STRPN META VIBCH
AAL00238 META YERPE
META BACSU META ECOLI
META THEMA META ECO57
META BACHD META SALTI
META CLOAB META SALTY
!  Didier Casane & Patrick Laurenti (2012). Penser la biologie dans un cadre phylogénétique: l’exemple de l’évolution des vertébrés. Médecine/
0.1 0.1 15 Sciences. 16

Arbre des espèces versus arbre des molécules


!  L’arbre des espèces représente l’histoire évolutive d’un groupe d’espèces.
!  L’arbre des molécules représente l’histoire évolutive d’une famille de molécules
apparentées (gènes, protéines).
!  Les arbres des espèces et des molécules sont généralement liés …
"  Les arbres d’espèces peuvent être ingérés sur base de différents critères, y
compris l’histoire d’une famille de molécules soigneusement choisie.
!  ... mais pas identiques !Et ce pour plusieurs raisons:
"  Une famille moléculaire peut contenir plusieurs copies dans une même
espèce (in-paralogues) du fait d’une duplication.
"  Un gène peut avoir été perdu (délétion) chez une espèce ancestrale, et
manquer chez tous ses descendants.
Réconciliation d’un arbre moléculaire "  Certaines molécules peuvent être transférées horizontalement entre espèces
Par l’accumulation de duplications / divergences / délétions, l’arbre d’une
avec l’arbre des espèces
" 

famille moléculaire donnée peut s’avérer inconsistante avec l’arbre des


espèces.

L’arbre des l’espèces Arbre des molécules

17 Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 18
Réconciliation de l’arbre moléculaire et de celui des espèces Rappel (chapitre « concepts ») - Réconciliation des arbres des
espèces et des molécules
!  La réconciliation consiste à
comparer un arbre des Arbre des
molécules et un arbre des molécules
espèces pour identifier
l'événement évolutif (duplication
ou spéciation) qui a donné lieu
à chaque branchement d'une
famille de séquences
homologues.
!  Sur la figure de droite, on a
Arbre des espèces
marqué d’un carré les
événements de duplication. Les
autres branchements résultent
de spéciations.
"  Note: les conventions pour A1 AB1 B1 C1 B2 C2 C3
marquer les divergences
peuvent varier selon les
auteurs ou bases de A, B, C représentent les espèces
A1 AB1 B1 B2 C1 C2 C3
données.
A1 X O O O O O
2, 3, 3 les copies des gènes
AB1 X X X X X X
Spéciation
B1 O X P O P P
B2 O X P P O O Duplication
C1 O X O P P P
Transfert horizontal
C2 O X P O P P
C3 O X P O P P
!  Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 19 20

Exercice – réconciliation des arbres (espèces et molécules) Exercice – réconciliation des arbres (espèces et molécules)

!  Marquez les spéciations et les duplications sur l arbre et déterminez le type !  Marquez les spéciations et les duplications sur l arbre et déterminez le type
d’homologie entre d’homologie entre
"  Seq1 et Seq2 "  Seq1 et Seq2 paralogues
"  Seq1 et Seq3 "  Seq1 et Seq3 orthologues
"  Seq1 et Seq4 "  Seq1 et Seq4 orthologues
"  Seq2 et Seq3 "  Seq2 et Seq3 orthologues
"  Seq2 et Seq4 "  Seq2 et Seq4 orthologues
"  Seq3 et Seq4 "  Seq3 et Seq4 paralogues

Spéciation

Duplications

Seq1 Seq2 Seq3 Seq4 Seq1 Seq2 Seq3 Seq4

Espèce A Espèce B Espèce A Espèce B

Exercice – réconciliation des arbres (espèces et molécules) Exercice – réconciliation des arbres (espèces et molécules)

!  Marquez les spéciations et les duplications sur l arbre et déterminez le type !  Marquez les spéciations et les duplications sur l arbre et déterminez le type
d’homologie entre d’homologie entre
"  Seq1 et Seq2 "  Seq1 et Seq2 orthologues
"  Seq1 et Seq3 "  Seq1 et Seq3 paralogues
"  Seq1 et Seq4 "  Seq1 et Seq4 paralogues
"  Seq2 et Seq3 "  Seq2 et Seq3 paralogues
"  Seq2 et Seq4 "  Seq2 et Seq4 paralogues
"  Seq3 et Seq4 "  Seq3 et Seq4 orthologues

Duplication

Spéciations

Seq1 Seq2 Seq3 Seq4 Seq1 Seq2 Seq3 Seq4

Espèce A Espèce B Espèce A Espèce B Espèce A Espèce B Espèce A Espèce B


Rappel (chapitre « concepts) - Isomorphisme des arbres

!  Attention: ces deux arbres sont identiques


"  La seule chose qui les distingue est l'orientation d'affichage des branchements.
"  La topologie des arbres (succession des branchements) est identique.
"  Ils représentent donc la même histoire évolutive.

L’inférence d’un arbre phylogénétique


à partir d’un alignement multiple

A1 AB1 B1 C1 B2 C2 C3
A1 C3 C2 B2 C1 AB1 B1

26

Nombre d’arbres possibles Caractères et états d’un caractère


!  Le nombre d’arbres possibles augmente de façon vertigineuse en fonction du nombre !  Caractère = caractéristique observable d’un organisme (quantitative ou
d’éléments terminaux (qu’ils représentent des molécules ou des espèces). qualitative).
!  Un seul de ces arbres correspond à l’histoire évolutive réelle. !  État de caractère = forme particulière d’un caractère dans une OTU particulière
!  Puisqu’on ne dispose pas a priori de cet arbre, on doit l’inférer à partir des éléments (variable continue ou discrète).
actuels (les unités taxonomiques opérationnelles, UTO).

!  Exemples
Nb$arbres$ Nb$arbres$
n enracinés non-enracinés "  Caractère: Taille de la patte postérieure gauche. Etat du caractère: 1,68 cm.
2 1 1
3 3 1 "  Caractère: acide aminé à la position 68 du produit du gène CYTB. Etat de ce
4 15 3 caractère: alanine.
5 105 15
6 945 105
7 10,395 945
8 135,135 10,395
9 2,027,025 135,135
10 3.45E+07 2,027,025
11 6.55E+08 3.45E+07
12 1.37E+10 6.55E+08
13 3.16E+11 1.37E+10
14 7.91E+12 3.16E+11
15 2.13E+14 7.91E+12
16 6.19E+15 2.13E+14
17 1.92E+17 6.19E+15
18 6.33E+18 1.92E+17
19 2.22E+20 6.33E+18
20 8.20E+21 2.22E+20

(2n − 3)! NU =
(2n − 5)!
NR =
2 n−2 ( n − 2 )! 2 n−3 ( n − 3)!
27 28

Exemple : la famille des opsines Méthodes d’inférence phylogénique


!  Pour inférer un arbre phylogénétique à partir d’une famille de séquences, on part d’un alignement
multiple. !  Méthodes cladistiques
!  La figure ci-dessous montre la première partie d’un alignement multiple entre 50 opsines de mammifère.
"  Basées sur l’étude des états de caractères (nucléotide ou acide aminé présent à une
!  A l’œil nu, on distingue déjà 2 groupes évidents.
position, présence ou absence d’une insertion/délétion…).
"  Dessus: opsines sensibles aux ondes moyennes (vert) ou longues (rouge)
"  Maximum de parcimonie.
"  Dessous: opsines sensibles aux ondes courtes (bleu)
!  Méthodes de distances
"  Basées sur des mesures de distances (ex: nombre de substitutions par site).
"  UPGMA, Neighbour-Joining (NJ), minimum d’évolution, moindres carrés…
!  Méthodes statistiques
"  Basée sur l’étude des états de caractères et sur les distances.
"  Maximum de vraisemblance.
"  Méthodes bayésiennes.

29 30
Inférence phylogénétique par comparaison de séquences Maximum de parcimonie - Méthode
!  Approches alternatives !  Principe:
"  Maximum de parcimonie Séquences "  Identifier la topologie T qui implique le plus petit nombre de changements évolutifs
"  Distance non suffisant à rendre compte des différences observées entre les OTU étudiées.
"  Maximum de vraisemblance alignées "  Utilise des états de caractères discrets => L’arbre le plus parcimonieux => plus court
chemin conduisant aux états de caractères observés
Alignement
de séquences
!  Algorithme
Séquences "  Construction de tous les arbre possibles.
alignées "  Pour chaque site (position de l’alignement), on compte le nombre de substitutions
nécessaires pour expliquer chaque arbre.
oui Grand nb de "  On retient l’arbre qui nécessite le plus petit nombre de substitutions au total (en tenant
Forte non Maximum
similarité ?
séquences
de parsimonie
compte de tous les sites).
(> 20) ?

!  Caractéristique des arbres obtenus


"  Solutions multiples => plusieurs arbres avec le même nombre minimum de
changements peuvent être obtenus.
"  La longueur des branches ne reflète par la distance évolutive (arbre sans échelle).
"  Arbres non enracinés.

!  Source: Mount (2000) 31 32

Maximum de parcimonie - Méthode

1 2 3 4 5 6 7 8 9
Matrice de caractères Déterminer toutes les topologies A A A G A G T T C A
Sites possibles B A G C C G T T C T
4 UTO => 3 arbres non racinés C A G A T A T C C A
1 2 3 4 5 6 7 8 9 D A G A G A T C C T

A A A G A G T T C A
B A G C C G T T C T
Séquences
C A G A T A T C C A
D A G A G A T C C T

33 34

Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode


Pour un caractère donné, on compte le nombre de changements évolutifs (CE) pour chaque
Espèces

topologie possible.
Séquences

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Déterminer toutes les topologies A A A G A G T T C A Étude du caractère n°1 A A A G A G T T C A
possibles B A G C C G T T C T B A G C C G T T C T
4 UTO => 3 arbres non racinés C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T

Caractère constant (même état de caractère à tous les sites).


Caractère ne favorisant aucune topologie par rapport à une autre.

A C A B A B A A A C A A A B A A A B

C A A A A A A C
B D C D D B D C D D
Nb CE= 0 Nb CE= 0 Nb CE= 0
35 36
Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°2 A A A G A G T T C A Étude du caractère n°3 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T

Caractère variable mais non informatif.


Caractère ne favorisant aucune topologie par rapport à une autre.

A A G C A A G B A A G B A G A C A G C B A G C B

G G G G G G C C A A A A A C
B D C D D B D C D D
Nb CE= 1 Nb CE= 1 Nb CE= 1
37 38

Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode

Étude du caractère n°3


A G A C 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
A A A G A G T T C A Étude du caractère n°3 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
B C A D
C A G A T A T C C A C A G A T A T C C A
A G A C Arbre 1
D A G A G A T C C T D A G A G A T C C T

B C A D Caractère variable mais non informatif: tous les scénarios « coûtent » 2 CE.
Caractère ne favorisant aucune topologie par rapport à une autre.

A G A C A G C B A G C B A G A C A G C B A G C B

C A A A A A C C A A A A A C
B D C D D B D C D D
Nb CE= 2 Nb CE= 2 Nb CE= 2 Nb CE= 2
39 40

Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°4 A A A G A G T T C A Étude du caractère n°5 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T

Caractère variable mais non informatif.


Caractère ne favorisant aucune topologie par rapport à une autre.

A A T C A A C B A A C B A C A B A B

C G T G G T C C
B D C D D B D C D D
Nb CE= 3 Nb CE= 3 Nb CE= 3 Nb CE= ? Nb CE= ? Nb CE= ?
41 42
Maximum de parcimonie - Méthode Maximum parsimony
!  For each column of the alignment, all
position 1 2 3 4 5 6 7 8 9 possible trees are evaluated and the tree
seq1 A A G A G T G C A with the smallest number of mutations is
seq2 A G C C G T G C G retained
1 2 3 4 5 6 7 8 9 seq3 A G A T A T C C A !  The trees which fit with the highest number

Étude du caractère n°5 A A A G A G T T C A seq4 A G A G A T C C G of columns are retained


!  The program can return several trees
B A G C C G T T C T Column 5 mutation
C A G A T A T C C A
seq1 G A seq3
D A G A G A T C C T
G A
seq2 G A seq4
Caractère variable et informatif (au moins 2 états de caractère sont
partagés par au moins 2 OTU). seq 1G G seq 2
Caractère favorisant la première topologie par rapport aux deux autres. A A

A G A C A G G B A G G B
seq 3 A A seq 4

seq 1G G seq 2
A A
G A A A A A C
B D C D D seq 4 A A seq 3

Nb CE= 1 Nb CE= 2 Nb CE= 2 Adapted from Mount (2000)


43 44

Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°6 A A A G A G T T C A Étude du caractère n°7 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T

Caractère constant (même état de caractère chez tous les OTUs) Caractère variable et informatif
Caractère ne favorisant aucune topologie par rapport à une autre Caractère favorisant la première topologie par rapport aux deux autres

A T T C A T T B A T T B A T C C A T T B A T T B

T T T T T T C T C C C C C C
B D C D D B D C D D
Nb CE= 0 Nb CE= 0 Nb CE= 0 Nb CE= 1 Nb CE= 2 Nb CE= 2
45 46

Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°8 A A A G A G T T C A Étude du caractère n°9 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T

Caractère constant (même état de caractère à tous les OTUs)


Caractère ne favorisant aucune topologie par rapport à une autre

A C C C A C C B A C C B A C A B A B

C C C C C C C C
B D C D D B D C D D
Nb CE= 0 Nb CE= 0 Nb CE= 0 Nb CE= ? Nb CE= ? Nb CE= ?
47 48
Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode

On compte ensuite le nombre total de mutations nécessaires pour chaque topologie.

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°9 A A A G A G T T C A Bilan: A A A G A G T T C A
B A G C C G T T C T T1 = 0+1+2+3+1+0+1+0+2=10 B A G C C G T T C T
T2 = 0+1+2+3+2+0+2+0+1=11
C A G A T A T C C A T3 = 0+1+2+3+2+0+2+0+2=12 C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T

Caractère variable et informatif L arbre le plus parcimonieux = arbre 1


Caractère favorisant la deuxième topologie par rapport aux deux autres

A A A C A A T B A A T B A C A B A B

T T A T T A C C
B D C D D B D C D D
Nb CE= 2 Nb CE= 1 Nb CE= 2 Nb CE= 10 Nb CE= 11 Nb CE= 12
49 50

Maximum de parcimonie – classification des sites Exemple d’arbre obtenu par maximum de parcimonie

!  Caractère invariant: toutes les OTU possèdent le même état de caractères pour !  Protéines de E.coli contenant le
un site donné +-----------CYTR_ECOLI! domaine lacI-type HTH
+--------------------------6 !
! ! +--------EBGR_ECOLI!
"  Arbre sans échelle, non enraciné
! +-13 ! "  Gauche: représentation en format texte
!  Caractère variable ! ! +-----CSCR_ECOLI!
! +-12 ! (output de protpars).
"  Non informatif si les états de caractères à ce site ne favorisent aucune topologie ! ! +--IDNR_ECOLI!
"  Bas: Visualisation par njplot
parmi l ensemble des topologies possibles ! +--5 !
! +--GNTR_ECOLI! (programme inclus dans la distribution
"  Informatif si les états de caractères à ce site favorise une (ou plusieurs) topologie(s) +--4 !
! ! +-----MALI_ECOLI! de ClustalX).
parmi l ensemble des topologies possibles ! ! +-10 !
! ! ! ! +--TRER_ECOLI!
! ! +--------------9 +-14 !
! ! ! ! +--YCJW_ECOLI!
! ! ! ! !
! ! ! +--------LACI_ECOLI!
! +--------------8 !
+--2 ! +--FRUR_ECOLI!
! ! ! +-------15 !
! ! ! ! +--RAFR_ECOLI!
! ! +----------11 !
! ! ! +-----ASCG_ECOLI!
! ! +-----7 !
--1 ! ! +--GALS_ECOLI!
! ! +--3 !
! ! +--GALR_ECOLI!
! ! !
! +-----------------------------------------RBSR_ECOLI!
! !
+--------------------------------------------PURR_ECOLI!
!
remember: this is an unrooted tree!!
!
!
requires a total of 4095.000!
51 52

Maximum de parcimonie - désavantages Inférence phylogénétique par comparaison de séquences


Nb$arbres$ Nb$arbres$
n enracinés non-enracinés
!  Le nombre d’arbres possibles augmente 2 1 1 !  Approches alternatives
rapidement avec le nombre d’UTOs 3 3 1 "  Maximum de parcimonie
4 15 3 Séquences
(séquences). 5 105 15 "  Distance non
"  Dans les exemples qui précèdent nous 6 945 105 "  Maximum de vraisemblance alignées
7 10,395 945
avons analysé 4 séquences. 8 135,135 10,395
"  Pour analyser ne fût-ce que 20
9 2,027,025 135,135 Alignement
10 3.45E+07 2,027,025
séquences, on se trouve confronté à un de séquences
11 6.55E+08 3.45E+07
nombre astronomique de possibilités. 12 1.37E+10 6.55E+08
13 3.16E+11 1.37E+10
!  La parcimonie repose intrinsèquement sur 14 7.91E+12 3.16E+11 Séquences
15 2.13E+14 7.91E+12 alignées
une hypothèse de l horloge moléculaire => 16 6.19E+15 2.13E+14
suppose que toutes les branches ont 17 1.92E+17 6.19E+15
évolué avec la même vitesse. 18 6.33E+18 1.92E+17
Grand nb de
19 2.22E+20 6.33E+18 Forte oui non Maximum
!  Cette méthode fonctionne seulement avec 20 8.20E+21 2.22E+20 séquences
similarité ? de parsimonie
les séquences très conservées. (> 20) ?
(2n ! 3)! NU =
(2n ! 5)!
NR =
2 n!2 ( n ! 2 )! 2 n!3 ( n ! 3)! non oui

Similarité oui
Distance
claire ??

53 !  Source: Mount (2000) 54


Méthodes basées sur les distances Matrice de distance
!  En partant d’un alignement multiple, on !  La matrice ci-dessous indique la distance entre paires d’homosérine succinyltransférases bactériennes.
calcule la distance entre chaque paire de !  La matrice est par définition symétrique (le triangle inférieur gauche contient la même information que le
séquences. supérieur droit).
Séquences La diagonale ne contient que des 0 (la distance entre une séquence et elle-même est nulle, par
!  On calcule ensuite un arbre qui correspond
! 
alignées définition).
aussi bien que possible aux distances au
sein de la matrice.
"  Les longueurs de branches devraient
Calcul des
correspondre aux distances de la distances
matrice.
"  Enraciné ou non.

!  Plusieurs méthodes peuvent être utilisées Matrice de


pour calculer un arbre à partir d’une distances
matrice de distances
"  Fitch-Margoliah

"  Neighbour-Joining Calcul


de l’arbre
"  UPGMA

Arbre

55 56

Matrice de pourcentages d’identité (opsines mammaliennes, export de clustalx) Principe de la construction de l’arbre
Matrice de distance !  Le clustering hiérarchique est une méthode de clustering
agrégative.

séquence 1

séquence 2

séquence 3

séquence 4

séquence 5
"  Prend une matrice de distance en entrée

"  Regroupe progressivement les objets en allant des

plus proches aux plus distants.


!  Il existe plusieurs possibilités pour établir une règle
séquence 1 0.00 4.00 6.00 3.50 1.00 d’agglomération, qui définit la distance entre deux
séquence 2 4.00 0.00 6.00 2.00 4.50 groupes.
séquence 3 6.00 6.00 0.00 5.50 6.50 "  Liaison simple (single linkage): distance entre

séquence 4 3.50 2.00 5.50 0.00 4.00 groupes A et B est la distance entre les plus proches
séquence 5 1.00 4.50 6.50 4.00 0.00 de leurs éléments respectifs.
"  Liaison moyenne (average linkage): distance

moyenne entre tous les objets des deux groupes


Arbre (=UPGMA).
"  Liaison complète (complete linkage): distance entre
Branchement les éléments les plus éloignés des groupes A et B.
(nœud interne) c1 Séquence 1 !  Algorithme
"  1. Assigner chaque objet à un cluster séparé.
c3 Séquence 5 "  2. Identifier la paire de clusters les plus proches, et
les regrouper en un seul.
c4 Séquence 4 "  3. Répéter la seconde étape jusqu’à ce qu’il ne reste

c2 qu’un seul cluster.


Séquence 2 !  Le résultat est un arbre, dont les nœuds intermédiaires
correspondent aux clusters.
racine Séquence 3 "  N objets → N-1 nœuds intermédiaires

!  Les longueurs des branches représentent les distances


Feuilles entre clusters.
57
(nœuds externes) 58

Isomorphisme sur un arbre Calcul de la distance sur un arbre

!  Dans un arbre, les deux enfants de


chaque branche peuvent être Arbre enraciné
interchangés. Arbre non-enraciné

branchement !  Le résultat est un arbre branchement seq5


c1 Feuille 1 b1 seq5
isomorphique, considéré équivalent à b1
c3
Feuille 5 l’arbre initial. seq1
b3 seq1
Feuille 4 !  Les deux arbres de cauche sont Arbre
c4 seq4
c2 équivalents. b4 b3 seq4 non-enraciné
Feuille 2 b2 seq5 seq1
!  Cependant seq2 b2
seq2
racine Feuille 3 "  Arbre du dessus: les feuilles 1 et 2
racine seq3 b1
sont très éloignées. seq3
branchement Feuille 5 "  Arbre du dessous: les feuilles 1 et 2
c1 feuilles
sont voisines. b3
c3
Feuille 1
!  Les distances verticales entre deux

c4
Feuille 2 nœuds ne reflètent pas leur distance
c2 réelle ! La distance entre deux nœuds est la
Feuille 4 ! 
b2
!  La distance entre deux nœuds est la somme des longueurs des branches qui
racine Feuille 3 somme des longueurs des brachnes les séparent.
qui les séparent. seq3
seq2 seq4
59 60
0.05
Méthodes pour calculer des arbres à partir de matrices de distances Exemple: opsines de mammifères LW_Canis_familiaris
LW_Delphinus_delphis
LW_Phocoenoides_phocoena
LW_Tursiops_truncatus
LW_Globicephala_melas
!  Il n’est généralement pas possible de trouver un arbre dont les longueurs des branches !  Cet arbre représente les relations entre opsines MW_Odocoileus_virginianus
MW_Sus_scrofa
correspondent exactement à toutes les valeurs de la matrice de distances. de mammifères. LW_Capra_hircus
!  Méthode: LW_Bos_taurus
!  Plusieurs méthodes existent pour calculer un arbre qui approxime ces distances. LW_Equus_caballus
"  Neighbour-Joining (implémentée dans LW_Felis_catus
LW_Pagophilus_groenlandicus
ClustalX). LW_Phoca_vitulina
!  Unweighted Pair-Group Method by arithmetic Averaging (UPGMA) "  Dessin avec njplot (distribué avec le package
MW_Sciurus_carolinensis
MW_Oryctolagus_cuniculus
"  Regroupe les séquences par ordre de distance dans la matrice ClustalX). MW_Cavia_porcellus
MW_Rattus_norvegicus
MW_Mus_musculus
"  Produit un arbre enraciné MW_Callithrix_jacchus
LW_Homo_sapiens
"  Les distances sont ultramétriques: elles s’approchent autant que possible des MW_Homo_sapiens
distances de la matrice. LW_Didelphis_aurita
LW_Isoodon_obesulus
LW_Myrmecobius_fasciatus
"  Points faibles: MW_Macropus_eugenii
LW_Cercartetus_concinnus
•  Repose sur l’hypothèse d’horloge moléculaire LW_Tarsipes_rostratus
LW_Tachyglossus_aculeatus
•  Les longues branches (correspondant parfois à des évolutions rapides) sont LW_Ornithorhynchus_anatinus
SW_Thylamys_elegans
considérées comme outgroups. SW_Didelphis_aurita
SW_Sminthopsis_crassicaudata
!  Neighbour-Joining (NJ) SW_Tarsipes_rostratus
SW_Isoodon_obesulus
"  Minimise la somme des longueurs de branches de l’arbre résultant. SW_Setonix_brachyurus
SW_Macropus_eugenii
"  Ne repose pas sur une hypothèse d’horloge moléculaire SW_Saimiri_bolivensis
SW_Pan_troglodytes
"  Retourne un arbre non-enraciné SW_Pan_paniscus
SW_human
"  Approprié quand certaines des séquences évoluent plus vite que d’autres. SW_Bos_taurus
SW_Daubentonia_madagascariensis
SW_Myotis_ricketti
!  Méthode de Fitch-Margoliah SW_Myotis_laniger
SW_Rattus_norvegicus
"  Minimise la somme des carrés entre distances de la matrice et distances dans l’arbre. SW_mouse
SW_Tachyglossus_aculeatus
SW_Ornithorhynchus_anatinus
61 62

Exemple: homoserine-O-succinyltransferases 0.1 Méthodes basées sur la distance pour intérer des arbres dans la suite PHYLIP
0.383
0.116 sw|P08497|LPA2_BACSU
0.242
sw|P00562|AK2H_ECOLI
0.353
sw|Q9ZCI7|AK_RICPR
!  Cet arbre représente les relations entre 0.318
sw|Q04795|AK1_BACSU !  Résumé des méthodes d’inférence d’arbre implémentées dans PHYLIP.
homoserine-O-succinyltransferasesin de divers 0.030 0.265 sw|P61489|AK_THETH
organismes. sw|P61488|AK_THET2 !  Note: le temps de calcul augmente drastiquement quand on passe de méthodes
0.053 sw|P41403|AK_MYCSM
!  Méthode: 0.010
0.014
0.079
0.063 sw|P0A4Z8|AK_MYCTU
de voisinage (NJ, UPGMA: temps quadratique) aux méthodes de kitsch ou fitch
"  Neighbour-Joining (implémentée dans
0.125 sw|P0A4Z9|AK_MYCBO
0.025
(puissance 4 de la longueur des séquences).
sw|Q8RQN1|AK_COREF
ClustalX). 0.111
sw|P26512|AK_CORGL
0.043 0.020
"  Dessin avec njplot (distribué avec le package sw|P41398|AK_CORFL
0.135
ClustalX). 0.116 0.136
sw|P53553|AK2_BACST
0.009 sw|P08495|AK2_BACSU
"  Les étiquettes des branches indiquent leur 0.134
sw|Q59229|AK2_BACSG
longueur. 0.242 sw|O25827|AK_HELPY
0.008
0.229
sw|Q9ZJZ7|AK_HELPJ
sw|O69077|AK_PSEAE
Phylip method rooted time accuracy remarks
0.019
0.226
0.234
sw|O67221|AK_AQUAE program tree
0.148
0.226
sw|P10869|AK_YEAST
sw|O60163|AK_SCHPO fitch Fitch-Margoliah no O(n^4) higher loss of accuracy when
0.009 0.309
0.008 0.159
sw|Q57991|AK_METJA the tree contains long
sw|P37142|AKH_DAUCA
0.0150.188
0.070
0.098
sw|P49080|AKH2_MAIZE branches
0.091
sw|P49079|AKH1_MAIZE
0.015
0.033
0.267
0.164
sw|Q89AR4|AKH_BUCBP kitsch Fitch-Margoliah yes O(n^4) higher
sw|Q8K9U9|AKH_BUCAP
0.047 0.074
0.086
0.160
sw|P57290|AKH_BUCAI neighbor neighbour-joining no O(n^2) lower suitable when rate of
evolution varies
0.201
sw|P44505|AKH_HAEIN
0.059 0.073
0.118 sw|P27725|AK1H_SERMA
0.071 sw|P00561|AK1H_ECOLI among branches
0.409
0.329
sw|P94417|AK3_BACSU
sw|P08660|AK3_ECOLI
neighbor UPGMA yes O(n^2) lower assumes constant
0.034
0.070
0.289
0.116
sw|Q9Z6L0|AK_CHLPN rate of evolution along
the banches
0.171 sw|O84367|AK_CHLTR
0.121
sw|Q9PK32|AK_CHLMU

63 64

Bootstrapping 0.1
Bootstrapping 0.05
sw|P08497|LPA2_BACSU LW_Canis_familiaris
sw|P00562|AK2H_ECOLI LW_Delphinus_delphis
527
1000 LW_Phocoenoides_phocoena
!  Dans certains cas, les données ne sw|Q9ZCI7|AK_RICPR !  Le phylogramme permet d’identifier les 371
943
LW_Tursiops_truncatus
sw|Q04795|AK1_BACSU 409
LW_Globicephala_melas
permettent pas d’inférer la phylogénie de 788 sw|P61489|AK_THETH
relations entre longueurs des branches et MW_Odocoileus_virginianus
1000
528 MW_Sus_scrofa
façon fiable. sw|P61488|AK_THET2 valeurs de bootstrap. 691
377 416LW_Capra_hircus
sw|P41403|AK_MYCSM 993LW_Bos_taurus
!  Pour évaluer la fiabilité de l’inférence, on 509
677
1000
sw|P0A4Z8|AK_MYCTU
!  Les valeurs de bootstrap sont cependant LW_Equus_caballus
peut appliquer la méthode du 1000 sw|P0A4Z9|AK_MYCBO moins faciles à lire que sur un cladogramme 529685 LW_Felis_catus
LW_Pagophilus_groenlandicus
1000
bootstrapping. sw|Q8RQN1|AK_COREF (où toutes les branches ont la même 1000 LW_Phoca_vitulina
MW_Sciurus_carolinensis
"  Étant donné un alignement de N 992
1000 sw|P26512|AK_CORGL
1000
sw|P41398|AK_CORFL
longueur). 998 580 MW_Oryctolagus_cuniculus
250 MW_Cavia_porcellus
séquences et M colonnes, on effectue 338 1000
sw|P53553|AK2_BACST 528 MW_Rattus_norvegicus
1000 MW_Mus_musculus
une sélection aléatoire de M colonnes 996 686
sw|P08495|AK2_BACSU MW_Callithrix_jacchus
sw|Q59229|AK2_BACSG 999 LW_Homo_sapiens
avec remise. Certaines colonnes sont 304
1000 sw|O25827|AK_HELPY
506 MW_Homo_sapiens
LW_Didelphis_aurita
donc tirées plusieurs fois, et d’autres sw|Q9ZJZ7|AK_HELPJ 983
LW_Isoodon_obesulus
552
aucune fois. 766
sw|O69077|AK_PSEAE 523LW_Myrmecobius_fasciatus
351 MW_Macropus_eugenii
sw|O67221|AK_AQUAE
658 LW_Cercartetus_concinnus
"  On calcule un arbre avec les colonnes
1000
1000 sw|P10869|AK_YEAST 924 LW_Tarsipes_rostratus
échantillonnées. sw|O60163|AK_SCHPO LW_Tachyglossus_aculeatus
821 LW_Ornithorhynchus_anatinus
sw|Q57991|AK_METJA
"  On répète l’opération un bon nombre 462
221 794 SW_Thylamys_elegans
sw|P37142|AKH_DAUCA 1000 994 SW_Didelphis_aurita
1000
de fois (1000), et on compte le nombre 342
sw|P49080|AKH2_MAIZE SW_Sminthopsis_crassicaudata
1000 454 SW_Tarsipes_rostratus
de fois où chaque branchement de sw|P49079|AKH1_MAIZE
sw|Q89AR4|AKH_BUCBP
576 SW_Isoodon_obesulus
438 SW_Setonix_brachyurus
l’arbre original se reproduit. 912 994
sw|Q8K9U9|AKH_BUCAP
1000
998 SW_Macropus_eugenii
SW_Saimiri_bolivensis
1000 sw|P57290|AKH_BUCAI 734
SW_Pan_troglodytes
1000
sw|P44505|AKH_HAEIN 1000 SW_Pan_paniscus
1000
SW_human
1000 sw|P27725|AK1H_SERMA 829 SW_Bos_taurus
1000 sw|P00561|AK1H_ECOLI SW_Daubentonia_madagascariensis
240
sw|P94417|AK3_BACSU 248 SW_Myotis_ricketti
1000 SW_Myotis_laniger
sw|P08660|AK3_ECOLI 225
SW_Rattus_norvegicus
990 sw|Q9Z6L0|AK_CHLPN 996 SW_mouse
1000 sw|O84367|AK_CHLTR SW_Tachyglossus_aculeatus
1000 1000 SW_Ornithorhynchus_anatinus
sw|Q9PK32|AK_CHLMU
65 66
Inférence phylogénétique par comparaison de séquences Inférence phylogénétique par comparaison de séquences
!  Approches alternatives !  Approches alternatives
"  Maximum de parcimonie Séquences "  Maximum de parcimonie Séquences
"  Distance non "  Distance non
"  Maximum de vraisemblance alignées "  Maximum de vraisemblance alignées

Alignement Alignement
de séquences de séquences

Séquences Séquences
alignées alignées

oui Grand nb de non oui Grand nb de non


Forte Maximum Forte Maximum
séquences séquences
similarité ? de parsimonie similarité ? de parsimonie
(> 20) ? (> 20) ?

non oui non oui

Similarité oui Similarité oui


Distance Distance
claire ?? claire ??

non non

Maximum de Maximum de
vraisemblance vraisemblance

!  Source: Mount (2000) 67 !  Source: Mount (2000) 68

Remark: clustal’s guide tree is not a phylogenetic tree Attention: l’arbre-guide de clustal n’est pas une source fiable pour
inférer un scénario évolutif
!  Progressive multiple alignment relies on a distance matrix and a guide tree.
!  The matrix and tree are however distinct from those used in phylogeny inference.
!  Progressive alignment !  L’alignement multiple repose sur une matrice de distance et un arbre guide.
"  The matrix is built by doing pairwise alignments between each pair of sequences. !  La matrice et l’arbre sont cependant différents de ceux qu’on utilise pour inférer
"  The guide tree is built b UPGMA, branch lengths represent dissimilarities rather than la phylogénie.
evolutionary divergence.
!  Phylogeny inference with NJ
!  Alignement progressif
"  The matrix is built by computing the number of identical / distinct residues between
each sequence pair in a multiple alignment. "  La matrice est calculée sur base des alignements par paire entre chaque paire de
séquences.
"  The guide tree is built by NJ, it attempts to fit branch length to evolutionary divergence.
"  L’arbre-guide est construit par la méthode UPGMA.
"  Les longueurs des branches représentent le nombre de dissimilarités plutôt qu’une
divergence évolutive.
!  Inférence phylogénétique par Neighbour-Joining
"  La matrice est calculée en comptant le nombre de résidus identiques ou distincts entre
chaque paire de séquences au sein de l’alignement multiple.
"  L’arbre-guide est construit par NJ, une méthode qui vise à ajuster la longueur des
branches à la distance évolutive.

69 70

Différences entre arbre guide et arbre final (opsins, clustalx NJ)


0.05 0.05
Guide tree LW_Delphinus_delphis NJ tree LW_Canis_familiaris
LW_Phocoenoides_phocoena LW_Delphinus_delphis
LW_Tursiops_truncatus LW_Phocoenoides_phocoena
LW_Globicephala_melas LW_Tursiops_truncatus
MW_Odocoileus_virginianus LW_Globicephala_melas
MW_Sus_scrofa MW_Odocoileus_virginianus
LW_Capra_hircus MW_Sus_scrofa
LW_Bos_taurus LW_Capra_hircus
LW_Equus_caballus LW_Bos_taurus
LW_Felis_catus LW_Equus_caballus
LW_Pagophilus_groenlandicus LW_Felis_catus
LW_Phoca_vitulina LW_Pagophilus_groenlandicus
LW_Canis_familiaris LW_Phoca_vitulina
MW_Sciurus_carolinensis MW_Sciurus_carolinensis
MW_Oryctolagus_cuniculus MW_Oryctolagus_cuniculus
MW_Cavia_porcellus MW_Cavia_porcellus
MW_Rattus_norvegicus MW_Rattus_norvegicus
MW_Mus_musculus MW_Mus_musculus
MW_Callithrix_jacchus MW_Callithrix_jacchus

Travaux pratiques avec phylogeny.fr


LW_Homo_sapiens LW_Homo_sapiens
MW_Homo_sapiens MW_Homo_sapiens
LW_Didelphis_aurita LW_Didelphis_aurita
LW_Isoodon_obesulus LW_Isoodon_obesulus
LW_Myrmecobius_fasciatus LW_Myrmecobius_fasciatus
MW_Macropus_eugenii MW_Macropus_eugenii
LW_Cercartetus_concinnus LW_Cercartetus_concinnus
LW_Tarsipes_rostratus LW_Tarsipes_rostratus
LW_Tachyglossus_aculeatus LW_Tachyglossus_aculeatus
LW_Ornithorhynchus_anatinus LW_Ornithorhynchus_anatinus
SW_Thylamys_elegans SW_Thylamys_elegans
SW_Didelphis_aurita SW_Didelphis_aurita
SW_Sminthopsis_crassicaudata SW_Sminthopsis_crassicaudata
SW_Tarsipes_rostratus SW_Tarsipes_rostratus
SW_Isoodon_obesulus SW_Isoodon_obesulus
SW_Setonix_brachyurus SW_Setonix_brachyurus
SW_Macropus_eugenii SW_Macropus_eugenii
SW_Saimiri_bolivensis SW_Saimiri_bolivensis
SW_Daubentonia_madagascariensis SW_Pan_troglodytes
SW_Pan_troglodytes SW_Pan_paniscus
SW_Pan_paniscus SW_human
SW_human SW_Bos_taurus
SW_Bos_taurus SW_Daubentonia_madagascariensis
SW_Myotis_ricketti SW_Myotis_ricketti
SW_Myotis_laniger SW_Myotis_laniger
SW_Rattus_norvegicus SW_Rattus_norvegicus
SW_mouse SW_mouse
SW_Tachyglossus_aculeatus SW_Tachyglossus_aculeatus
SW_Ornithorhynchus_anatinus SW_Ornithorhynchus_anatinus
71
Phylogeny.fr Phylogeny.fr: sequences d’entrée

!  Deux sites Web !  L’option “one click” permet


"  Marseille http://www.phylogeny.fr d’effectuer l’analyse complète en
entrant simplement ses
"  Montpellier http://phylogeny.lirmm.fr/
séquences.
!  Une interface conviviale qui permet de faire tourner pas à pas les étapes de
l’inférence phylogénétiques, à partir d’un jeu de séquences non-alignées.
"  Pipeline complètement automatisé, ou sélection de paramètres spécifiques
"  Choix de méthodes alternatives pour chaque étape du pipeline.
"  Les résultats sont exportés en divers formats (pratique pour les utiliser dans d’autres
programmes).
"  Les résultats peuvent être affichées immédiatement ou communiqués par email.

73 74

Phylogeny.fr: work flow Phylogeny.fr – résultat de l’étape “Alignement”


!  A chaque étape du
pipeline, on peut
"  Contrôler les paramètres
utilisés
"  Choisir des paramètres
alternatifs
"  Exporer les résultats
intermédiaires et finaux
dans une variété de
formats.

75 76

Phylogeny.fr – arbre phylogénétique en format textuel Phylogeny.fr - Phylogramme

77 78
Phylogeny.fr – options d’affichage Phylogramme avec un groupe extérieur (outgroup = Bacillus),
enraciné de façon incorrecte (midpoint grouping)

79 80

Cladogram enraciné de façon incorrecte (midpoint) Phylogram enraciné avec un outgroup

81 82

Arbre phylogénique des opsines dans Ensembl (http://www.ensembl.org/ )

Pour approfondir

83
Further reading
!  Livres de référence
"  Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and
London.!
"  Mount, M. (2001) Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press,
New York.!
"  Pevzner, J. (2003) Bioinformatics and Functional Genomics. Wiley.!
•  + all his teaching material on http://pevsnerlab.kennedykrieger.org/bioinfo_course.htm!

!  Un article très didactique, en français, concernant l’interprétation des arbres phylogénétiques.!


"  Didier Casane & Patrick Laurenti (2012). Penser la biologie dans un cadre phylogénétique: l’exemple de
l’évolution des vertébrés. Médecine/Sciences.

Matériel obsolète

85

Organigramme de PHYLIP Taxonomie des bactéries comportant le gène metA (August 2004)

Bacteria Bacillales Bacillaceae Bacillus


Bootstrapping Distance calculation
aligned sequences protdist
Firmicutes Clostridia Clostridiales Clostridium
seqboot
dnadist
Lactococcus
Lactobacillales Streptococcaceae
distance matrix Streptococcus

Brucella
Parsimony Branch-and-bound Maximum likelihood Neighbor -joining UPGMA Fitch-Margoliash
protpars dnapenny dnaml neighbor neighbor fitch (unrooted) Alpha subdivision Rhizobiaceae group Rhizobium
dnapars protml (rooted) kitsch (rooted)
Sinorhizobium

Proteobacteria Epsilon subdivision Campylobacter group Campylobacter

tree Escherichia

Enterobacteriaceae Salmonella
retree consense Tree drawing Tree drawing
drawtree drawgram Gamma subdivision Yersinia

drawing of drawing of Vibrionaceae Vibrio


unrooted tree rooted tree
Thermotogae Thermotogae (class) Thermotogales Thermogata
87 88

Méthodes d’inférence d’arbres phylogéniques Modèles évolutifs

Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 89 Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 90

Vous aimerez peut-être aussi