Académique Documents
Professionnel Documents
Culture Documents
!
relations).
Catégories d’homologie
Représentations arborescentes
" Orthologues: caractères homologues dont le dernier ancêtre commun précède
immédiatement un événement de spéciation.
" Paralogues: caractères homologues dont le dernier ancêtre commun précède
immédiatement une duplication.
" Identification de ces types d’homologies sur un arbre réconcilié.
Poulet E E
! Adapté d’après Emese Meglézc Poulet 7 ! Source: Emese Meglézc 8
LW Felis catus
17 Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 18
Réconciliation de l’arbre moléculaire et de celui des espèces Rappel (chapitre « concepts ») - Réconciliation des arbres des
espèces et des molécules
! La réconciliation consiste à
comparer un arbre des Arbre des
molécules et un arbre des molécules
espèces pour identifier
l'événement évolutif (duplication
ou spéciation) qui a donné lieu
à chaque branchement d'une
famille de séquences
homologues.
! Sur la figure de droite, on a
Arbre des espèces
marqué d’un carré les
événements de duplication. Les
autres branchements résultent
de spéciations.
" Note: les conventions pour A1 AB1 B1 C1 B2 C2 C3
marquer les divergences
peuvent varier selon les
auteurs ou bases de A, B, C représentent les espèces
A1 AB1 B1 B2 C1 C2 C3
données.
A1 X O O O O O
2, 3, 3 les copies des gènes
AB1 X X X X X X
Spéciation
B1 O X P O P P
B2 O X P P O O Duplication
C1 O X O P P P
Transfert horizontal
C2 O X P O P P
C3 O X P O P P
! Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 19 20
Exercice – réconciliation des arbres (espèces et molécules) Exercice – réconciliation des arbres (espèces et molécules)
! Marquez les spéciations et les duplications sur l arbre et déterminez le type ! Marquez les spéciations et les duplications sur l arbre et déterminez le type
d’homologie entre d’homologie entre
" Seq1 et Seq2 " Seq1 et Seq2 paralogues
" Seq1 et Seq3 " Seq1 et Seq3 orthologues
" Seq1 et Seq4 " Seq1 et Seq4 orthologues
" Seq2 et Seq3 " Seq2 et Seq3 orthologues
" Seq2 et Seq4 " Seq2 et Seq4 orthologues
" Seq3 et Seq4 " Seq3 et Seq4 paralogues
Spéciation
Duplications
Exercice – réconciliation des arbres (espèces et molécules) Exercice – réconciliation des arbres (espèces et molécules)
! Marquez les spéciations et les duplications sur l arbre et déterminez le type ! Marquez les spéciations et les duplications sur l arbre et déterminez le type
d’homologie entre d’homologie entre
" Seq1 et Seq2 " Seq1 et Seq2 orthologues
" Seq1 et Seq3 " Seq1 et Seq3 paralogues
" Seq1 et Seq4 " Seq1 et Seq4 paralogues
" Seq2 et Seq3 " Seq2 et Seq3 paralogues
" Seq2 et Seq4 " Seq2 et Seq4 paralogues
" Seq3 et Seq4 " Seq3 et Seq4 orthologues
Duplication
Spéciations
A1 AB1 B1 C1 B2 C2 C3
A1 C3 C2 B2 C1 AB1 B1
26
! Exemples
Nb$arbres$ Nb$arbres$
n enracinés non-enracinés " Caractère: Taille de la patte postérieure gauche. Etat du caractère: 1,68 cm.
2 1 1
3 3 1 " Caractère: acide aminé à la position 68 du produit du gène CYTB. Etat de ce
4 15 3 caractère: alanine.
5 105 15
6 945 105
7 10,395 945
8 135,135 10,395
9 2,027,025 135,135
10 3.45E+07 2,027,025
11 6.55E+08 3.45E+07
12 1.37E+10 6.55E+08
13 3.16E+11 1.37E+10
14 7.91E+12 3.16E+11
15 2.13E+14 7.91E+12
16 6.19E+15 2.13E+14
17 1.92E+17 6.19E+15
18 6.33E+18 1.92E+17
19 2.22E+20 6.33E+18
20 8.20E+21 2.22E+20
(2n − 3)! NU =
(2n − 5)!
NR =
2 n−2 ( n − 2 )! 2 n−3 ( n − 3)!
27 28
29 30
Inférence phylogénétique par comparaison de séquences Maximum de parcimonie - Méthode
! Approches alternatives ! Principe:
" Maximum de parcimonie Séquences " Identifier la topologie T qui implique le plus petit nombre de changements évolutifs
" Distance non suffisant à rendre compte des différences observées entre les OTU étudiées.
" Maximum de vraisemblance alignées " Utilise des états de caractères discrets => L’arbre le plus parcimonieux => plus court
chemin conduisant aux états de caractères observés
Alignement
de séquences
! Algorithme
Séquences " Construction de tous les arbre possibles.
alignées " Pour chaque site (position de l’alignement), on compte le nombre de substitutions
nécessaires pour expliquer chaque arbre.
oui Grand nb de " On retient l’arbre qui nécessite le plus petit nombre de substitutions au total (en tenant
Forte non Maximum
similarité ?
séquences
de parsimonie
compte de tous les sites).
(> 20) ?
1 2 3 4 5 6 7 8 9
Matrice de caractères Déterminer toutes les topologies A A A G A G T T C A
Sites possibles B A G C C G T T C T
4 UTO => 3 arbres non racinés C A G A T A T C C A
1 2 3 4 5 6 7 8 9 D A G A G A T C C T
A A A G A G T T C A
B A G C C G T T C T
Séquences
C A G A T A T C C A
D A G A G A T C C T
33 34
topologie possible.
Séquences
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Déterminer toutes les topologies A A A G A G T T C A Étude du caractère n°1 A A A G A G T T C A
possibles B A G C C G T T C T B A G C C G T T C T
4 UTO => 3 arbres non racinés C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T
A C A B A B A A A C A A A B A A A B
C A A A A A A C
B D C D D B D C D D
Nb CE= 0 Nb CE= 0 Nb CE= 0
35 36
Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°2 A A A G A G T T C A Étude du caractère n°3 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T
A A G C A A G B A A G B A G A C A G C B A G C B
G G G G G G C C A A A A A C
B D C D D B D C D D
Nb CE= 1 Nb CE= 1 Nb CE= 1
37 38
B C A D Caractère variable mais non informatif: tous les scénarios « coûtent » 2 CE.
Caractère ne favorisant aucune topologie par rapport à une autre.
A G A C A G C B A G C B A G A C A G C B A G C B
C A A A A A C C A A A A A C
B D C D D B D C D D
Nb CE= 2 Nb CE= 2 Nb CE= 2 Nb CE= 2
39 40
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°4 A A A G A G T T C A Étude du caractère n°5 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T
A A T C A A C B A A C B A C A B A B
C G T G G T C C
B D C D D B D C D D
Nb CE= 3 Nb CE= 3 Nb CE= 3 Nb CE= ? Nb CE= ? Nb CE= ?
41 42
Maximum de parcimonie - Méthode Maximum parsimony
! For each column of the alignment, all
position 1 2 3 4 5 6 7 8 9 possible trees are evaluated and the tree
seq1 A A G A G T G C A with the smallest number of mutations is
seq2 A G C C G T G C G retained
1 2 3 4 5 6 7 8 9 seq3 A G A T A T C C A ! The trees which fit with the highest number
A G A C A G G B A G G B
seq 3 A A seq 4
seq 1G G seq 2
A A
G A A A A A C
B D C D D seq 4 A A seq 3
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°6 A A A G A G T T C A Étude du caractère n°7 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T
Caractère constant (même état de caractère chez tous les OTUs) Caractère variable et informatif
Caractère ne favorisant aucune topologie par rapport à une autre Caractère favorisant la première topologie par rapport aux deux autres
A T T C A T T B A T T B A T C C A T T B A T T B
T T T T T T C T C C C C C C
B D C D D B D C D D
Nb CE= 0 Nb CE= 0 Nb CE= 0 Nb CE= 1 Nb CE= 2 Nb CE= 2
45 46
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°8 A A A G A G T T C A Étude du caractère n°9 A A A G A G T T C A
B A G C C G T T C T B A G C C G T T C T
C A G A T A T C C A C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T
A C C C A C C B A C C B A C A B A B
C C C C C C C C
B D C D D B D C D D
Nb CE= 0 Nb CE= 0 Nb CE= 0 Nb CE= ? Nb CE= ? Nb CE= ?
47 48
Maximum de parcimonie - Méthode Maximum de parcimonie - Méthode
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Étude du caractère n°9 A A A G A G T T C A Bilan: A A A G A G T T C A
B A G C C G T T C T T1 = 0+1+2+3+1+0+1+0+2=10 B A G C C G T T C T
T2 = 0+1+2+3+2+0+2+0+1=11
C A G A T A T C C A T3 = 0+1+2+3+2+0+2+0+2=12 C A G A T A T C C A
D A G A G A T C C T D A G A G A T C C T
A A A C A A T B A A T B A C A B A B
T T A T T A C C
B D C D D B D C D D
Nb CE= 2 Nb CE= 1 Nb CE= 2 Nb CE= 10 Nb CE= 11 Nb CE= 12
49 50
Maximum de parcimonie – classification des sites Exemple d’arbre obtenu par maximum de parcimonie
! Caractère invariant: toutes les OTU possèdent le même état de caractères pour ! Protéines de E.coli contenant le
un site donné +-----------CYTR_ECOLI! domaine lacI-type HTH
+--------------------------6 !
! ! +--------EBGR_ECOLI!
" Arbre sans échelle, non enraciné
! +-13 ! " Gauche: représentation en format texte
! Caractère variable ! ! +-----CSCR_ECOLI!
! +-12 ! (output de protpars).
" Non informatif si les états de caractères à ce site ne favorisent aucune topologie ! ! +--IDNR_ECOLI!
" Bas: Visualisation par njplot
parmi l ensemble des topologies possibles ! +--5 !
! +--GNTR_ECOLI! (programme inclus dans la distribution
" Informatif si les états de caractères à ce site favorise une (ou plusieurs) topologie(s) +--4 !
! ! +-----MALI_ECOLI! de ClustalX).
parmi l ensemble des topologies possibles ! ! +-10 !
! ! ! ! +--TRER_ECOLI!
! ! +--------------9 +-14 !
! ! ! ! +--YCJW_ECOLI!
! ! ! ! !
! ! ! +--------LACI_ECOLI!
! +--------------8 !
+--2 ! +--FRUR_ECOLI!
! ! ! +-------15 !
! ! ! ! +--RAFR_ECOLI!
! ! +----------11 !
! ! ! +-----ASCG_ECOLI!
! ! +-----7 !
--1 ! ! +--GALS_ECOLI!
! ! +--3 !
! ! +--GALR_ECOLI!
! ! !
! +-----------------------------------------RBSR_ECOLI!
! !
+--------------------------------------------PURR_ECOLI!
!
remember: this is an unrooted tree!!
!
!
requires a total of 4095.000!
51 52
Similarité oui
Distance
claire ??
Arbre
55 56
Matrice de pourcentages d’identité (opsines mammaliennes, export de clustalx) Principe de la construction de l’arbre
Matrice de distance ! Le clustering hiérarchique est une méthode de clustering
agrégative.
séquence 1
séquence 2
séquence 3
séquence 4
séquence 5
" Prend une matrice de distance en entrée
séquence 4 3.50 2.00 5.50 0.00 4.00 groupes A et B est la distance entre les plus proches
séquence 5 1.00 4.50 6.50 4.00 0.00 de leurs éléments respectifs.
" Liaison moyenne (average linkage): distance
c4
Feuille 2 nœuds ne reflètent pas leur distance
c2 réelle ! La distance entre deux nœuds est la
Feuille 4 !
b2
! La distance entre deux nœuds est la somme des longueurs des branches qui
racine Feuille 3 somme des longueurs des brachnes les séparent.
qui les séparent. seq3
seq2 seq4
59 60
0.05
Méthodes pour calculer des arbres à partir de matrices de distances Exemple: opsines de mammifères LW_Canis_familiaris
LW_Delphinus_delphis
LW_Phocoenoides_phocoena
LW_Tursiops_truncatus
LW_Globicephala_melas
! Il n’est généralement pas possible de trouver un arbre dont les longueurs des branches ! Cet arbre représente les relations entre opsines MW_Odocoileus_virginianus
MW_Sus_scrofa
correspondent exactement à toutes les valeurs de la matrice de distances. de mammifères. LW_Capra_hircus
! Méthode: LW_Bos_taurus
! Plusieurs méthodes existent pour calculer un arbre qui approxime ces distances. LW_Equus_caballus
" Neighbour-Joining (implémentée dans LW_Felis_catus
LW_Pagophilus_groenlandicus
ClustalX). LW_Phoca_vitulina
! Unweighted Pair-Group Method by arithmetic Averaging (UPGMA) " Dessin avec njplot (distribué avec le package
MW_Sciurus_carolinensis
MW_Oryctolagus_cuniculus
" Regroupe les séquences par ordre de distance dans la matrice ClustalX). MW_Cavia_porcellus
MW_Rattus_norvegicus
MW_Mus_musculus
" Produit un arbre enraciné MW_Callithrix_jacchus
LW_Homo_sapiens
" Les distances sont ultramétriques: elles s’approchent autant que possible des MW_Homo_sapiens
distances de la matrice. LW_Didelphis_aurita
LW_Isoodon_obesulus
LW_Myrmecobius_fasciatus
" Points faibles: MW_Macropus_eugenii
LW_Cercartetus_concinnus
• Repose sur l’hypothèse d’horloge moléculaire LW_Tarsipes_rostratus
LW_Tachyglossus_aculeatus
• Les longues branches (correspondant parfois à des évolutions rapides) sont LW_Ornithorhynchus_anatinus
SW_Thylamys_elegans
considérées comme outgroups. SW_Didelphis_aurita
SW_Sminthopsis_crassicaudata
! Neighbour-Joining (NJ) SW_Tarsipes_rostratus
SW_Isoodon_obesulus
" Minimise la somme des longueurs de branches de l’arbre résultant. SW_Setonix_brachyurus
SW_Macropus_eugenii
" Ne repose pas sur une hypothèse d’horloge moléculaire SW_Saimiri_bolivensis
SW_Pan_troglodytes
" Retourne un arbre non-enraciné SW_Pan_paniscus
SW_human
" Approprié quand certaines des séquences évoluent plus vite que d’autres. SW_Bos_taurus
SW_Daubentonia_madagascariensis
SW_Myotis_ricketti
! Méthode de Fitch-Margoliah SW_Myotis_laniger
SW_Rattus_norvegicus
" Minimise la somme des carrés entre distances de la matrice et distances dans l’arbre. SW_mouse
SW_Tachyglossus_aculeatus
SW_Ornithorhynchus_anatinus
61 62
Exemple: homoserine-O-succinyltransferases 0.1 Méthodes basées sur la distance pour intérer des arbres dans la suite PHYLIP
0.383
0.116 sw|P08497|LPA2_BACSU
0.242
sw|P00562|AK2H_ECOLI
0.353
sw|Q9ZCI7|AK_RICPR
! Cet arbre représente les relations entre 0.318
sw|Q04795|AK1_BACSU ! Résumé des méthodes d’inférence d’arbre implémentées dans PHYLIP.
homoserine-O-succinyltransferasesin de divers 0.030 0.265 sw|P61489|AK_THETH
organismes. sw|P61488|AK_THET2 ! Note: le temps de calcul augmente drastiquement quand on passe de méthodes
0.053 sw|P41403|AK_MYCSM
! Méthode: 0.010
0.014
0.079
0.063 sw|P0A4Z8|AK_MYCTU
de voisinage (NJ, UPGMA: temps quadratique) aux méthodes de kitsch ou fitch
" Neighbour-Joining (implémentée dans
0.125 sw|P0A4Z9|AK_MYCBO
0.025
(puissance 4 de la longueur des séquences).
sw|Q8RQN1|AK_COREF
ClustalX). 0.111
sw|P26512|AK_CORGL
0.043 0.020
" Dessin avec njplot (distribué avec le package sw|P41398|AK_CORFL
0.135
ClustalX). 0.116 0.136
sw|P53553|AK2_BACST
0.009 sw|P08495|AK2_BACSU
" Les étiquettes des branches indiquent leur 0.134
sw|Q59229|AK2_BACSG
longueur. 0.242 sw|O25827|AK_HELPY
0.008
0.229
sw|Q9ZJZ7|AK_HELPJ
sw|O69077|AK_PSEAE
Phylip method rooted time accuracy remarks
0.019
0.226
0.234
sw|O67221|AK_AQUAE program tree
0.148
0.226
sw|P10869|AK_YEAST
sw|O60163|AK_SCHPO fitch Fitch-Margoliah no O(n^4) higher loss of accuracy when
0.009 0.309
0.008 0.159
sw|Q57991|AK_METJA the tree contains long
sw|P37142|AKH_DAUCA
0.0150.188
0.070
0.098
sw|P49080|AKH2_MAIZE branches
0.091
sw|P49079|AKH1_MAIZE
0.015
0.033
0.267
0.164
sw|Q89AR4|AKH_BUCBP kitsch Fitch-Margoliah yes O(n^4) higher
sw|Q8K9U9|AKH_BUCAP
0.047 0.074
0.086
0.160
sw|P57290|AKH_BUCAI neighbor neighbour-joining no O(n^2) lower suitable when rate of
evolution varies
0.201
sw|P44505|AKH_HAEIN
0.059 0.073
0.118 sw|P27725|AK1H_SERMA
0.071 sw|P00561|AK1H_ECOLI among branches
0.409
0.329
sw|P94417|AK3_BACSU
sw|P08660|AK3_ECOLI
neighbor UPGMA yes O(n^2) lower assumes constant
0.034
0.070
0.289
0.116
sw|Q9Z6L0|AK_CHLPN rate of evolution along
the banches
0.171 sw|O84367|AK_CHLTR
0.121
sw|Q9PK32|AK_CHLMU
63 64
Bootstrapping 0.1
Bootstrapping 0.05
sw|P08497|LPA2_BACSU LW_Canis_familiaris
sw|P00562|AK2H_ECOLI LW_Delphinus_delphis
527
1000 LW_Phocoenoides_phocoena
! Dans certains cas, les données ne sw|Q9ZCI7|AK_RICPR ! Le phylogramme permet d’identifier les 371
943
LW_Tursiops_truncatus
sw|Q04795|AK1_BACSU 409
LW_Globicephala_melas
permettent pas d’inférer la phylogénie de 788 sw|P61489|AK_THETH
relations entre longueurs des branches et MW_Odocoileus_virginianus
1000
528 MW_Sus_scrofa
façon fiable. sw|P61488|AK_THET2 valeurs de bootstrap. 691
377 416LW_Capra_hircus
sw|P41403|AK_MYCSM 993LW_Bos_taurus
! Pour évaluer la fiabilité de l’inférence, on 509
677
1000
sw|P0A4Z8|AK_MYCTU
! Les valeurs de bootstrap sont cependant LW_Equus_caballus
peut appliquer la méthode du 1000 sw|P0A4Z9|AK_MYCBO moins faciles à lire que sur un cladogramme 529685 LW_Felis_catus
LW_Pagophilus_groenlandicus
1000
bootstrapping. sw|Q8RQN1|AK_COREF (où toutes les branches ont la même 1000 LW_Phoca_vitulina
MW_Sciurus_carolinensis
" Étant donné un alignement de N 992
1000 sw|P26512|AK_CORGL
1000
sw|P41398|AK_CORFL
longueur). 998 580 MW_Oryctolagus_cuniculus
250 MW_Cavia_porcellus
séquences et M colonnes, on effectue 338 1000
sw|P53553|AK2_BACST 528 MW_Rattus_norvegicus
1000 MW_Mus_musculus
une sélection aléatoire de M colonnes 996 686
sw|P08495|AK2_BACSU MW_Callithrix_jacchus
sw|Q59229|AK2_BACSG 999 LW_Homo_sapiens
avec remise. Certaines colonnes sont 304
1000 sw|O25827|AK_HELPY
506 MW_Homo_sapiens
LW_Didelphis_aurita
donc tirées plusieurs fois, et d’autres sw|Q9ZJZ7|AK_HELPJ 983
LW_Isoodon_obesulus
552
aucune fois. 766
sw|O69077|AK_PSEAE 523LW_Myrmecobius_fasciatus
351 MW_Macropus_eugenii
sw|O67221|AK_AQUAE
658 LW_Cercartetus_concinnus
" On calcule un arbre avec les colonnes
1000
1000 sw|P10869|AK_YEAST 924 LW_Tarsipes_rostratus
échantillonnées. sw|O60163|AK_SCHPO LW_Tachyglossus_aculeatus
821 LW_Ornithorhynchus_anatinus
sw|Q57991|AK_METJA
" On répète l’opération un bon nombre 462
221 794 SW_Thylamys_elegans
sw|P37142|AKH_DAUCA 1000 994 SW_Didelphis_aurita
1000
de fois (1000), et on compte le nombre 342
sw|P49080|AKH2_MAIZE SW_Sminthopsis_crassicaudata
1000 454 SW_Tarsipes_rostratus
de fois où chaque branchement de sw|P49079|AKH1_MAIZE
sw|Q89AR4|AKH_BUCBP
576 SW_Isoodon_obesulus
438 SW_Setonix_brachyurus
l’arbre original se reproduit. 912 994
sw|Q8K9U9|AKH_BUCAP
1000
998 SW_Macropus_eugenii
SW_Saimiri_bolivensis
1000 sw|P57290|AKH_BUCAI 734
SW_Pan_troglodytes
1000
sw|P44505|AKH_HAEIN 1000 SW_Pan_paniscus
1000
SW_human
1000 sw|P27725|AK1H_SERMA 829 SW_Bos_taurus
1000 sw|P00561|AK1H_ECOLI SW_Daubentonia_madagascariensis
240
sw|P94417|AK3_BACSU 248 SW_Myotis_ricketti
1000 SW_Myotis_laniger
sw|P08660|AK3_ECOLI 225
SW_Rattus_norvegicus
990 sw|Q9Z6L0|AK_CHLPN 996 SW_mouse
1000 sw|O84367|AK_CHLTR SW_Tachyglossus_aculeatus
1000 1000 SW_Ornithorhynchus_anatinus
sw|Q9PK32|AK_CHLMU
65 66
Inférence phylogénétique par comparaison de séquences Inférence phylogénétique par comparaison de séquences
! Approches alternatives ! Approches alternatives
" Maximum de parcimonie Séquences " Maximum de parcimonie Séquences
" Distance non " Distance non
" Maximum de vraisemblance alignées " Maximum de vraisemblance alignées
Alignement Alignement
de séquences de séquences
Séquences Séquences
alignées alignées
non non
Maximum de Maximum de
vraisemblance vraisemblance
Remark: clustal’s guide tree is not a phylogenetic tree Attention: l’arbre-guide de clustal n’est pas une source fiable pour
inférer un scénario évolutif
! Progressive multiple alignment relies on a distance matrix and a guide tree.
! The matrix and tree are however distinct from those used in phylogeny inference.
! Progressive alignment ! L’alignement multiple repose sur une matrice de distance et un arbre guide.
" The matrix is built by doing pairwise alignments between each pair of sequences. ! La matrice et l’arbre sont cependant différents de ceux qu’on utilise pour inférer
" The guide tree is built b UPGMA, branch lengths represent dissimilarities rather than la phylogénie.
evolutionary divergence.
! Phylogeny inference with NJ
! Alignement progressif
" The matrix is built by computing the number of identical / distinct residues between
each sequence pair in a multiple alignment. " La matrice est calculée sur base des alignements par paire entre chaque paire de
séquences.
" The guide tree is built by NJ, it attempts to fit branch length to evolutionary divergence.
" L’arbre-guide est construit par la méthode UPGMA.
" Les longueurs des branches représentent le nombre de dissimilarités plutôt qu’une
divergence évolutive.
! Inférence phylogénétique par Neighbour-Joining
" La matrice est calculée en comptant le nombre de résidus identiques ou distincts entre
chaque paire de séquences au sein de l’alignement multiple.
" L’arbre-guide est construit par NJ, une méthode qui vise à ajuster la longueur des
branches à la distance évolutive.
69 70
73 74
75 76
77 78
Phylogeny.fr – options d’affichage Phylogramme avec un groupe extérieur (outgroup = Bacillus),
enraciné de façon incorrecte (midpoint grouping)
79 80
81 82
Pour approfondir
83
Further reading
! Livres de référence
" Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and
London.!
" Mount, M. (2001) Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press,
New York.!
" Pevzner, J. (2003) Bioinformatics and Functional Genomics. Wiley.!
• + all his teaching material on http://pevsnerlab.kennedykrieger.org/bioinfo_course.htm!
Matériel obsolète
85
Organigramme de PHYLIP Taxonomie des bactéries comportant le gène metA (August 2004)
Brucella
Parsimony Branch-and-bound Maximum likelihood Neighbor -joining UPGMA Fitch-Margoliash
protpars dnapenny dnaml neighbor neighbor fitch (unrooted) Alpha subdivision Rhizobiaceae group Rhizobium
dnapars protml (rooted) kitsch (rooted)
Sinorhizobium
tree Escherichia
Enterobacteriaceae Salmonella
retree consense Tree drawing Tree drawing
drawtree drawgram Gamma subdivision Yersinia
Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 89 Source: Zvelebil, M.J. and Baum, J.O. (2008) Understanding Bioinformatics. Garland Science, New York and London.! 90