Vous êtes sur la page 1sur 19

Phylognie

1 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

http://www.infobiogen.fr/doc/tutoriel/PHYLO
/phylogenie.html

1. L'volution selon Lamark


2. L'volution selon Darwin
3. Les concepts modernes
4. Evolution convergente vs volution divergente

II. LA PHYLOGENIE MOLECULAIRE


1.L'horloge molculaire
Dfinition
Arguments contre l'horloge molculaire
Conclusion
2. Mthodes de reconstruction
2.1 Fondes sur les distances
UPGMA
NJ
Mthodes drives
Corrections
2.2 Fondes sur les caractres
Parcimonie
Maximum de vraissemblance
2.3 Le boostrap
2.4 Enraciner un arbre
3. Recapitulatif

III. CONCLUSION

IV. BIBLIOGRAPHIE
I. INTRODUCTION
Depuis Darwin, il est communment admis que les tres vivants descendent tous les uns des autres.
22/05/2016 08:37

Phylognie

2 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Jusqu'aux annes 1960, les comparaisons entre des morphologies, des comportements et des rpartions
gographiques des espces taient les seuls moyens disponibles pour contruire des classifications
d'espces. La dcouverte que des protines homologues (ou acides nucliques) avaient des squences en
acides amins (ou en bases) qui variaient d'une espce l'autre a fourni un nouveau moyen d'tude : la
phylognie.

1. L'volution selon LAMARK (1744-1829)

Pour Lamark, l'volution tait due une adaptation continue au milieu ambiant : un environnement
changeant altre les besoins de l'organisme vivant qui s'adapte en modifiant son comportement et en
utilisant certains organes plus que d'autres.

Figure 1 : l'volution selon Lamark

2. L'volution selon Darwin (1809-1882)

La thorie dfendue par Darwin est l'volution par slection naturelle. Au sein d'une mme ligne, tous les
individus sont diffrents et la nature favorise la multiplication de ceux qui jouissent d'un quelconque
avantage.

22/05/2016 08:37

Phylognie

3 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Figure 2 : l'volution selon Darwin

3. Les concepts modernes : la thorie neutraliste vs la thorie


slectionniste
Quand les lois de la gntique ont t connues, il est n un paradoxe entre la slection (disparition de
certains caratres) et le polymorphisme gntique (variabilit). Il faut cependant rappeler que ce sont les
phenotypes qui se heurtent la pression de slection et non les gnotypes (avec le jeu des dominances et
rcessivits, un phenotype correspond plusieurs gnotypes).
Pour l'expliquer, 2 thories s'opposent : la thorie neutraliste et la thorie slectionniste.
La thorie neutraliste (Kimura)
La plupart des mutations restent neutres, se fixent au hasard (seules les mutations trs dfavorisantes ou
ltales pour l'individu sont limines) et le milieu n'a pas de rle slectif.
La thorie slectionniste
la plupart des nouveaux allles apparus par mutations se fixent dans les populations parce qu'ils sont
avantageux pour les porteurs dans le milieu o ils vivent (slection darwinienne).

4. Evolution convergente et volution divergente


L'volution convergente correspond des solutions trouves de manire indpendante chez des
organismes diffrents pour rsoudre le mme problme.
L'volution divergente correspond au contraire des protines ayant le mme anctre commun mais
qui se sont spcialises dans des fonctions diffrentes.
22/05/2016 08:37

Phylognie

4 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

II. LA PHYLOGENIE MOLECULAIRE


Cela correspond de la phylognie par comparaison de gnes [les gnes utiliss doivent tre choisis avec
soin : il faut que cela soit des gnes subissant de fortes contraintes fonctionnelles donc ayant un taux de
mutation faible. Un bon exemple est le cytochrome B intervenant dans les chaines d'oxydation cellulaire
de tous les tres vivants (les tres vivants actuels l'ont sans doute hrit d'un anctre commun il y a trois
milliards d'annes)].
Il y a cependant une accumulation des mutations au cours du temps et pour rendre compte de ce
phnomne, Zuckerland et Pauling (1962) ont dvelopp la thorie de l'horloge molculaire.

1. L'horloge molculaire

1.1 Dfinition

En rsum, on constate que le taux d'accumulation des mutations dans le gnome d'organismes diffrents
est du mme ordre de grandeur dans des rgions homologues (rgions soumises la mme pression de
slection).
L'accumulation sera maximale pour des rgions qui ne sont pas soumises la pression de slection
naturelle (ne codant pas pour des gnes) et minimale dans les parties du gnome soumises une forte
pression (c'est dire les rgions codant pour des fonctions essentielles la survie de l'organisme).
Chaque squence accumule les mutations un rythme qui lui est propre et qui est dict par l'intensit de la
pression de slection laquelle elle est soumise. Pour reconstituer des phylognies (dater la divergence
entre deux espces), on peut utiliser diffrentes molcules comme on utilise les aiguilles d'une montre pour
calibrer l'horloge :
- la trotteuse des secondes (taux de mutation important, par exemple un pseudogne) pour des vnements
rcents (tudes des sous populations au sein d'une espce).
- l'aiguille des minutes (taux de mutation moyen, par exemple le cytochrome C) pour l'analyse d'un pass
proche.
- l'aiguille des heures (taux de mutations faible : les histones) pour l'tude d'un pass lointain.
La vitesse d'volution de la squence est du mme ordre de grandeur au sein d'une mme classe
fonctionnelle de protines et elle est diffrente pour des protines qui ont des fonctions diffrentes : la
vitesse d'volution de la srum albumine est toujours plus importante que celle du cytochrome C. Ces
diffrences de vitesse dpendent la fois de la probabilit qu'une substitution apparaisse et de sa
compatibilit avec la survie de l'organisme.
Si l'on admet cette thorie, et que l'on connat le taux d'accumulation des mutations, il est possible
d'estimer le temps de divergences d'espces en comparant leur diversit molculaire.

1.2 Arguments contre l'horloge molculaire

La thorie de l'horloge molculaire est remise en cause et plusieurs arguments ont t dvelopps :
- L'horloge molculaire ne serait pas constante (Goodman): les mutations avantageuses se fixeraient plus
rapidement lors de la formation de nouvelles espces.
- L'horloge molculaire serait pisodique (Gillepsie) et les mutations ne se produiraient pas de faon
indpendante au cours de l'volution: il y aurait des pisodes d'accumulation suivis d'arrts volutifs.

1.3 Conclusion

Bien que le dbat persiste, il semble que l'horloge molculaire fonctionne assez bien sur de longues
priodes volutives, pour des gnes ayant un taux de mutation relativement faible o mme si l'horloge ne
bat pas trs rgulirement, les ralentissements et les acclrations se compensent.
22/05/2016 08:37

Phylognie

5 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Il faut galement se mfier des estimations de temps de divergence bases sur un petit nombre de gnes.

2.Mthodes de reconstruction
Il existe deux grands types de mthodes permettant la reconstruction d'arbres phylogntiques :
- les mthodes bases sur les mesures de distances entre squences prises deux deux, c'est dire le
nombre de substitutions de nuclotides ou d'acides amins entre ces deux squences.
- les mthodes bases sur les caractres qui s'intressent au nombre de mutations (substitutions / insertions
/dltions) qui affectent chacun des sites (positions) de la squence.

2.1. Mthodes fondes sur les distances

Ce sont des mthodes de reconstruction d'arbre phylogntique sans racine base sur la recherche d'OTU
(operationnal taxonomic units, le plus souvent quivalent une squence) les plus proches et ceci
chaque tape de regroupement.
Ces mthodes sont rapides et donnent de bons rsultats pour des squences ayant une forte similarit.
Programmes DNADIST et PROTDIST de Phylip
UPGMA (Unweight Pair Group Method with Arithmetic mean)
Cette mthode est utilise pour reconstruire des arbres phylogntiques si les squences ne sont pas trop
divergentes.
UPGMA utilise un algorithme de clusterisation squentiel dans lequel les relations sont identifies dans
l'ordre de leur similarit et la reconstruction de l'arbre se fait pas pas grce cet ordre.
Il y a d'abord identification des deux squences les plus proches et ce groupe est ensuite trait comme un
tout, puis on recherche la squence la plus proche et ainsi de suite jusqu' ce qu'il n'y ait plus que deux
groupes.
Exemple
On considre la matrice de distances associ un groupe de 6 OTUs
B
C
D
E
F

A
2
4
6
6
8

4
6
6
8

6
6
8

4
8

On clusterise tout d'abord les deux OTUs avec la distance la plus faible (A et B). Le point de branchement
est positionn la distance 2/2=1.
On peut alors construire le sous arbre suivant :

Dans la suite, le cluster (A,B) est considr comme un tout et on peut calculer une nouvelle matrice de
distance :
dist(A,B),C = (distAC + distBC) / 2 = 4
dist(A,B),D = (distAD + distBD) / 2 = 6
dist(A,B),E = (distAE + distBE) / 2 = 6
dist(A,B),F = (distAF + distBF) / 2 = 8
22/05/2016 08:37

Phylognie

6 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Cycle 1

Cycle 2

Cycle 3

Cycle 4

Cycle 5

A
2
4
6
6
8

B
C
D
E
F
C
D
E
F
C
D,E
F

MATRICE

A,B
4
6
6
8

4
6
6
8

6
6
8

4
8

6
6
8

4
8

A,B
4
6
8

D,E
F

AB,C
6
8

C
6
8

ARBRE

D,E
8
D,E
8

ABC,DE
8
F

Cette mthode conduit essentiellement unn arbre non enracin. Si on veut enraciner l'arbre, on peut
appliquer la mthode du "mid-point rooting" : la racine de l'arbre est quidistance de tous les OTUs soit
(ABCDE),F / 2 = 4

Les inconvnients de la mthode UPGMA


L'inconvnient majeur est la sensibilit de la mthode des taux de mutations diffrents sur les diffrentes
branches
Supposons que l'on veuille reconstruire l'arbre suivant partir de la matrice de distances associe aux
squences :

22/05/2016 08:37

Phylognie

7 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Depuis que A et B ont diverg, B a accumul beaucoup plus de mutations que A

Cycle 1

Cycle 2

Cycle 3

Cycle 4

Cycle 5

A
5
4
7
6
8

B
C
D
E
F
B
D
E
F
B
D,E
F

MATRICE

A,C
4
7
6
8

7
10
9
11

7
6
8

5
9

A,C
6
6.5
8

D,E
F

10
9
11

5
8

AC,B
8
9.5

9.5
11

ARBRE

D,E
8.5
D,E
9.5

ABC,DE
9
F
Topologie Fausse !!

NJ(Neighbor-Joining)
Cette mthode dveloppe par Saitou et Nei (1987) tente de corriger la mthode UPGMA afin d'autoriser
22/05/2016 08:37

Phylognie

8 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

un taux de mutation diffrent sur les branches.


Les donnes initiales permettent de construire une matrice qui donne un arbre en toile. Cette matrice de
distances est ensuite corrige afin de prendre en compte la divergence moyenne de chacunes des
squences avec les autres.
L'arbre est alors reconstruit en reliant les squences les plus proches dans cette nouvelle matrice. Lorsque
deux squences sont lies, le noeud reprsentant leur anctre commun est ajout l'arbre tandis que les
deux feuilles sont enleves. Ce processus convertit l'anctre commun en un noeud terminal dans un arbre
de taille rduite.
Programme NEIGHBOR de Phylip
Exemple

La matrice de distance associe cet arbre est la suivante :


B
C
D
E
F

A
5
4
7
6
8

7
10
9
11

7
6
8

5
9

Etape 1 : calcul de la divergence de chacun des N OTUs par rapport aux autres (N= 6)
r (A) = 5+4+7+6+8 = 30
r(B) = 42
r(C) = 32
r(D) = 38
r (E) =34
r(F) = 44
Etape 2 : cacul de la nouvelle matrice en utilisant la formule
M(i,j) = d(ij) -[r(i) + r(j)] / (N-2)
ce qui donne pour la paire AB : M(AB) = 5 - [30 + 42] / 4 = -13
A
B
C
D
E
B -13
C -11.5 -11.5
D -10 -10 -10.5
E -10 -10 -10.5 -13
F -10.5 -10.5 -11 -11.5 -11.5
Ceci permet de construire l'arbre en toile suivant :
A
F
|
B
\
| /
\ | /
\ |/

22/05/2016 08:37

Phylognie

9 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

/|\
/ | \
/ | \
E
|
C
D

Etape 3 : Choix des plus proches voisins, c'est dire des deux OTUs ayant le M(i,j) le plus petit, donc soit
A et B soit D et E.
On prend A et B et on forme un nouveau noeud U et on calcule la longueur de la branche entre U et A
ainsi qu'entre U et B :
S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2) = 5/2 + [30-42] /2(6-4) = 1
S(BU) = d (AB) - S(AU) = 5 - 1 = 4
Etape 4 : on dfinit les nouvelles distances entre U et les autres OTUs
d (CU) = d(AC) + d (BC) - d(AB) / 2 = 3
d (DU) = d(AD) + d(BD) -d(AB) /2 = 6
d (EU) = d(AE) + d (BE) - d(AB) / 2 = 5
d (DU) = d(AF) + d(BF) -d(AB) /2 = 7
cration d'une nouvelle matrice :
C
D
E
F

U
3
6
5
7

7
6
8

5
9

Et d'un arbre en toile :


C
D
|
\
|
A
\__| ____1/
/ |
\
/ |
\4
E
F
\
B

La procdure complte repart de l'tape 1 avec N = N-1 = 5.


Mthodes drives des mthodes bases sur les distances
Dans ces mthodes, l'arbre slectionn est celui prsentant la somme des carrs des carts entre les
distances observes et les distances calcules la plus faible.
Il existe, dans Phylip, deux programmes utilisant ces mthodes :
FITCH : la longueur des branches n'est pas proportionnelle au temps coul et la racine n'est pas localise
dans l'arbre.
KITSCH : on fait l'hypothse que toutes les espces sont contemporaines et qu'il y a une horloge
molculaire. Cela signifie que les branches de l'arbre ne peuvent pas avoir une longueur arbitraire mais
sont proportionnelles au temps coul. Les arbres gnrs par cette mthode prsente une racine.
Les corrections

22/05/2016 08:37

Phylognie

10 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Si le temps de divergence entre deux squences augmente, la probabilit d'avoir une seconde mutation a
un site augmente galement. Ceci fait que le simple comptage des diffrences entre deux squences n'est
pas le reflet exact de la ralit mais sous-estime le nombre d'vnements mutationnels. On tente de
corriger ce biais en faisant des hypothses sur la faon dont les bases ou acides amins se sont subsitus
un locus donn. Les premiers avoir proposs une solution ce problme sont Jukes et Cantor en 1969.
Types de substitutions
On distingue diffrents types de substitution suivant les bases impliques.
Transitions :
A <-> G, C <-> T
Transversions :
A <-> C, A <-> T,
G <-> C, G <-> T
Lorsque l'on compare deux squences, on diffrencie aussi les substitutions selon leur ordre et leurs
consquences.

Substitution unique

Squence Squence
1
2
C

Substitutions
A
multiples
Substitutions
coincidentes au mme C -> A
site
Substitutions
T -> A
parallles
C -> T ->
Substitutions
convergentes
A
C -> T ->
Substitutions reverses
C

C -> A
A -> C ->
T

Nb de
substitutions
observes
1

Nb rel de
substitutions
1

C-> G

T -> A

C -> A

Exemples de corrections pour les substitutions multiples

- Correction de Jukes et Cantor (1969) : On fait l'hypothse que tous les sites sont quivalents (tous les
changements ont une probabillit gale mais elle varie au cours du temps), qu'il n'y a pas de biais dans la
direction du changement et qu'il n'y a eu ni insertions ni dltions. C'est l'hypothse la plus simple,mais pas
forcment la plus correcte.

22/05/2016 08:37

Phylognie

11 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

- Correction de Kimura ou 2 paramtres (1980) : ce modle est similaire au modle de Jukes-Cantor


mais on fait l'hypothse que le taux de transition est diffrent du taux de transversion. Ce modle a t
dvelopp suite l'obsevation que les transitions taient souvent beaucoup plus frquentes que les
transversions.
Si P est la frquence des transitions et Q la frquence des transversions :

avec

et

2.2. Mthodes fondes sur les caratres

Ces mthodes sont trs lentes mais elles sont prcises.


Parcimonie
La parcimonie consiste a minimiser le nombre de "pas" (mutations / substitutions) ncessaires pour passer
d'une squence une autre dans une topologie de l'arbre.
Pour cela, cette mthode s'appuie sur les hypothses suivantes :
- les sites voluent indpendemment les uns des autres (la squence peut tre considre comme une suite
de caractres non ordonns)
- la vitesse d'volution est lente et constante au cours du temps.
Cette mthode, quand elle est applique des squences protiques, utilise le code gntique pour
comptabiliser le nombre de substitutions ncessaires (changements de bases) pour passer d'un site l'autre
d'une squence l'autre.
La mthode de maximum de parcimonie recherche toutes les topologies possibles afin de trouver l'arbre
optimal (mimimum) et le temps ncessaire pour cette exploration croit rapidement avec le nombre de
squences :
le nombre d'arbres enracins possibles pour n OTUs : Nr = (2n - 3)! / (2exp(n-2))(n-2)!
le nombre d'arbres non enracins possibles pour n OTUs : Nu = (2n -5)! / (2exp(n-3))(n-3)!
Programme DNAPARS et PROTPARS de Phylip
Nombre
d'OTUs

Nb d'arbres
non
enracins

Nb d'arbres
enracins
possibles
22/05/2016 08:37

Phylognie

12 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

2
3
4
5

1
1
3

105

10 395

10
15

3
15

15

6
7

954

105

945

10 395

135 135

135 135

34 459 425

2.13 E15

8E21

34 459 425

2.13 E15

Exemple
Sequence 1 2 3 4 5 6 7 8 9
AAGAGTGCA
1
AGC CGTGCG
2
AGA TATCCA
3
AGAGATCCG
4
Pour 4 squences, il y a 3 arbres non enracins possibles. Ces trois arbres sont analyss (recherche de la
squence ancestrale et comptage du nombre de mutations)
(1) AAGAGTGCA
AGATATCCA (3)
\ 4
/ 2
\
4 /
AGCCGTGCG --- AGAGATCCG
/
\
/ 0
\ 0
(2) AGCCGTGCG
AGAGATCCG (4)

Nombre de mutations : 10

(1) AAGAGTGCA
AGCCGTGCG (2)
\ 1
/3
\
5
/
AGGAGTGCA --- AGAGGTCCG
/
\
/ 4
\1
(3) AGATATCCA
AGAGATCCG (4)

Nombre de mutations : 14

(1) AAGAGTGCA
AGCCGTGCG (2)
\ 1
/3
\
5
/
AGGAGTGCA --- AGATGTCCG
/
\
/ 5
\2
(4) AGAGATCCG
AGATATCCA (3)

Nombre de mutations : 16

L'arbre I est celui ncessitant le moins de mutations, c'est donc le plus parcimonieux.
Cette analyse prend en compte tous les sites des squences mais l'analyse peut galement se faire
uniquement sur les sites informatifs, c'est dire quand cette position il y a au moins 2 nuclotides
22/05/2016 08:37

Phylognie

13 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

diffrents, reprsents chacun dans au moins deux squences.


Squence 1 2 3 4 5 6 7 8 9
AAGAGTGCA
1
AGC CGTGCG
2
AGA TATCCA
3
AGAGATCCG
4
* * *
On peut donc "rduire" les squences aux seuls sites informatifs :
G
G
A
G
G
G
A
C
A
A
C
G
*
*
*
(1) GGA
ACA (3)
\1
/1
\
2
/
GGG - - - ACG
/0
\0
/
\
(2) GGG
ACG (4)
1
2
3
4

Nombre de mutations : 4

(1) GGA
GGG (2)
\1
/1
\
1
/
GGG - - - ACG
/1
\1
/
\
(3) ACA
ACG (4)

Nombre de mutations : 5

(1) GGA
ACA (2)
\2
/1
\
0
/
GGG - - - ACG
/1
\2
/
\
(4) ACG
ACA (3)

Nombre de mutations : 6

Dans le cas de 4 squences, un site informatif favorise seulement un arbre : le site 5 favorise l'arbre I plus
que les arbres II et III (il supporte l'arbre I). L'arbre le plus parcimonieux est celui qui est support par le
plus grand nombre de sites informatifs.
Le maximum de parcimonie recherche l'arbre optimal et dans ce processus, il est possible de trouver
plusieurs arbres optimaux (= arbres ex-aequo = configuration comptabilisant le mme nombre minimal de
substitutions ncessaires pour passeer d'une squence l'autre dans l'ensemble de l'arbre).
Afin de garantir de trouver l'arbre le meilleur possible, il faut faire une valuation de toutes les topologies
possibles mais cela devient impossible lorsque l'on a plus de 12 squences.
Branch and Bound : cette mthode est drive du maximum de parcimonie, elle garantit de trouver le
meilleur arbre mais sans valuer tous les arbres possibles. Elle permet de traiter un plus grand nombre de

22/05/2016 08:37

Phylognie

14 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

squences mais reste limite.

Recherche heuristique : il y a un rarrangement des branches chaque tape, cette mthode ne garantit
pas de trouver l'arbre optimal.
Arbre consensus : comme la mthode du maximum de parcimonie peut conduire trouver plusieurs
arbres quivalents, on peut crer un arbre consensus (avec utilisation du bootstraping). Cet arbre
consensus est construit partir des noeuds les plus frquemment rencontrs sur l'ensemble des arbres
possibles.

Avantages et inconvnients de la parcimonie


Avantages :
- Mthode base sur les caractres : mthode cladistique plutt que phntique.
- Mthode ne rduisant pas la squence un simple nombre.
- Mthode essayant de donner une information sur les squences ancestrales.
- Mthode valuant diffrents arbres.
Inconvnients :
- Mthode trs lente par rapport aux mthodes bases sur les distances.
- Mthode n'utilisant pas toute l'information disponible (seuls les sites informatifs sont pris en compte)
- Mthode ne faisant pas de corrections pour les substitutions multiples
- Mthode ne donnant aucune information sur la longueur des branches
- Mthode connue pour tre trs sensible au biais des codons
Maximum de vraissemblance
Cette mthode de reconstruction phylogntique value, en terme de probabilits, l'ordre des
branchements et la longueur des branches d'un arbre sous un modle volutif donn.
Programme DNAML de Phylip
Exemple
1
C
A
A

G
G
G

A
C
A

G
G
T

A
A
T

j
C
C
A
22/05/2016 08:37

Phylognie

15 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

A partir des 4 squences ci-dessus, on veut estimer la probabilit que l'arbre A soit le bon, sous le modle
choisi.
(1)
(2)
\
/
\
/
---------Arbre A
/
\
/
\
(3)
(4)
La vraissemblance de l'arbre est en gnral indpendante de la position de la racine, on peut donc
l'enraciner de manire arbitraire :
1
2 3
4
\ /
|
/
\/
|
/
\
| /
\ | /
\ |/
ACGT ?
La vraissemblance au site j :
C
C A
G
\ /
|
/
\/
|
/
ACGT? |
/
\
| /
\ | /
\ |/
ACGT ?
La vraissemblance pour un site j est la somme des probabilits de toutes les possiblits de reconstruction
de l'tat ancestral sous le modle choisi.
La vraissemblance de l'arbre A est en gnral value en sommant les logs des vraissemblances pour
chaque site (la somme des probabibilits est trop faible).
L'arbre du maximum de vraissemblance est celui avec la vraissemblance la plus leve.

Les modles volutifs


Les probabilits obtenues chaque site dpendent du modle choisi et dans le modle le plus simple
- on suppose que la probabilit de chaque changement est indpendante des changements prcdents
(Modle de Markov).
- on suppose que les probabilits de substitution ne changent pas au cours du temps (le long de l'arbre).
- on suppose les changements rversibles : P(A -> T) = P(T -> A).
On peut introduire d'autres paramtres dans le modle afin d'accrotre son ralisme :
- des taux de substitutions diffrents pour chaque remplacement (matrice 4*4 pour l'ADN ou matrice de
substitution)
- une correction pour le nombre de sites suceptibles de muter et des taux de substitutions variables pour
ces sites.
- un taux de variation diffrents pour chaque site : on peut par exemple utiliser une distribution statistique
(distribution gamma)

22/05/2016 08:37

Phylognie

16 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Il faut savoir que plus on introduit de paramtres, plus le calcul sera long et plus il y aura une
accumulation de petites erreurs : il vaut mieux utiliser un modle simple.

Le maximum de vraissemblance est une bonne mthode de reconstruction phylogntique mais il faut que
le modle de dpart corresponde bien aux donnes. Pour estimer les paramtres, on peut utiliser une
mthode plus rapide et utiliser l'arbre obtenu pour fixer les paramtres de dpart.
Cette mthode n'est utilisable que si on a un petit nombre de squences.

2.3. Le bootstrap (et autres mthodes d'valuation)

Quand on a obtenu un arbre, il faut ensuite valuer la confiance que l'on peut avoir dans cet arbre. Pour
cela plusieurs mthodes sont disponibles.
Le bootstrap
Cette mthode, partant du postulat que les caractres voluent de manire indpendante, est sans doute la
plus utilise en phylognie. Elle a t invente par Bradley Efron en 1979 et introduite en phylognie par
Felsenstein en 1985 dans le package Phylip.
Cette mthode peut tre divise en 3 tapes ralises chacune au moins 100 fois:
- Ralisation d'un pseudo-alignement A' partir des squences d'origine en prenant arbitrairement n
colonnes (avec remplacements) de l'alignement d'origine.
- Estimation de l'arbre obtenu : T'.
- Comparaison des arbres T et T' : pour chaque sous-arbre de T, on regarde s'il est prsent dans T'.
On compte ensuite pour chaque sous-arbre le nombre de fois o il est prsent dans les T'. Cette frquence
avec laquelle on retrouve un sous-arbre est la valeur de bootstrap (plus elle est leve plus la fiabilit de la
branche est importante).

22/05/2016 08:37

Phylognie

17 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

Delete-half-Jackknifing :
Cette mthode, prne par Wu (1986) r-chantillonne la moiti des sites des squences et limine le
reste. Cette mthode donne des rsultats trs similaire ceux obtenus par bootstrap.
Permutation :
Cette mthode introduite par Archie (1989) et Faith (1990, Faith et Cranston 1991)est base sur la
permutation des colonnes de la matrice. Ce la produit des matrices ayant le mme nombre de colonnes, les
mmes caractres mais qui n'ont plus de structure taxonomique. Cette mthode est utilise dans un but
diffrent par rapport au bootstrap : elle teste l'hypothse qu'il y a bien une taxonomie dans les donnes
actuelles.

2.4. Enraciner un arbre

Le plus souvent, les mthodes de reconstruction phylogntiques aboutissent des arbres non enracins.
Pour enraciner un arbre, on peut ajouter une squence dont on sait qu'elle est beaucoup plus ancienne que
toutes les autres squences.
Cependant , il ne faut pas que la squence choisie pour enraciner l'arbre soit
- trop loigne des autres donnes. En effet, cela peut conduire des erreurs dans la topoolgie de l'arbre.
- soit trop proche des squences car dans ce cas, cela n'est peut-tre pas un vrai "outgroup".
L'utilisation de plus d'un "outgroup" amliore en gnral l'valuation de l'arbre.
Enfin, en l'absence d'un bon "outgroup", la racine peut tre positionne approximativement gale
distance de toutes les squences : on parle alors de mid-point rooting.
La topologie des arbres est soumise de nombreuses variations et dpendent :
- de la nature des squences utilises (acides nucliques ou protines)
- de la mthode utilise (mthodes de distances ou parcimonie)
- de la qualit de l'alignement
- du nombre de squences incluses dans l'alignement
- de l'ordre des squences dans l'alignement
- du choix de la racine.

3.Rcapitulatif

22/05/2016 08:37

Phylognie

18 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

METHODES SEQUENCES

Distances

Trs proches

AVANTAGES

Rapides

Faciles mettre en
oeuvre

INCONVENIENTS PROGRAMMES REMARQ

Il vaut m

Tous les sites sont


traits de manire
quivalente d'o un
perte d'informations
Non applicables
des squences
loignes

Neigbor-jo
DNAdist

qu'UPGM
Nj autoris

FITCH

diffren

Protdist

KITSCH

d'introduir

Parcimonie

Relativement
loignes

Evaluation de diffrents
arbres
Essaie de donner des
informations sur les
squences ancestrales
Robuste

ML

loignes

taux de
transisitions/transversions
diffrents
Estimation de la longueur
des branches de l'arbre
final

Lente

Inutilisable lorsque
l'on a un grand
nombre de
squences

On peut o
plusieurs a
quivalen
dans ce c
choix de
par rappor
autres peu

DNApars

PROTpars

Lente

Inutilisable lorsque
l'on a un grand
nombre de
squences

FastDnaml

III. CONCLUSION
L'tude de la phylognie est un vaste domaine et quelque soit la mthode utilise, des hypothses trs
simplificatrices sont faites sur l'volution biologique des squences. Actuellement, pour reconstruire une
bonne phylognie, la qualit et le nombre des donnes provoquent plus de variations au sein d'un arbre
qu'un changement de mthode.
Pour construire de bons arbres, il faut :
- Avoir le plus grand nombre de gnes homologues possibles
- Aligner les squences trs soigneusement
- Eliminer les rgions ambigues, les rgions hypervariables, les gaps des alignements
- Utiliser si possibles plusieurs mthodes de reconstruction, prendre NJ plutt que UPGMA (le neighborjoining autorise des taux de mutations diffrents sur les branches) et incorporer des biais dans les taux de
mutations / substitutions.
22/05/2016 08:37

Phylognie

19 sur 19

http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm

- Evaluer l'arbre statistiquement : bootstrapping.


Souvent les arbres obtenus sont diffrents selon le gne considr. Cela est du plusieurs causes :
- Tous les gnes n'ont pas la mme vitesse d'volution
- L'volution convergente
- Les phnomnes de recombinaison
- Les transferts de gnes
- La confusion gnes paralogues (duplication au sein d'une espce) / gnes orthologues (mme gne dans
des espces diffrentes):

IV. BIBLIOGRAPHIE
Divers documents html sur l'analyse de squences (Fred Opperdoes)
Cours d'analyse de squences (Daniel Gautheret)
Site sur l'volution
Estimating Phylogenetic Trees
Maximum Likelihood
Phylip Home Page

22/05/2016 08:37