Vous êtes sur la page 1sur 39

Introduction

L’origine… :
1866: Haeckel utilise le terme phylogénie pour désigner
«l’enchaînement des espèces animales et végétales au cours du
temps».

Darwin: « les lignes généalogiques de tous les êtres organisés »

La problématique:

Etant donné un ensemble de marqueurs reflétant les caractéristiques


d’espèces, reconstruire l’historique de celles-ci.
Pourquoi réaliser une phylogénie ?

Deux domaines d’applications majeurs:


Reconstruire l’histoire évolutionnaire de taxons, caractères
ou de gènes.
Etude de la biodiversité, l’origine (géographique) des espèces.

Analyse de caractères et de vitesse d’évolution.


La phylogénie constitue alors le cadre conceptuel permettant
d’étudier et comprendre comment ces objets biologiques ont changé
au cours du temps.

C’est la première étape d’une étude comparative.


Un peu d’histoire

Depuis Darwin, il est communément admis que les êtres vivants


descendent tous les uns des autres.

Jusqu'aux années 1960, les comparaisons entre des morphologies,


des comportements et des répartitions géographiques des espèces
étaient les seuls moyens disponibles pour construire des
classifications d'espèces.

La découverte que des protéines homologues (ou acides nucléiques)


avaient des séquences en acides aminés (ou en bases) qui variaient
d'une espèce à l'autre a fourni un nouveau moyen d'étude : la
phylogénie.
L’évolution selon Lamark (1744-1829)

Pour Lamark, l'évolution était due à une adaptation continue au milieu


ambiant : un environnement changeant altère les besoins de l'organisme
vivant qui s'adapte en modifiant son comportement et en utilisant certains
organes plus que d'autres.
L’évolution selon Darwin (1809-1882)

La théorie défendue par Darwin est l'évolution par sélection naturelle. Au


sein d'une même lignée, tous les individus sont différents et la nature
favorise la multiplication de ceux qui jouissent d'un quelconque avantage.
Les concepts modernes

Quand les lois de la génétique ont été connues, il est né un paradoxe entre la
sélection (disparition de certains caractères) et le polymorphisme génétique
(variabilité). Il faut cependant rappeler que ce sont les phénotypes qui se
heurtent à la pression de sélection et non les génotypes (avec le jeu des
dominances et récessivités, à un phénotype correspond plusieurs génotypes).

Pour l'expliquer, 2 théories s'opposent : la théorie neutraliste et la


théorie sélectionniste.

La théorie neutraliste (Kimura)


La plupart des mutations restent neutres, se fixent au hasard (seules les
mutations très défavorisantes ou létales pour l'individu sont éliminées) et le
milieu n'a pas de rôle sélectif.

La théorie sélectionniste
la plupart des nouveaux allèles apparus par mutations se fixent dans les
populations parce qu'ils sont avantageux pour les porteurs dans le milieu où ils
vivent (sélection darwinienne).
La phylogénie moléculaire

Il s’agit de la reconstruction de l’histoire évolutionnaire d’objets


biologiques (organismes, gènes, …) par comparaison de séquences
d’acides nucléiques ou protéiques.
L’hypothèse de travail est: plus des objets partagent un ancêtre
proche, plus leurs séquences doivent se ressembler.

La pression de sélective de l’évolution basée sur des traits


morphologiques et anatomiques s’exerce par le biais de mutations
accumulées dans le génome, soit au cours de la réplication de l’ADN,
soit au cours de dommages physiques de l’ADN.

Ces modifications de séquences sont graduelles, elles s’installent


discrètement et progressivement à quelques positions à chaque pas
évolutif.
La phylogénie moléculaire

En considérant des gènes homologues, c’est-à-dire des gènes qui ont


un ancêtre commun, provenant d’organismes différents, puis en les
comparant en alignant leurs positions identiques et similaires
(alignement multiple), on peut mettre en évidence les régions des
gènes (ou de la protéine dérivée) sensibles aux mutations.

Des hypothèses sur les événements moléculaires ayant eu lieu au


cours de l’évolution de ces séquences peuvent être formulées.
Rappel Orthologue et Paralogue
vache V1
humain H1
humain H2

chimpanzé C1
chimpanzé C2
Duplication
Spéciation
vache V1
Lignée 1 humain H1

chimpanzé C1
humain H2

Lignée 2 chimpanzé C2

Gènes orthologues Gènes paralogues


Paire de gènes nés de la divergence Paire de gènes nés de la duplication
de leur ancêtre commun (spéciation) de leur ancêtre commun
Phylogénie moléculaire

Pour effectuer cette analyse, il faudra que les séquences comparées soient
orthologues et il vaudra mieux que la pression de sélection soit plus ou moins
restée la même au cours du temps dans les différentes lignées. (de la même
manière, il faut que cela soit des gènes subissant de fortes contraintes
fonctionnelles donc ayant un taux de mutation faible).

Il y a cependant une accumulation des mutations au cours du temps et pour


rendre compte de ce phénomène, Zuckerland et Pauling (1962) ont développé
la théorie de l'horloge moléculaire.

Définition:
On constate que le taux d'accumulation des mutations dans le génome
d'organismes différents est du même ordre de grandeur dans des régions
homologues (régions soumises à la même pression de sélection).
L'accumulation sera maximale pour des régions qui ne sont pas soumises à la
pression de sélection naturelle (ne codant pas pour des gènes) et minimale
dans les parties du génome soumises à une forte pression (c'est à dire les
régions codant pour des fonctions essentielles à la survie de l'organisme).
L’horloge moléculaire

Chaque séquence accumule les mutations à un rythme qui lui est propre et qui est
dicté par l'intensité de la pression de sélection à laquelle elle est soumise. Pour
reconstituer des phylogénies (dater la divergence entre deux espèces), on peut
utiliser différentes molécules comme on utilise les aiguilles d'une montre pour
calibrer l'horloge :

- la trotteuse des secondes (taux de mutation important, par exemple un


pseudogène) pour des évènements récents (études des sous populations au sein
d'une espèce).
-l'aiguille des minutes (taux de mutation moyen, par exemple le cytochrome C)
pour l'analyse d'un passé proche.
-l'aiguille des heures (taux de mutations faible : les histones) pour l'étude d'un
passé lointain.

La vitesse d'évolution de la séquence est du même ordre de grandeur au sein


d'une même classe fonctionnelle de protéines et elle est différente pour des
protéines qui ont des fonctions différentes. Ces différences de vitesse
dépendent à la fois de la probabilité qu'une substitution apparaisse et de sa
compatibilité avec la survie de l'organisme.
L’horloge moléculaire

Si l'on admet cette théorie, et que l'on connaît le taux d'accumulation des
mutations, il est possible d'estimer le temps de divergences d'espèces en
comparant leur diversité moléculaire.

Mais, les arguments contre:


L'horloge moléculaire ne serait pas constante (Goodman): les mutations
avantageuses se fixeraient plus rapidement lors de la formation de nouvelles
espèces.
L'horloge moléculaire serait épisodique (Gillepsie) et les mutations ne se
produiraient pas de façon indépendante au cours de l'évolution: il y aurait des
épisodes d'accumulation suivis d'arrêts évolutifs.

Bien que le débat persiste, il semble que l'horloge moléculaire fonctionne


assez bien sur de longues périodes évolutives, pour des gènes ayant un taux
de mutation relativement faible où même si l'horloge ne bat pas très
régulièrement, les ralentissements et les accélérations se compensent.
Il faut également se méfier des estimations de temps de divergence basées
sur un petit nombre de gènes.
Reconstruction phylogénétique

Les relations entre les organismes sont représentés par des arbres:

Taxon A
Les feuilles représentent
les taxons
Taxon B
Les nœuds symbolisent des
ancêtres hypothétiques
Taxon C

A est plus proche parent de B que de C, car A et B partagent un ancêtre


commun exclusif qui n’est pas un ancêtre de C.

A, B et C partagent également un ancêtre commun qui est plus ancien que le


dernier ancêtre commun de A et B.
Rappel quelques définitions

La taxinomie est la science qui a pour objet de décrire les organismes


vivants et de les regrouper en entités appelées taxons afin de
pouvoir les identifier puis les nommer, et enfin les classer.

Taxon: entité conceptuelle qui est censée regrouper tous les


organismes vivants possédant en commun certains caractères bien
définis. Les taxons sont organisés en clades qui s'emboîtent les uns à
l'intérieur des autres.

Clade: est une partie d'un cladogramme, une branche contenant deux
éléments plus proches entre eux qu'avec n'importe quel autre
élément.

L'espèce constitue le taxon de base de la classification. Plus le rang


du taxon est élevé et plus le degré de ressemblance (le nombre de
caractères qu'ils ont en commun) entre les individus concernés
(plantes, animaux, champignons, bactéries) diminue, et inversement.
Reconstruction phylogénétique

Un arbre phylogénétique est une structure mathématique qui est


utilisée pour modéliser l’histoire évolutive d’un groupe d’organismes.

LES PHYLOGENIES SONT DES HYPOTHESES !

Elles ne peuvent pas être observées, elles ne peuvent être qu’inférées,


parce qu’elles reflètent des événements évolutifs passés.
Arbres non racinés

Les arbres obtenus sont généralement non racinés:

Taxon 1 Taxon 3

Taxon 2 Taxon 4

Les arbres non racinés ne permettent pas une orientation de l’arbre dans
le temps.

Pas d’indications sur les relations de parentés entre les taxons

Placement d’un racine


Arbres racinés

Placement de la racine dans un arbre à 4


Taxon 1 Taxon 3 taxons:

5 emplacements potentiels

Taxon 2 Taxon 4 Exemple:

Taxon 1
Taxon 3

Taxon 2 Taxon 4

Taxon 1
Taxon 3

Taxon 2 Taxon 4
Reconstruction phylogénétique

Reconstruire un arbre : 4 étapes

1/ Acquérir et construire les données

2/ Choisir un modèle d’évolution

3/ Construire un arbre

4/ Evaluer la reconstruction
Schématiquement

Evolution
x
Evaluation

Boylii

Algorithmique
Aurora Cascadae

Propriétés
Aurora TAAGATCA…
Boylii TAGTTGAT…
Cascadae TATGTTCA…
Modélisation
Observation
Reconstruction phylogénétique

Les données ?
Données morphologiques : forme des ailes, présence/absence de
dents, nombre de pattes, …

Données moléculaires : ADN, ARN, protéines, fréquence de gènes,


données d’expression

Modélisation :
Soit les caractères tel qu’ils sont données:
description topologique
présence / absence
quantité
caractère à états multiples (ADN:4, protéines:20)
Reconstruction phylogénétique

1/ Les séquences sont correctes et proviennent du bon organisme.


2/ Les séquences sont homologues, elles ne sont pas un mélanges de paralogues.
3/ Chaque position dans l’alignement est homologue avec toutes les autres.
4/ Les séquences étudiées partagent bien une histoire phylogénétique commune.
5/ Les données sont adéquates avec le problème que l’on se pose.
6/ Les séquences étudiées sont représentative de l’ensemble du groupe.
7/ La variabilité des séquences contient un signal phylogénétique en rapport
avec l’étude.
8/ Les séquences de l’échantillon évoluent selon un unique processus
stochastique.
9/ Toutes les positions dans la séquence évoluent selon le même processus
stochastique.
10/ Chaque position dans la séquence évolue de manière indépendante.
Les méthodes de reconstruction

Basées sur l’analyse de caractères


On utilise directement les données

Basées sur les distances


On se base sur une matrice de distances entre chaque couple
d’espèces, ces distances sont évaluées à partir des données.

Données:
Un ensemble de n espèces
Un ensemble de m caractères pertinents
Les valeurs de chaque caractère pour chaque espèce

Le problème:

Quel est l’arbre complètement étiqueté qui explique le mieux ces


données (qui maximise un score donné)?
Méthodes de distance

Dans ces méthodes, l’algorithme démarre en construisant une matrice


de distances entre chaque paire de séquences.
Les séquences sont ensuite groupées en fonction de leur distance
relative, afin de produire un arbre.

Différentes mesures de distances:


Jukes-Cantor : basée uniquement sur la dissimilitude entre
deux séquences
On fait l'hypothèse que tous les sites sont équivalents (tous les
changements ont une probabilité égale mais elle varie au cours du
temps)
Kimura 2 : ce modèle est similaire au modèle de Jukes-Cantor
mais on fait l'hypothèse que le taux de transition est différent du
taux de transversion. Ce modèle a été développé suite à l'observation
que les transitions étaient souvent beaucoup plus fréquentes que les
transversions.
../..
La Méthode UPGMA

UPGMA (Unweight Pair Group Method with Arithmetic mean)

Cette méthode est utilisée pour reconstruire des arbres phylogénétiques si les
séquences ne sont pas trop divergentes.

UPGMA utilise un algorithme de clusterisation séquentiel dans lequel les


relations sont identifiées dans l'ordre de leur similarité et la reconstruction
de l'arbre se fait pas à pas grâce à cet ordre.

Il y a d'abord identification des deux séquences les plus proches et ce groupe


est ensuite traité comme un tout, puis on recherche la séquence la plus proche
et ainsi de suite jusqu'à ce qu'il n'y ait plus que deux groupes.

On va travailler en terme de distance entre les séquences.


La Méthode UPGMA

Un exemple graphique: Reconstruite un arbre


La Méthode UPGMA

Rechercher les sommets les plus proches

Remplacer ces sommets par un sommet


correspondant à leur moyenne arithmétique

Et ainsi de suite
La Méthode UPGMA

Rechercher les sommets les plus proches

Remplacer ces sommets par un sommet


correspondant à leur moyenne arithmétique

Et ainsi de suite
La Méthode UPGMA

L'inconvénient majeur est la sensibilité de la méthode à des taux de


mutations différents sur les différentes branches
La Méthode Neighbor-joining

Cette méthode développée par Saitou et Nei (1987) tente de corriger la


méthode UPGMA afin d'autoriser un taux de mutation différent sur les
branches.

L’algorithme de neighbor-joining ne cherche pas seulement les plus petites


distances pour chaque paire de séquences, mais il choisit aussi les voisins tels
que la longueur totale des branches de l’arbre soit minimisée.

La distance entre les séquences est la somme des branches horizontales des
arêtes qui les joignent.

Cette méthode est particulièrement intéressante lorsque les distances


évolutives sont petites.
Méthodes fondées sur les caractères

Les méthodes basées sur les caractères qui s'intéressent au nombre


de mutations (substitutions / insertions / délétions) qui affectent
chacun des sites (positions) de la séquence.

Ces méthodes sont très lentes mais elles sont précises.


La Méthode de parcimonie

La parcimonie est un principe formulé par un philosophe du moyen-âge,


Guillaume d’Occam qui déclara que l’explication la plus simple est
probablement la plus vraie.

Appliquée à la construction d’arbres phylogénétiques, la parcimonie recherche


parmi tous les arbres possibles celui qui nécessite le moins de substitutions
d’acides nucléiques ou d’acides aminés pour expliquer les différences entre les
séquences.

Pour un groupe d'espèces, la phylogénie la plus vraisemblable est celle qui


nécessite le plus petit nombre de changements évolutifs.
L'arbre phylogénétique des espèces est conçu de manière à impliquer le
minimum d'événements évolutifs.
La Méthode de parcimonie

Les sites considérés par l’analyse de parcimonie sont uniquement ceux qui
fournissent de l’information en terme d’évolution, c’est-à-dire ceux qui
influencent le choix de la topologie de l’arbre.

Un site est donc considéré comme informatif s’il est occupé par plus d’un seul
type de résidu et que chaque type de résidu est représenté au moins dans
deux séquences de l’alignement.

Ainsi, pour chaque topologie possible de l’arbre, le nombre de changements au


cours de l’évolution est calculé à chaque site.

La topologie la plus parcimonieuse est celle dont le nombre total de


changement aux sites informatifs est minimisé.
La Méthode de parcimonie

Exemple: 4 séquences
S1 AAGAGTGCA
S2 AGCCGTGCG
S3 AGATATCCA
S4 AGAGATCCG
Pour 4 séquences, il y a 3 arbres non enracinés possibles:
(1) AAGAGTGCA AGATATCCA (3)
\ 4 / 2 Arbre I
\ 4 /
AGCCGTGCG --- AGAGATCCG Nombre de mutations : 10
/ \
/ 0 \ 0
(2) AGCCGTGCG AGAGATCCG (4)
(1) AAGAGTGCA AGCCGTGCG (2)
\ 1 /3
\ 5 /
Arbre II AGGAGTGCA --- AGAGGTCCG Nombre de mutations : 14
/ \
/ 4 \1
(3) AGATATCCA AGAGATCCG (4)

(1) AAGAGTGCA AGCCGTGCG (2)


\ 1 /3 L'arbre I est celui nécessitant le
Arbre III \ 5 /
AGGAGTGCA --- AGATGTCCG Nombre de mutations : 16 moins de mutations, c'est donc le
/
/ 5
\
\2
plus parcimonieux.
(4) AGAGATCCG AGATATCCA (3)
La Méthode de parcimonie
Si on travaille en terme seulement de sites informatifs:
S1 AAGAGTGCA
S2 AGCCGTGCG
S3 AGATATCCA
S4 AGAGATCCG
(1) GGA ACA (3) * * *
\1 /1
\ 2 / Arbre I
GGG - - - ACG Nombre de mutations : 4
/0 \0
/ \
(2) GGG ACG (4)

(1) GGA GGG (2)


\1 /1
\ 1 /
Arbre II GGG - - - ACG Nombre de mutations : 5
/1 \1
/ \
(3) ACA ACG (4)

(1) GGA ACA (2)


\2 /1
\ 0 /
L'arbre I est celui nécessitant le
Arbre III GGG - - - ACG
/1 \2
Nombre de mutations : 6 moins de mutations, c'est donc le
/ \ plus parcimonieux.
(4) ACG ACA (3)
La Méthode de parcimonie

Avantages et inconvénients

Avantages :
- Méthode basée sur les caractères :
- Méthode ne réduisant pas la séquence à un simple nombre.
- Méthode essayant de donner une information sur les séquences ancestrales.
- Méthode évaluant différents arbres.

Inconvénients :
- Méthode très lente par rapport aux méthodes basées sur les distances.
- Méthode n'utilisant pas toute l'information disponible (seuls les sites
informatifs sont pris en compte)
- Méthode ne faisant pas de corrections pour les substitutions multiples
- Méthode ne donnant aucune information sur la longueur des branches
- Méthode connue pour être très sensible au biais des codons
Méthode de maximum de vraisemblance (ML)

Maximum de vraisemblance ou maximum likelihood :


Evalue chaque topologie possible de l’arbre à partir d’un lot de séquences
données. C’est une méthode probabiliste qui recherche le choix optimal en
attribuant une probabilité à chaque changement possible et en maximisant la
probabilité de l’arbre (sa topologie et la longueur des branches).

Vraisemblance du site j: somme des probabilités de toutes les


possibilités de reconstruction de l’état ancestral, sous un modèle choisi.

Vraisemblance de l’arbre : somme des log des vraisemblances pour


chaque site.

Le modèle le plus simple:

La probabilité de chaque changement est indépendant des


changements précédents.
Les probabilités de substitution sont constantes au cours du temps.
Les changements sont supposés réversibles, P(A->T) = P(T->A)
Méthode de maximum de vraisemblance

Plus de réalisme:

Utilisation d’une matrice de substitution


Cette méthode s’appuie sur les taux de substitution, par analogie aux matrices
de substitution utilisées dans la construction des alignements multiples.

Prise en compte de corrections pour les mutations, taux de


substitution variables.

Taux de variation différent pour chaque site.

Le maximum de vraisemblance est une bonne méthode de reconstruction


phylogénétique mais il faut que le modèle de départ corresponde bien aux
données. Pour estimer les paramètres, on peut utiliser une méthode plus rapide
et utiliser l'arbre obtenu pour fixer les paramètres de départ.

Cette méthode n'est utilisable que si on a un petit nombre de séquences.


Evaluation

Quand on a obtenu un arbre, il faut ensuite évaluer la confiance (ou


robustesse) que l'on peut avoir dans cet arbre. Pour cela plusieurs
méthodes sont disponibles.

Le bootstrap (Efron 79 at Felsenstein 85)


Cette méthode, partant du postulat que les caractères évoluent de manière
indépendante, est sans doute la plus utilisée en phylogénie.
Cette méthode peut être divisée en 3 étapes réalisées chacune au moins 100
fois:
- Réalisation d'un pseudo-alignement A' à partir des séquences d'origine en
prenant arbitrairement n colonnes (avec remplacements) de l'alignement
d'origine.
-Estimation de l'arbre obtenu : T'.
-Comparaison des arbres T et T' : décompte du nombre de fois où un nœud est
trouvé commun entre ces deux arbres).

Cette fréquence avec laquelle on retrouve un sous-arbre est la valeur de


bootstrap (plus elle est élevée plus la fiabilité de la branche est importante).
Evaluation

Half-Jackknife (Wu 86)

Similaire au bootstrap
Ré-échantillone la moitié des sites, supprime les autres
Pas de sites dupliqués
L’alignement obtenu est toujours de longueur égale à la moitié de l’alignement
de départ.

(Jackknife : énumérer tous les sous-échantillons de l’échantillon observé


obtenus par élimination d’un seul point. Cela sert à vois si la suppression d’un
point influe beaucoup sur la statistique étudiée).

Permutation (Archie (1989) et Faith (1990, Faith et Cranston 1991)

Permutation de colonne de l’alignement


Produit donc une matrice de caractères n’ayant plus de structure taxonomique
Permet de tester qu’il existe réellement une taxonomie sur les données.

Vous aimerez peut-être aussi