Académique Documents
Professionnel Documents
Culture Documents
L’origine… :
1866: Haeckel utilise le terme phylogénie pour désigner
«l’enchaînement des espèces animales et végétales au cours du
temps».
La problématique:
Quand les lois de la génétique ont été connues, il est né un paradoxe entre la
sélection (disparition de certains caractères) et le polymorphisme génétique
(variabilité). Il faut cependant rappeler que ce sont les phénotypes qui se
heurtent à la pression de sélection et non les génotypes (avec le jeu des
dominances et récessivités, à un phénotype correspond plusieurs génotypes).
La théorie sélectionniste
la plupart des nouveaux allèles apparus par mutations se fixent dans les
populations parce qu'ils sont avantageux pour les porteurs dans le milieu où ils
vivent (sélection darwinienne).
La phylogénie moléculaire
chimpanzé C1
chimpanzé C2
Duplication
Spéciation
vache V1
Lignée 1 humain H1
chimpanzé C1
humain H2
Lignée 2 chimpanzé C2
Pour effectuer cette analyse, il faudra que les séquences comparées soient
orthologues et il vaudra mieux que la pression de sélection soit plus ou moins
restée la même au cours du temps dans les différentes lignées. (de la même
manière, il faut que cela soit des gènes subissant de fortes contraintes
fonctionnelles donc ayant un taux de mutation faible).
Définition:
On constate que le taux d'accumulation des mutations dans le génome
d'organismes différents est du même ordre de grandeur dans des régions
homologues (régions soumises à la même pression de sélection).
L'accumulation sera maximale pour des régions qui ne sont pas soumises à la
pression de sélection naturelle (ne codant pas pour des gènes) et minimale
dans les parties du génome soumises à une forte pression (c'est à dire les
régions codant pour des fonctions essentielles à la survie de l'organisme).
L’horloge moléculaire
Chaque séquence accumule les mutations à un rythme qui lui est propre et qui est
dicté par l'intensité de la pression de sélection à laquelle elle est soumise. Pour
reconstituer des phylogénies (dater la divergence entre deux espèces), on peut
utiliser différentes molécules comme on utilise les aiguilles d'une montre pour
calibrer l'horloge :
Si l'on admet cette théorie, et que l'on connaît le taux d'accumulation des
mutations, il est possible d'estimer le temps de divergences d'espèces en
comparant leur diversité moléculaire.
Les relations entre les organismes sont représentés par des arbres:
Taxon A
Les feuilles représentent
les taxons
Taxon B
Les nœuds symbolisent des
ancêtres hypothétiques
Taxon C
Clade: est une partie d'un cladogramme, une branche contenant deux
éléments plus proches entre eux qu'avec n'importe quel autre
élément.
Taxon 1 Taxon 3
Taxon 2 Taxon 4
Les arbres non racinés ne permettent pas une orientation de l’arbre dans
le temps.
5 emplacements potentiels
Taxon 1
Taxon 3
Taxon 2 Taxon 4
Taxon 1
Taxon 3
Taxon 2 Taxon 4
Reconstruction phylogénétique
3/ Construire un arbre
4/ Evaluer la reconstruction
Schématiquement
Evolution
x
Evaluation
Boylii
Algorithmique
Aurora Cascadae
Propriétés
Aurora TAAGATCA…
Boylii TAGTTGAT…
Cascadae TATGTTCA…
Modélisation
Observation
Reconstruction phylogénétique
Les données ?
Données morphologiques : forme des ailes, présence/absence de
dents, nombre de pattes, …
Modélisation :
Soit les caractères tel qu’ils sont données:
description topologique
présence / absence
quantité
caractère à états multiples (ADN:4, protéines:20)
Reconstruction phylogénétique
Données:
Un ensemble de n espèces
Un ensemble de m caractères pertinents
Les valeurs de chaque caractère pour chaque espèce
Le problème:
Cette méthode est utilisée pour reconstruire des arbres phylogénétiques si les
séquences ne sont pas trop divergentes.
Et ainsi de suite
La Méthode UPGMA
Et ainsi de suite
La Méthode UPGMA
La distance entre les séquences est la somme des branches horizontales des
arêtes qui les joignent.
Les sites considérés par l’analyse de parcimonie sont uniquement ceux qui
fournissent de l’information en terme d’évolution, c’est-à-dire ceux qui
influencent le choix de la topologie de l’arbre.
Un site est donc considéré comme informatif s’il est occupé par plus d’un seul
type de résidu et que chaque type de résidu est représenté au moins dans
deux séquences de l’alignement.
Exemple: 4 séquences
S1 AAGAGTGCA
S2 AGCCGTGCG
S3 AGATATCCA
S4 AGAGATCCG
Pour 4 séquences, il y a 3 arbres non enracinés possibles:
(1) AAGAGTGCA AGATATCCA (3)
\ 4 / 2 Arbre I
\ 4 /
AGCCGTGCG --- AGAGATCCG Nombre de mutations : 10
/ \
/ 0 \ 0
(2) AGCCGTGCG AGAGATCCG (4)
(1) AAGAGTGCA AGCCGTGCG (2)
\ 1 /3
\ 5 /
Arbre II AGGAGTGCA --- AGAGGTCCG Nombre de mutations : 14
/ \
/ 4 \1
(3) AGATATCCA AGAGATCCG (4)
Avantages et inconvénients
Avantages :
- Méthode basée sur les caractères :
- Méthode ne réduisant pas la séquence à un simple nombre.
- Méthode essayant de donner une information sur les séquences ancestrales.
- Méthode évaluant différents arbres.
Inconvénients :
- Méthode très lente par rapport aux méthodes basées sur les distances.
- Méthode n'utilisant pas toute l'information disponible (seuls les sites
informatifs sont pris en compte)
- Méthode ne faisant pas de corrections pour les substitutions multiples
- Méthode ne donnant aucune information sur la longueur des branches
- Méthode connue pour être très sensible au biais des codons
Méthode de maximum de vraisemblance (ML)
Plus de réalisme:
Similaire au bootstrap
Ré-échantillone la moitié des sites, supprime les autres
Pas de sites dupliqués
L’alignement obtenu est toujours de longueur égale à la moitié de l’alignement
de départ.