Vous êtes sur la page 1sur 6

Phylogénie moléculaire

1. Notions de base et définitions :

Phylogénie (phylogenèse) est une reconstruction de l’histoire évolutive des êtres vivants. Le
terme phylogenèse a été introduit par Haeckel en 1866. Les fondements de la systématique
phylogénétique ou cladistique ont été formulés par Willi Hennig, en 1950.

L’analyse phylogénétique a pour objectif de reconstruire des liens de parenté entre les
organismes et d'estimer leurs temps de divergence

Un arbre phylogénétique est une représentation graphique de la phylogenèse d’un groupe de


taxons. Les sommets représentent les taxons ou les unités évolutives (OUTs – operational
taxonomic units). Les nœuds internes représentent des ancêtres hypothétiques. Les branches
définissent les relations entre les taxons en terme de descendance.

Il existe plusieurs types d’arbres (dendrogrammes) selon les méthodes avec lesquelles ils ont
été construits :

* Phénogramme – un dendrogramme obtenu par méthodes de distance où les relations entre


taxa expriment les degrés de similitude globale ;
* Cladogramme – un dendrogramme exprimant les relations phylogénétiques entre taxa et
construit à partir de l’analyse cladistique ;
* Phylogramme – un cladogramme dont la longueur des branches est proportionnelle au
nombre de changements évolutifs.
2. Pourquoi réaliser une phylogénie?

• Histoire de l’évolution.
• Evolution des caractères (ex: le bec des pinsons de Darwin).
• Ecologie (déplacement des espèces, relation hôtes-parasites)
• Epidémiologie (Mais d’où qu’elle vient la grippe A?)
• Annoter les génomes (génomique fonctionnelle)
• Etudier les mécanismes de l’évolution moléculaire (génomique structurale)
• Comprendre la mise en place des plans d’organisation (EvoDevo : Evolutionary developmental
biology ).
• Caractériser les gènes de l’adaptation (amélioration des espèces domestiques)
• appréhender la biodiversité (gestion du patrimoine naturel)
• Reconstruire l’histoire des espèces (paléontologie)
• Caractériser la dynamique des interactions durables (épidémiologie, virologie, etc…)

3. Comment réaliser une bonne phylogénie?

• Bien choisir son jeu de données (bien connaître les séquences moléculaires) afin de
minimiser le nombre d’analogies.
• Bien aligner ses séquences moléculaires afin d’identifier quels caractères doivent être
comparés à tel autre  identifier les caractères homologues.
• Déterminer un bon modèle d’évolution pour les caractères (à quel vitesse évoluent-ils, sont
ils indépendants?).
• Choisir une bonne méthode de reconstruction d’arbre (il existe différentes méthodes,
dépendant du jeu de données).
• Tester la Fiabilité de l’arbre phylogénétique.
• Evaluer ses résultats.

3.1. Critères du choix d'un marqueur:

- universalité.
- structure conservée.
- absence de transfert génétique entre les espèces.
- taux d’évolution approprié.

Avantages d'utilisation des données moléculaires (séquences nucléotidiques ou d’acides


aminés): * universalité * rapidité * objectivité

Marqueurs moléculaires les plus utilisés dans les reconstructions phylogénétiques sont:

 phylogénie de bactéries (16S rDNA)


 phylogénie d’eucaryotes (18S rDNA, actine, EF1, RPB1)
 phylogénie de plantes (rbcL, 18S rDNA)
 phylogénie d’animaux
o niveau phylum, classe, ordre (18S rDNA, génome mt)
o niveau famille (RAG2, 12S, 16S mt)
o niveau genre (ITS, protéines mt)
o niveau intra-spécifique (D-Loop, introns)
3.2 Alignement des séquences

C’est une opération qui consiste à disposer les unes en dessous des autres des portions de
séquences similaires en minimisant leurs différences. Les séquences d’ADN se composent des
caractères discontinus qui peuvent avoir 5 états différents: soit une adénine, soit une guanine,
soit une cytosine, soit une thymine soit une insertion ou une délétion (indel). Les sites qui ont
les mêmes états dans chaque séquence s’appellent des sites conservés. Un changement d’état
dans un site s’appelle une substitution.

3.3 Méthodes de reconstruction phylogénétique :

 Méthodes de distances (séquences → matrice de distance → arbre phylogénétique)


 Méthodes de caractères (séquences → arbre phylogénétique)
• méthodes de parcimonie (maximum parcimonie)
• méthodes probabilistes (maximum de vraisemblance, inférence bayesienne)

3.3.1. Méthodes des distances

Les méthodes des distances se proposent de reconstruire des arbres en partant des
ressemblances observées entre chaque paire d'unités évolutives (séquences). On parle de la
ressemblance globale établie à partir du maximum d'observations disponibles.

Deux étapes d'analyse des séquences par méthodes phénétiques:


• Calcul des distances
• Construction d'arbre phylogénétique
3.3.1.1 Calcul des distances

Distance observée
La méthode la plus simple de comparer deux séquences est d’évaluer leur similitude et leur
différence. Similarité (S) entre deux séquences est égale au nombre de sites synonymes (M)
divisé par la longueur de la séquence (L). La distance observée (D) entre deux séquences est
donnée par
D=1–S où S = M/L

Distance évolutive

Distance évolutive entre 2 séquences est égal au nombre de substitutions qui se sont produites
sur les 2 lignées évolutives depuis l’ancêtre commun / nombre de sites. La distance évolutive
est égale à la distance observée uniquement si les séquences sont très proches et le nombre de
substitutions observées correspond au nombre de substitutions qui se sont réellement
produites. En effet, la distance observée est presque toujours une sous-estimation de la
distance évolutive. Plusieurs événements, qui ont pu éventuellement se produire, ne sont pas
pris en considération dans son calcul. Pour en tenir compte, plusieurs modèles ont été
développés afin de corriger les distances observées.

* Modèles d’évolution des séquences:

Modèle de Jukes-Cantor (JC) : 1 paramètre


Modèle de Kimura (K2P) : 2 paramètres
Modèle de Tajima-Nei (TN) = Felsenstein (F81) : 6 paramètres
Modèle de Hasegawa, Kishino et Yano (HKY 85) : 6 paramètres
Modèle GTR (General Time Reversible) : 10 paramètres

3.1.1.2. Construction d'arbre de distances

Plusieurs méthodes ont été développées pour construire un arbre phylogénétique à partir d'une
matrice de distance.

* UPGMA * Neighbor Joining (NJ)

Avantages et désavantages des méthodes de distances:

Avantages. Les méthodes de distance sont les seules disponibles pour analyser certain type de
données: distances immunologiques, distances d’hybridation d’acides nucléiques.
Elles sont rapides et permettent d’analyser de grandes bases de données et de tester un grand
nombre d’hypothèses alternatives. Elles permettent aussi d’intégrer des modèles de
changements évolutifs qui ne sont pas intégrables dans d’autres méthodes.

Désavantages. Le fait de réduire la matrice de caractères à une matrice de distance induit la


perte d’une certaine quantité d’information. En plus, les méthodes de distance ne permettent
pas de combiner dans une même matrice des caractères de nature différente (par exemple
caractères morphologiques et séquences d’ADN).
3.3.2 Méthodes de caractères :

3.3.2.1 Méthode de parcimonie (MP) :

Principe de parcimonie – principe postulant que, pour un groupe d'espèces, la phylogénie la


plus vraisemblable est celle qui nécessite le plus petit nombre de changements évolutifs.
L'arbre phylogénétique est conçu de manière à impliquer le minimum d'événements évolutifs.
La longueur de l'arbre L est égale à la somme du nombre de changements l pour chacun des k
sites informatifs.

Un site est informatif uniquement s'il y a au moins deux types de nucléotides présents dans ce
site et si chacun d'eux est représenté dans au moins deux séquences comparées.

Avantages et inconvénients

La parcimonie est une méthode de caractères qui fournit l'information sur les séquences
ancestrales et qui permet l'évaluation des différents arbres. Cependant, seulement une partie
d'information (sites informatifs) est utilisée. En plus, la méthode ne corrige pas les
substitutions multiples et ne calcule pas les longueurs de branches

3.3.2.2 Maximum de vraisemblance (ML) « Maximum likelihood »

La vraisemblance est la probabilité d'observer les données D sachant l'hypothèse H

L = Pr (D|Η)

La démarche consiste donc à rechercher la vraisemblance des données D sous différentes


hypothèses évolutives H d'un modèle M et à retenir les hypothèses qui rendent cette
vraisemblance maximale. Dans le cas d'analyse des séquences, les données D sont des
séquences comparées et l'hypothèse H est l'arbre phylogénétique. Nous cherchons à trouver
l'arbre dont la vraisemblance, étant donné les séquences observées et le modèle d'évolution
choisi, est maximale.

Avantages et inconvénients :
La méthode de ML est considérée comme la plus fiable de toutes les méthodes
phylogénétiques, celle qui conduit au résultat le plus proche de l'arbre évolutif réel. Comparée
à la parcimonie, elle est beaucoup plus consistante et moins sensible aux effets de l'attraction
de longues branches. En plus, elle permet d'appliquer les différents modèles d'évolution (p.ex.
le modèle de Kimura qui tient compte de différences entre transitions et transversions) et
d'estimer la longueur des branches en fonction de changement évolutif. Par contre, c'est la
méthode qui demande la plus grosse puissance de calcul et prend le plus de temps.
3.4. Fiabilité des arbres phylogénétiques

Bootstrap

C'est la méthode la plus souvent utilisée pour tester la fiabilité des branches internes. Le
bootstrap consiste à effectuer un tirage des sites au hasard avec remise, donc dans chaque
réplication de bootstrap certains sites peuvent être présents plusieurs fois, tandis que les autres
peuvent être absents. Chaque réplication produit un nouvel alignement "artificiel" qui est
utilisé pour construire un arbre "artificiel". Pour chaque branche interne, on calcule le
pourcentage des arbres "artificiels" contenant cette branche. On considère généralement que
les branches définis par une valeur de bootstrap de > 95% sont fiables.

Remarque : Une branche robuste n’est pas forcément une branche vraie (rappelez-vous que
les phylogénies ne sont que des hypothèses et ne peuvent jamais être qualifiées de vraies) !
Cela signifie simplement qu’une grande partie des données supportent cette branche.