Vous êtes sur la page 1sur 11

L3S5 - LBO - SVT

UE Biodiversité1.

Corrigé TD de PHYLOGENIE MOLECULAIRE

LES REPRESENTATIONS PHYLOGENETIQUES

Exercice1 :
Dans le premier exercice, le noeud le plus ancien des deux arbres se situe en bas de
la figure, et le temps s’écoule du bas vers le haut. Par conséquent, la grenouille et
l’homme partagent un ancêtre commun plus récent que la grenouille et la carpe. Du
point de vue évolutif, la grenouille est donc plus proche parente de l’homme que de la
carpe. Ceci n’empêche pas que la grenouille et la carpe soient dessinées côte à côte
sur l’arbre 1. Malgré quelques rotations autour des branches internes, la topologie de
l’arbre 2 est strictement identique à celle de l’arbre 1. Les conclusions
phylogénétiques demeurent inchangées.

Exercice2 :
Dans le deuxième exercice, le noeud 1 constitue la racine (représentation en
trifurcation de base). Le noeud 2 matérialise l’ascendance commune des
Champignons et des Animaux Bilatériens (Protostomiens + Deutérostomiens), et donc
en particulier celle des Champignons et des Deutérostomiens. Les autres noeuds
numérotés matérialisent respectivement les ancêtres communs hypothétiques les plus
récents des Choanoflagellés + Bilatériens (3), Bilatériens (4), Deutérostomiens (5) et
Protostomiens (6).

Exercice3 :
Dans le troisième exercice, trois arbres phylogénétiques possèdent la même
topologie qui peut s’écrire de la manière parenthésée suivante :
(O,(((A,B),(C,D)),(((E,(F,G)),(H,I)) ,((J,K),(M,(L,N)))))); [Il s’agit des phylogénies 1
à 3]. En revanche, la topologie de l’arbre 4 s’écrit : (O,(((A ,B
),(C,D)),(((E,(F,G)),(H,I)),((J,K),(N,(L,M)))))); [La différence implique le
branchement relatif des feuilles M, L et N]. Cette différence sera visible si les arbres
2, 3 et 4 sont réenracinés par la feuille O.

Exercice4 :
Dans le quatrième exercice, 8 arbres parmi les 9 ont leur topologie qui peut s’écrire
de la manière parenthésée suivante : (((((A,B),C),(D,(E,(F,G)))),H),(I,J)); [Il s’agit
des phylogénies 1, 2, et 4 à 9]. En revanche, la topologie de l’arbre 3 s’écrit :
(((((A,B),C),(E,(D,(F,G)))),H),(I,J)); [La différence implique le branchement relatif
des feuilles D et E].
LA RECONSTRUCTION DES ARBRES PHYLOGENETIQUES

Exercice 5 :
A) Reconstruction d’un arbre phylogénétique avec la méthode WPGMA.

WPGMA vs. UPGMA :


Avec la méthode WPGMA (Weighted Pair Group Method with Averaging) la distance entre les clades
est calculée comme une moyenne simple. Par exemple, si d(A,B) = 55 et d(A,(C,D)) = 90, la distance
entre A et B + (CD) sera (55 + 90) / 2 = 72,5. Ce calcul est facile, les distances de la matrice originale
ne contribuent pas de façon égale aux calculs intermédiaires.
Une meilleure méthode est UPGMA (non pondéré PGMA), dans laquelle les moyennes sont pondérées
par le nombre de taxons dans chaque clade à chaque étape. Ceci rend le calcul un peu plus compliqué.
Par exemple, pour calculer la distance entre A et B + (CD) = (55 + 2x90) / 3 = 78,33, car la distance est
la moyenne des trois distances, d(A,B), d(A,C) et d(A,D). En conséquence, chaque distance contribue
également au résultat final.
Notez que les termes pondérés et non pondérés se réfèrent au résultat final et non à la méthode
mathématique qui permet de faire les calculs. Ainsi, la moyenne simple de WPGMA produit un résultat
pondéré, et la moyenne proportionnelle de UPGMA produit un résultat non pondérée.

Bsu Bst Lvi Amo Mlu


Bacillus subtilis (Bsu) 0 17 21 31 23
Bacillus stearothermophilus (Bst) 0 30 34 21
Lactobacillus viridescens (Lvi) 0 28 39
Acholeplasma modicum (Amo) 0 43
Micrococcus luteus (Mlu) 0

Premiers taxons à agglomérer Bst et Bsu

Bst +
Bsu Lvi Amo Mlu
Bst + Bsu 0 25,5 32,5 22
Lactobacillus viridescens (Lvi) 0 28 39
Acholeplasma modicum (Amo) 0 43
Micrococcus luteus (Mlu) 0

Troisième séquence à agglomérer Mlu


Bst + Bsu
+Mlu Lvi Amo
Bst + Bsu + Mlu 0 32,25 37,75
Lactobacillus viridescens (Lvi) 0 28
Acholeplasma modicum (Amo) 0

Séquences suivantes à agglomérer Lvi et Amo

Bst + Bsu +Mlu Lvi + Amo


Bst + Bsu + Mlu 0 35
Lvi + Amo 0

Calcul de la somme des carrés des écarts entre distances génétiques et patristiques.

Matrice des distances patristiques


Bsu Bst Lvi Amo Mlu
Bacillus subtilis (Bsu) 0 17 35 35 22
Bacillus stearothermophilus (Bst) 0 35 35 22
Lactobacillus viridescens (Lvi) 0 28 35
Acholeplasma modicum (Amo) 0 35
Micrococcus luteus (Mlu) 0
∑ (dg-dp)2 = (17-17)2 + (21-35)2 + (31-35)2 + (23-22)2 + etc….= 320

B) 320 >>> 18 > 15.


L’arbre reconstruit par NJ est celui le plus en accord avec la matrice de départ.
La méthode de reconstruction WPGMA pose un certain nombre de problèmes car :
- les distances des feuilles à la racine de l’arbre sont toutes égales.
- on impose une racine.
- lorsque les distances génétiques sont trop proches il est difficile de décider
laquelle est réellement la plus faible car les distances génétiques sont des
approximations (elles ont une variance associées).
- une erreur se répercute sur toutes les réitérations en aval.
ð Ceci peut induire des erreurs de reconstruction des topologies => on considère
que la vitesse d’évolution est constante le long de l’arbre (horloge
moléculaire) ce qui fausse les liens de parenté.

Méthode NJ :
Cette méthode ne travaille pas sur les taxons terminaux mais par agglomération successive au
niveau des nœuds de l’arbre. Méthode rapide qui fournit un arbre en relativement bonne adéquation
avec les données de départ. Cette méthode ne fait pas l’hypothèse d’égalité des taux d’évolution.
Méthode FITCH :
Cette méthode n’est pas un algorithme d’agglomération de séquences mais un critère d’optimisation
(cf. maximum de parcimonie en cladistique). L’algorithme va choisir l’arbre qui minimise la somme
des carrés des écarts entre distances génétiques et patristiques : ∑ (dg-dp)2.
Toutes ces méthodes résument l’information contenue dans les séquences sous forme de distances or la
similitude globale n’est pas un bon indicateur de la parenté.

C) Les procaryotes regroupent des millions d'organismes unicellulaires


génétiquement distincts. Bien que d'une architecture assez rudimentaire, ils présentent
une grande diversité de propriétés physiologiques. La classification communément
utilisée des microorganismes des deux domaines archea et bacteria reposent sur des
critères structuraux, métaboliques et écologiques. L’utilisation de séquences d’acides
aminés permet :
- d’utiliser des caractères objectifs.
- de pouvoir faire de la phylogénie sans être un spécialiste du groupe.
- d’augmenter le nombre de caractères possibles à comparer.

Exercice 6 :
A)

L’arbre le plus parcimonieux a une longueur L = 9 pas.


m = 9 car pour chaque caractère il n’y a que 2 états de caractères 0 ou 1.
CI = 9/9 =1
HI = 1 - 1 = 0, ces données ne contiennent pas d’homoplasie.

B) Le genre Phalacrocorax représente un groupe paraphylétique sur la phylogénie


reconstruite précédemment. Nannopterum diffère de Phalacrocorax par une
collection d’autapomorphies morphologiques résultant de l’adaptation à son milieu,
cependant il se branche à l’interieur du genre Phalacrocorax.
En systématique phylogénétique, seuls les groupes monophylétiques ont un sens. Une
nouvelle classification devrait inclure Nannopterum harrisi dans le genre
Phalacrocorax. C’est ce qui a été fait dans la dernière étude sur le sujet [Kennedy M. et al.,
2009. The phylogenetic position of the Galápagos Cormorant. Molecular Phylogenetics and Evolution 53:94-98].

Exercice 7 :
A)
EQ EB EZ EC BT
EQ 0 0,98 5,88 6,86 17,65
EB 0 4,9 5,88 16,67
EZ 0 6,86 15,69
EC 0 14,71
BT 0

EQ + EB EZ EC BT
EQ + EB 0 5,39 6,37 17,16
EZ 0 6,86 15,69
EC 0 14,71
BT 0
EQ + EB +
EZ EC BT
EQ + EB +EZ 0 6,62 16,43
EC 0 14,71
BT 0

EQ + EB +
EZ + EC BT
EQ + EB +EZ
+EC 0 15,57
BT 0
B)
Nombre de sites constants = 81
Nombre de sites variables = 21
Nombre de sites informatifs = 4

3 9 66 102
EQ A C T T
EB A C T T
EZ A T C T
EC G T C C
BT G T C C

Les mutations en rose représentent les synapomorphies portées par les sites
informatifs et les mutations en vert représentent les autapomorphies portées par les
sites variables non-informatifs.
Attention :
• Ne pas confondre un état de caractère présent chez le groupe externe avec un état de caractère
ancestral !
• Il n’est pas possible de connaître la polarité des caractères présentant un état différent
seulement chez la vache car on ne sait pas quel était l’état de caractère ancestral. L’utilisation
d’un 2d groupe externe permettrait de régler cette question mais un nouveau problème se
poserait pour tous les états de caractères présents uniquement chez ce deuxième groupe
externe. L’utilisation de plusieurs groupes externes permet la stabilisation de l’arbre
phylogénétique.

D) Les mutations ont lieu le plus souvent au niveau de la 3ème position du codon.
Ces mutations entrainent rarement le remplacement d’un acide aminé ; on parle de
mutation synonyme ou silencieuse du à la redondance du code génétique. Toutes les
transitions en 3ème position du codon sont synonymes. La pression de sélection est
plus forte en 1ère position du codon car il existe moins de mutations synonymes et
finalement, aucune mutation en 2ème position du codon n’est synonyme. Toutes les
positions ne sont pas libres de muter de la même façon.

On peut douter du fait que la mutation observée au site 101 chez le quagga (T) soit
apparue du vivant de l’animal car :
- une mutation en 2d position du codon est peu fréquente
- tous les autres vertébrés possèdent une cytosine à ce site
Il est raisonnable de penser que l’on a ici affaire à un artéfact expérimental.

Lorsque l’on travaille sur de l’ADN ancien on met en place des étapes de contrôle
pour s’assurer de l’authenticité de la séquence :
- On répète les manipulations en laboratoire (2 expérimentateurs différents dans
2 labo différents).
- On répète la manipulation à partir d’échantillons différents.

Exercice 8 :
A) Trois hypothèses évolutives

Arbre 1 Arbre 2 Arbre 3

B) La longueur du cladogramme le plus parcimonieux est de 21 pas. Il correspond


à l’hypothèse évolutive numéro 2. Seul le site 15 nous permet de discriminer entre les
différents cladogrammes.
Nombre  de  pas  évolutifs  
 
Sites   variables   arbre  1   arbre  2   arbre  3  
1   1   1   1  
2   1   1   1  
3   2   2   2  
12   1   1   1  
13   1   1   1  
14   1   1   1  
15   3   2   3  
18   1   1   1  
24   1   1   1  
30   2   2   2  
31   1   1   1  
36   1   1   1  
37   1   1   1  
42   2   2   2  
48   1   1   1  
51   2   2   2  
Total   22   21   22  
Rappel :
- La divergence moléculaire dépend du temps écoulé depuis la divergence des taxons
considérés. Si l’accumulation des mutations au court du temps est constante on parle
d’horloge moléculaire.
- Pour reconstruire le cladogramme on optimise les changements d’états de caractère : on place
les états dérivés et ancestraux de la manière la plus parcimonieuse possible.
Tous les sites : CI = 20/21 = 0,95 et Hi = 0,05
Seulement les sites informatifs : CI = 11/13 et Hi = 0,15

C) Substitutions multiples et « saturation ».

Sur la diagonale, d.g. et d.p. sont identiques, il n’y a pas d’homoplasie. Ces
données ne contiennent pas beaucoup d’homoplasie (conf. Ci et Hi)
L’homoplasie provoque l’augmentation des distances patristiques et déplace donc
les points dans la partie inférieure du graphe (sous la diagonale).
Plus les taxons sont distants, plus il y a d’homoplasie et plus les valeurs s’écartent
de la diagonale. Lorsque l’homoplasie est très importante un plateau se dessine, on
dit alors qu’il y a « saturation » des données.
Intérêts du graphique :
- Voir si les données contiennent de la saturation
- Voir entre quels individus il y a de la saturation

Remarque :
Le choix du marqueur moléculaire est très important :
- s’il est peu variable il ne contiendra pas assez d’information pour la reconstruction
phylogénétique ;
- s’il est trop variable il pourra être « saturé » (homoplasie) et donc contenir beaucoup de
« bruit de fond » avec un risque important de fausser les conclusions.

D) Valeurs de bootstrap
Les valeurs de bootstrap (BP) sont attachées au nœud étudié. Elles sont corrélées
avec la quantité de signal présent dans les données, c’est à dire au nombre de
substitutions se trouvant sur la branche conduisant au nœud. S’il on utilise un
marqueur moléculaire rapide ou lent cela va changer la proportion de caractères qui
définie chacune des branches de l’arbre.

Du tableau présenté on peut déduire que:


- plus le nombre de réplications de bootstrap est important plus les valeurs de
bootstrap sont stables. Par exemple, avec 10 réplications on a un bootstrap de 50%
à 80%, avec 100 réplications le bootstrap est compris entre 64% et 73% et avec
1000 réplication les valeurs se stabilisent 63%-68%
- plus un nœud est soutenu plus les valeurs de bootstrap sont stables (voir BP pour
proboscidea).

Vous aimerez peut-être aussi