Vous êtes sur la page 1sur 4

- 10 -

Cours de Zoologie moléculaire (suite)


Quelques balises bibliographiques
Darlu P et Tassy P., 2004. La Reconstruction phylogénétique. Concepts et Méthodes. Version en ligne. Ed. Yann
Bertrand et Régis Debruyne.
Hennig, W., 1966. Phylogenetic Systematics. University of Illinois Press, Urbana, Illinois (USA).
Kitching I. J., Forey P. L., Humphries C. J. et Williams D. M., 1998. Cladistics: the theory and practice of parsimony
analysis- 2nd ed. (Systematics Association Publications; 11). Oxford University Press: 227p.
Lecointre, G. et H. Le Guyader, 2001. Classification phylogénétique du vivant. Illustrations D. Visset. Belin, Paris.
Celine Brochier. http://194.57.197.233:800/04.91.10.64.75

5.4.1.3. Méthode Neighbor-Joining (NJ)


Rappel de notions de base
Le terme Neighbor (voisin) désigne 2 UTO reliés par un nœud dans l’arbre non raciné :
1 et 2 sont voisins, 5 et 6 sont voisins.
• Si on relie (1,2) alors (1,2) et 3 sont voisins
• Si on relie (1,2,3) alors (1,2,3) et 4 sont voisins
• Si on relie (1,2,3,4) alors (1,2,3,4) et (5,6) sont voisins
• De proche en proche, si on part d’un arbre en étoile où aucune relation de parenté n’est connue, on
peut obtenir la topologie d’un arbre.

• On appelle X le nœud central :

• So = d1x + d2x +d3x + d4x + d5x +d6x

Les diX sont les dij (distances entre 2 taxas) qui sont estimées à partir de la matrice de distances
génétiques.
Soit la distance estimée dij entre deux UTO i et j. Lorsque la distance observée n'est pas métrique,
c'est-à-dire lorsque l'on peut avoir dij > dik + dkj par exemple, alors l'une des distances estimées
(ekx) aura une valeur négative. Dans cette situation, l'interprétation phylogénétique de distances
négatives est embarrassante.
Considérons 4 UTO i, j, k et l, encore appelées UE (unités évolutives). Les deux nœuds internes
sont x et y. Hormis le cas où la distance entre x et y est nulle par construction, trois arbres non
enracinés différents sont possibles : TI, TII, TIII.
On peut déduire l'arbre non enraciné compatible avec les distances observées si la condition
d’addivité des 4 points est respectée :
d (i,j) + d (k,l) ≤ max [ d (i,k) + d (j,l) , d (j,k) + d (i,l)
- 11 -

Exemple: On construit un arbre en étoile à partir d’une matrice de distance


X (espèce) i j k l
i

j 0.22
k 0.10 0.18
l 0.19 0.17 0.15

La condition d’additivité des 4 points considérés est vérifiée :


d (i,j) + d (k,l) ≤ max [ d (i,k) + d (j,l) , d (j,k) + d (i,l)
0.22 + 0.15 ≤ max [0.10 + 0.17, 0.18 + 0.19]
0.37 ≤ 0.37

Principe du Neighbor-Joining
Cette méthode tente de corriger l’UPGMA en supposant que le taux d’évolution est le même dans
tous les taxons. C’est à dire qu’elle suppose que deux taxons frères ont accumulé la même quantité
de changements évolutifs depuis leur dernier ancêtre. Pour cela, elle regroupe en couple les taxons
les plus proches dans un premier temps, puis pas à pas les taxons les plus ressemblants. Lorsqu’elle
procède à la construction d’un algorithme, cette méthode vérifie les différentes topologies et le
choix se portera sur celle qui présente la plus faible somme des longueurs des branches. Le NJ est
très utilisé car il constitue un outil très efficace pour la reconstruction de la topologie la plus juste.
On part d’un arbre en étoile on ne lie aucun taxon.
On recherche le couple de taxa i et j qui une fois clustérisé minimise la longueur totale de l’arbre.
On recalcule la matrice de distances en considérant les UTO i et j comme un groupe (i,j)
indissociable.
On réitère la démarche jusqu’à ce qu’il n’y ait plus de taxa dans la matrice, ce qui correspond à des
itérations.
Cluster : ensemble de données présentant des similarités.
Clustérisation : partitionnement des données (ou division des données en groupes homogènes)..
- 12 -

Procédure de calcul
- Soit une matrice donnée M n,n, sa matrice Neighbor-Joining M* est définie ainsi :
M*i,j = di,j - Si – Sj
avec di,j : distance entre i et j
S: distance totale moyenne pour chaque taxon X définie par Si = (summ all dX) / (n-2), appelée
aussi dissimilarité moyenne.

avec n : nombre d’espèces et n-2 étant le degré de liberté


Si : distance moyenne totale de i à toutes les branches externes
Sj : distance moyenne totale de j à toutes les branches externes

- créer un nœud U qui relie les M*i,j les plus faibles, c’est-à-dire le plus petit élément de M*
correspond au voisinage (NJ) des deux espèces i et j dans l’arbre en construction.

Les distances U1 i et U1 j sont obtenues par la formule :

dU1 i = di,j/2 + (Si –Sj) /2


dU1 j = di, j/2 + (Sj –Si) /2

Créer une nouvelle matrice de distances en calculant les distances U1k, U1l, U1m….en se basant
sur les distances i,j de la matrice M et les équations : dU1k +dU1j = dj,k.
La matrice obtenue M est transformée en matrice NJ, M*. Cette étape est une répétition de l’étape
de départ, avec des données modifiées.
On effectue des itérations jusqu’à épuisement des UTO.
Dans ce cas l’arbre NJ est reconstruit.

Algorithme
1. Pour chaque taxon calculer Se = Si / (n-2)
2.Choisir et i et j pour lesquels dij – Si – Sj est la plus petite
- 13 -

3. Joindre i et j. Calculer la longueur de la branche i au nouveau nœud vi et j au nouveau nœud vj


comme étant :
vi = dij/2 + (ui-uj)/2
vj = dij/2 + (uj-ui)/2
4. Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant
au nouveau groupe (ij)

5. Calculer la distance entre le nouveau noeud (ij) et chaque autre feuille comme :
d(ij),k = (di,j)/2 – (Si- Sj) /2
6. S’il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en
1.

Application n° 1: appliquer la méthode NJ sur les données de distance génétique entre 6 espèces A,
B, C, D. E, F.
X (espèce) A B C D E F
A 5 4 7 6 8

B 5 7 10 9 11

C 4 7 7 6 8

D 7 10 7 5 9

E 6 9 6 5 8

F 8 11 8 9 8

Application n° 2 (travail personnel) : appliquer la méthode NJ sur la matrice des distances


génétiques de Sariche (1969).