Académique Documents
Professionnel Documents
Culture Documents
Les diX sont les dij (distances entre 2 taxas) qui sont estimées à partir de la matrice de distances
génétiques.
Soit la distance estimée dij entre deux UTO i et j. Lorsque la distance observée n'est pas métrique,
c'est-à-dire lorsque l'on peut avoir dij > dik + dkj par exemple, alors l'une des distances estimées
(ekx) aura une valeur négative. Dans cette situation, l'interprétation phylogénétique de distances
négatives est embarrassante.
Considérons 4 UTO i, j, k et l, encore appelées UE (unités évolutives). Les deux nœuds internes
sont x et y. Hormis le cas où la distance entre x et y est nulle par construction, trois arbres non
enracinés différents sont possibles : TI, TII, TIII.
On peut déduire l'arbre non enraciné compatible avec les distances observées si la condition
d’addivité des 4 points est respectée :
d (i,j) + d (k,l) ≤ max [ d (i,k) + d (j,l) , d (j,k) + d (i,l)
- 11 -
j 0.22
k 0.10 0.18
l 0.19 0.17 0.15
Principe du Neighbor-Joining
Cette méthode tente de corriger l’UPGMA en supposant que le taux d’évolution est le même dans
tous les taxons. C’est à dire qu’elle suppose que deux taxons frères ont accumulé la même quantité
de changements évolutifs depuis leur dernier ancêtre. Pour cela, elle regroupe en couple les taxons
les plus proches dans un premier temps, puis pas à pas les taxons les plus ressemblants. Lorsqu’elle
procède à la construction d’un algorithme, cette méthode vérifie les différentes topologies et le
choix se portera sur celle qui présente la plus faible somme des longueurs des branches. Le NJ est
très utilisé car il constitue un outil très efficace pour la reconstruction de la topologie la plus juste.
On part d’un arbre en étoile on ne lie aucun taxon.
On recherche le couple de taxa i et j qui une fois clustérisé minimise la longueur totale de l’arbre.
On recalcule la matrice de distances en considérant les UTO i et j comme un groupe (i,j)
indissociable.
On réitère la démarche jusqu’à ce qu’il n’y ait plus de taxa dans la matrice, ce qui correspond à des
itérations.
Cluster : ensemble de données présentant des similarités.
Clustérisation : partitionnement des données (ou division des données en groupes homogènes)..
- 12 -
Procédure de calcul
- Soit une matrice donnée M n,n, sa matrice Neighbor-Joining M* est définie ainsi :
M*i,j = di,j - Si – Sj
avec di,j : distance entre i et j
S: distance totale moyenne pour chaque taxon X définie par Si = (summ all dX) / (n-2), appelée
aussi dissimilarité moyenne.
- créer un nœud U qui relie les M*i,j les plus faibles, c’est-à-dire le plus petit élément de M*
correspond au voisinage (NJ) des deux espèces i et j dans l’arbre en construction.
Créer une nouvelle matrice de distances en calculant les distances U1k, U1l, U1m….en se basant
sur les distances i,j de la matrice M et les équations : dU1k +dU1j = dj,k.
La matrice obtenue M est transformée en matrice NJ, M*. Cette étape est une répétition de l’étape
de départ, avec des données modifiées.
On effectue des itérations jusqu’à épuisement des UTO.
Dans ce cas l’arbre NJ est reconstruit.
Algorithme
1. Pour chaque taxon calculer Se = Si / (n-2)
2.Choisir et i et j pour lesquels dij – Si – Sj est la plus petite
- 13 -
5. Calculer la distance entre le nouveau noeud (ij) et chaque autre feuille comme :
d(ij),k = (di,j)/2 – (Si- Sj) /2
6. S’il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en
1.
Application n° 1: appliquer la méthode NJ sur les données de distance génétique entre 6 espèces A,
B, C, D. E, F.
X (espèce) A B C D E F
A 5 4 7 6 8
B 5 7 10 9 11
C 4 7 7 6 8
D 7 10 7 5 9
E 6 9 6 5 8
F 8 11 8 9 8