Vous êtes sur la page 1sur 51

LES ARBRES

PHYLOGÉNÉTIQUES

M2 Microbiologie
Année 2022/2023
Après avoir discuté des alignements multiples (MSA), il s'avérait logique de
vous présenter l'étape suivante : la construction d'arbres phylogénétiques. Je
précise que je ne parlerai ici que de phylogénie moléculaire.

La phylogenèse ou phylogénie, du grec ancien φῦλον / phûlon, « tribu,


famille, clan » et γένεσις / génesis, « création », est l'étude des liens de
parenté entre les êtres vivants et ceux qui ont disparu : entre individus ; entre
populations ; entre espèces aboutissant à l'établissement
d'un arbre généalogique
Le but de la phylogénie est de comprendre les relations de
parenté, de retracer l’historique évolutif d’un gène, d’une famille de
gènes ou d’une espèce. Les arbres phylogénétiques sont une très bonne
manière de schématiser et d'appréhender ces relations rapidement.

La phylogénie moléculaire renseigne sur les changements survenus au niveau


des séquences biologique (nucléique, proteique) au cour du temps
(évolution)

Les relations mise en évidence de la phylogénie sont représentés


graphiquement sous la forme d’arbre Phylogénétique

La phylogénie trouve ses applications dans plusieurs domaines systematique,


génétique des populations, écologie épidémiologie, phytogéographie
L’anatomie d’un arbre phylogénétique
Quand on dessine un arbre phylogénétique, nous dressons notre
meilleure hypothèse sur la façon dont un ensemble d'espèces (ou
d'autres groupes) a évolué à partir d'un ancêtre commun. cette
hypothèse se base sur les informations que nous avons recueillies sur
cet ensemble d’espèces – comme leurs caractéristiques physiques et
les séquences d’ADN de leurs gènes.
Dans un arbre phylogénétique, les espèces ou groupes d'intérêt se trouvent aux
extrémités des lignes appelées branches de l'arbre. Par exemple, l'arbre
phylogénétique ci-dessous représente les relations entre cinq espèces, A, B, C, D et
E, qui sont positionnées aux extrémités des branches :

À
Cechaque point d'embranchement
modèle dans lequel se des
trouve
branchesl'ancêtre commun le
se connectent plus
représente
récent de tous les groupes
notre compréhension descendants
de l'évolution
de
de ce
cespoint. Par exemple,
espèces à partir au pointsérie
d'une OTU
d'embranchement donnant naissance aux
d'ancêtres communs. Chaque
espèces A et B, nous trouvons l'ancêtre
point d'embranchement (également
commun le plus récent de ces deux
appelé Auun
espèces. nœud interne)
point d'embranchement juste
représentede la racine
au-dessus un de phénomène
l'arbre, nous Noeud
de divergence, Branche
trouvons l'ancêtreou la division
commun le plusd'un
récent
groupe
de toutes lesenespècesdeux
de l'arbregroupes
(A, B, C,
descendants.
D, E).
■ Chaque ligne horizontale
de notre arbre représente
une série d'ancêtres menant
jusqu'à l'espèce. Par
exemple, la ligne menant à
l'espèce E représente les
ancêtres de cette espèce-là,
à partir du moment où elle
s'est différenciée des autres
espèces de l'arbre. De
même, la racine représente
une série d'ancêtres menant
à l'ancêtre commun le plus
récent de toutes les espèces
de l'arbre.
La structure d’un arbre phylogénétique
Plusieurs style de représentations géométriques des arbres
phylogénétiques sont utilisés , avec des différences au
niveau de la forme des branches et la position de la racine
dans l’arbre
• La racine symbolise le dernier ancêtre commun (i.e. le plus récent) de
toutes les OTU
• Les arbres non racinés ne sont pas réellement des arbres phylogénétiques
car ils n’ont pas de dimension temporelle => N’indiquent pas les relations
de parenté entre les OTU
■ Un arbre peut être non raciné dans ce cas c’est une représentation
intemporelle
■ Le Racinement d’un arbre phylogénétique est effectué par le positionnement
d’une racine sur l’une des branche de cet arbre
■ Certaine méthodes de construction d’arbre
phylogénétiques produisent des arbres non racinés
qui doivent alors être enracinés ( c’est-à-dire
supplémenté par une racine

■ Ainsi, les critères employés par ces méthodes ne


permettent de trancher entre aucune des positions
possible de la racine. Alors, La racine dois être
ajoutée manuellement
Comment enraciner un arbre
phylogénétique ?
• La méthode de racinement la plus utilisée est celle du
Groupe externe (Outgroup)

• Elle consiste à choisir, en plus des séquence de l’étude,


une ou plusieurs partie du grupe étudié.

• Le choix de sequences du groupe externe dois se faire de


sorte que ce dernier soit à l’extérieur du groupe d’étude,
tout en étant le plus proche
Exemple de racinement d’un arbre par méthode du groupe externe
(Outgroup)
Échelle d’un arbre phylogénétique

Représentation sans échelle Représentation avec échelle


Les longueurs de branches ne (nombre de substitutions, nombre de
sont pas proportionnelles au substitution/sites). Les longueurs de branches
sont proportionnelles au nombre de
nombre de changements substitutions ou nombre de substitutions/sites
évolutifs qui se sont produites le long de la branche
•Un arbre phylogénétique est un schéma qui représente les relations
évolutives entre des organismes. Les arbres phylogénétiques sont des
hypothèses, et non des faits définitifs.

•Le schéma de ramification dans un arbre phylogénétique reflète la façon


dont les espèces ou d'autres groupes ont évolué à partir d'une série d'ancêtres
communs.

•Dans un arbre phylogénétique, deux espèces ont un lien de parenté plus


fort si elles ont un ancêtre commun plus récent, et moins fort si elles ont un
ancêtre commun plus lointain.

•Les arbres phylogénétiques peuvent être dessinés selon différents styles


similaires. Faire pivoter un arbre sur ses points d'embranchement ne change
pas l'information qu'il contient.
D'où viennent ces arbres ?
■ Pour créer un arbre phylogénétique, les scientifiques
comparent et analysent de nombreuses caractéristiques de
l'espèce ou d'autres groupes concernés. Ces caractéristiques
peuvent comprendre la morphologie externe
(forme/apparence), l'anatomie interne, les comportements,
les voies biochimiques, les séquences ADN et protéines et
même les caractéristiques fossiles.
1. Sélection des données (séquences)

2. Alignement des séquences

3. Construction de l’arbre

Choix de la méthode d ’inférence

Probabilistes Parcimonie Distance

4 .Détermination de la robustesse
•Un arbre phylogénétique peut être construit en utilisant des
caractéristiques morphologiques (forme corporelle), biochimiques,
comportementales ou moléculaires d'espèces ou d'autres groupes.

•En composant un arbre, on organise des espèces en groupes imbriqués sur


la base du partage de caractères dérivés (traits qui diffèrent de ceux de
l'ancêtre du groupe).

•Les séquences de gènes ou de protéines peuvent être comparées entre


les espèces et utilisées pour construire des arbres phylogénétiques. Les
espèces proches présentent généralement peu de différences de
séquence, alors que les espèces moins apparentées tendent à en avoir
davantage.
Avant de générer un arbre phylogénique, il faut savoir ce que l'on
cherche à voir/à montrer et se poser les bonnes questions.

La première de ces questions est de savoir si la visualisation en arbre


est la meilleure pour nos données!!!.
En effet, cela ne sert à rien de vouloir construire un arbre si les
séquences que l'on a en main sont trop éloignées en terme d'évolution.

Mais si la réponse est oui, il faut alors considérer le degré de précision


désiré : cherche-t-on à obtenir une phylogénie rigoureuse ou simplement
à 'se faire une idée' sur nos données ?

En effet, en fonction des besoins, plusieurs méthodes de génération


d'arbres employant différents algorithmes existent et peuvent être
utilisées.
Quand on construit des arbres phylogénétiques, les traits qui
surviennent au cours de l'évolution d'un groupe et qui diffèrent des
ceux de l'ancêtre du groupe sont appelés les caractères dérivés.
La phylogénie utilise des données actuelles sur les
organismes vivants pour retracer l’histoire évolutive des organismes

■ Les données utilisées pour la construction des arbre phylogénétique sont


des structures homologues

■ Ces données sont classées en deux groupes distinct

Données Données
phénotypiques génotypiques
Des structures sont homologues chez deux organismes si elles
dérive d’une même structure chez un ancêtre commun de ces
organismes

Des structures apparues indépendamment qui


remplissent une même fonction sont dites analogues ou
convergentes
Les données phénotypiques

■ Elles comprennent des caractères observables (aux différents états:


morphologique, biochimique, physiologique) mesurable par un langage
binaire (+/- ; a/b) ( de type présence d’un caractère donné/ absence de
ce même caractère.

Caractère 1 Caractère 2 Caractère 3 Caractère 4


Taxon 1 1 1 1 1
Taxon 2 1 0 1 0
Taxon 3 0 1 1 0
Taxon 4 1 1 0 1
Les données Moléculaires

Elles sont soit des séquences nucléiques telle que les séquences de gènes, ou des
fragments particuliers du génome: gènes de ménages, gènes d’ARNm, gènes
d’ARNr, ITS (Internal transcripted spacer), transposons, des séquences
protéiques; enzymatiques ou de structure, proteines mitochondriales, actines,
etc. ou des traits non-séquentiels (élément moleculaire mais pas forcement des
séquences: exp fréquence d’apparition de certains gène, présence ou absence de
certain caractères moléculaire (site de restriction, gène, proteine…)
On parle de marqueurs moléculaires.

Un marqueur moléculaire (ADN, ARN,Proteine) est un indicateur de la


variabilité génétique dans le temps. car c’est une molécule qui est présente
chez tous les individus de l’étude et qui présente un taux de mutation assez
faible
■ Un marqueur moléculaire doit être:
■ Universel
■ Structure conservée
■ Taux d’evoution approprié
■ Pas de transfert génétique/ recombinaison
■ Orthologues vs. Paralogues
■ Lorsque l'on compare des séquences de gènes, il est important de
distinguer dans différents organismes les gènes iden1ques de ceux
seulement similaires.
■ Orthologues sont des gènes homologues chez différentes espèces ayant
des fonctions analogues.
■ Paralogues sont des gènes similaires qui sont le résultat d'une duplica1on
génique.
■ Une phylogénie qui comprend des orthologues et des paralogues est
suscep1ble d'être inexacte.
■ Parfois, l'analyse phylogéné1que est la meilleure façon de déterminer si un
nouveau gène est un orthologue ou paralogue à d'autres gènes connus.
Caractères homologues : qui descendent d'une même structure
ancestrale
La première étape de la reconstruction phylogénétique consiste à émettre
des hypothèses d'homologie
homologie secondaire = résultat
d’une analyse phylogenétique, qui montre que:
les structures homologues sont héritées d’un seul ancêtre commun
(hypothétique)
autrement dit similarité dûe à la descendance
1. Sélection des données (séquences)

2. Alignement des séquences

3. Construction de l’arbre

Choix de la méthode d ’inférence

Probabilistes Parcimonie Distance

4 .Détermination de la robustesse
■ Toutes les méthodes d’alignement multiples sont utilisables en
phylogénie, mais se sont les méthodes d’alignements
multiples progressifs qui sont privilégiées en raison de leur
rapidité d’exécution et de la taille importante des données
généralement analysées pour la construction des arbres
phylogénétiques

■ Exemple de méthode employée : clustal, coffee et muscle


Concepts et notions essentielles
• parenté: qui est + proche de qui ? (et non qui descend de qui)
=> On cherche le groupe frère, pas l’ancêtre

• groupe monophylétique: ancêtre hypothétique + tous ses descendants.


Ils partagent tous au moins une synapomorphie: un caractère dérivé
partagé (présent chez tous les membres de ce groupe)

• groupe paraphylétique: il manque un des descendants

• homologie: structures homologues sont héritées d’un même ancêtre commun

• analogie: structures analogues (=convergentes) ont une fonction, (elle se


ressemblent) mais qui sont apparues indépendamment
1. Sélection des données (séquences)

2. Alignement des séquences

3. Construction de l’arbre

Choix de la méthode d ’inférence

Probabilistes Parcimonie Distance

4 .Détermination de la robustesse
Lorsque l'on désire construire un arbre phylogénétique, la première étape
consiste à mettre en correspondance les sites des séquences comparables qui
sont obtenus après l'étape d'alignement des séquences. Puis, une fois que les
séquences sont alignées, différentes méthodes de génération d'arbres
phylogénétiques, appelées méthodes d'inférence phylogénétique, peuvent
être appliquées pour obtenir l'arbre qui reflète le mieux les données.

Trois familles principales de méthodes :


• Méthodes de distances
• Parcimonie
• Méthodes probabilistes (maximum Méthode de
de vraisemblance, méthodes caractères
bayesiennes)
Méthodes basées sur les distances
■ Les méthodes basées sur les distances utilisent une matrice d'estimation de la
distance évolutive appelée matrice de dissimilarités (nombre de
substitutions par site) , obtenue en comparant les paires de séquences. Elles
comprennent, par exemple :
1. La méthode UPGMA (Unweighted Pair Group Method with Arithmetic Mean) de
Sokal et Michener (Sokal et Michener, r6), qui, par itérations successives, réduit
progressivement la taille de la matrice fournissant l'ensemble des distances entre toutes
les paires de séquences, et produit un arbre enraciné. Elle a vite été délaissée au profit de
sa cousine (NJ) qui est plus adaptée aux études phylogéniques moléculaires.

2. La méthode du Neighbour Joining (Neighbor Joining NJ) de Naruya Saitou and


Masatoshi Nei (Naruya et Masatoshi, r5), qui, à la différence avec la méthode UPGMA,
effectue la recherche séquentielle des voisins en minimisant la longueur totale de l'arbre,
et produit des arbres non enracinés. elle a l'avantage d'être vraiment rapide. En général,
elle est utilisée pour faire des arbres de plusieurs milliers de séquences.
Méthodes basées sur les caractères
Les méthodes basées sur les caractères reposent sur un ou plusieurs caractères à étudier.
Parmi ces méthodes probabilistes, les plus courantes sont basées sur:

1. La méthode du maximum de vraisemblance (Maximum Likelihood ML) c'est une


méthode dite de caractère(s), elle repose sur un ou plusieurs caractères à étudier. Il s'agit
d'une méthode probabiliste qui nécessite un modèle d’évolution. Le choix de ce modèle
est crucial pour la qualité de l’arbre obtenu. On dit qu'il convient de l'utiliser à partir du
moment où le nombre de caractères analysés est supérieur à la moitié du nombre
de séquences analysées, sinon la reconstruction est considérée comme incorrecte. Elle est
souvent décrite comme étant la meilleure méthode, c'est-à-dire la plus efficace pour
trouver l'arbre le plus proche de la réalité. Son désavantage se situe au niveau des temps
de calculs qui sont extrêmement longs (il m'est arrivé d'avoir des jobs tournant sur le
cluster pendant plusieurs semaines pour des fichiers contenant plusieurs centaines de
séquences).
propriétés
■ C’est la méthode la mieux justifiée au plan théorique.
■ Des expériences de simulation de séquences ont montré que
cette méthode est supérieure aux autres dans la plupart des
cas.
■ Mais c’est une méthode très lourde en calculs.
■ Il est presque toujours impossible d’évaluer tous les arbres
possibles car ils sont trop nombreux. Une exploration partielle
de l’ensemble des arbres est réalisée.
2. La méthode du maximum de parcimonie (Maximum Parcimony)
de Warren Herbert Wagner (Joe Felsenstein, r8), qui consiste à rechercher
parmi tous les arbres possibles et toutes les séquences possibles de noeuds
ancestraux, la combinaison qui requiert le plus petit nombre de
changements évolutifs dans l'arbre phylogénétique (le moins de mutation)
en calculant le score de parcimonie. elle est très appréciée car rapide en
temps de calcul, mais pas aussi précise que sa cousine (ML). Comme
souvent donc, on gagne du temps de calcul mais on perd de la précision.

3. La méthode bayésienne de Delsuc et Douzery (Delsuc et Douzery,


r10), qui utilise une distribution à priori de tous les paramètres (topologies,
longueurs des branches, taux relatifs des substitutions)
Quelques propriétés de la Parcimonie
• Conduit à des arbres sans racine.
• Algorithme et principe généraux (ADN, protéines, morphologie)
• La position des changements sur chaque branche n’est pas unique => la parcimonie
ne permet pas de définir la longueur des branches de façon unique.
• Plusieurs arbres peuvent être également parcimonieux (même longueur, la plus
petite de toutes).
• Le nombre d’arbres croit très vite avec le nombre de séquences traitées: La
recherche de l’arbre le plus court doit être limitée à une fraction de l’ensemble de tous
les arbres possibles => On n’a plus de certitude de trouver l’arbre le plus court
Il faudra donc retenir ceci : vous devrez sélectionner votre méthode en
fonction de vos données et de vos besoins. De même, le facteur temps peut rentrer
en jeu : peut-être vous demandera-t-on d'être plus rapide que précis dans un
premier temps. Vous privilégierez alors la méthode NJ à défaut de la ML qui serait
pourtant plus pertinente.
Toutes les méthodes énoncées plus haut peuvent (et je dirais même
doivent) être complétées par un bootstraping (bootstrap). Il s'agit d'un
dérivé des simulations de Monte-Carlo, qui consiste à échantillonner
les positions de l'alignement pour relancer la construction
phylogénétique de façon itérative puis de comparer les résultats
obtenus après 10, 100, 5000 répétitions.
Il s'agit ici d'estimer la robustesse d'une phylogénie. Vous pourrez ainsi
voir apparaître entre chaque branche de votre arbre une valeur de
bootstrap (de 0 à 100%) traduisant le nombre de fois où cette branche a
été retrouvée au fil des répétitions et juger ainsi de leur crédibilité. On
dit en général qu'une valeur en dessous de 95 n'est pas à prendre en
compte. Suivant les cas, on pourra revoir ce seuil (cut-off) à la baisse et
bien souvent on se contentera d'un bootstrap d'environ 70 (plus ou
moins).

Vous aimerez peut-être aussi