Vous êtes sur la page 1sur 3

Syntonizer : un outil pour l’exploration des synténies

bactériennes

L. Labarre 1, D. Vallenet 1, F. Boyer 2, A. Morgat 3, A. Viari 2, P. Durand 4 et C. Médigue 1


1
CNRS UMR 8030 - Centre National de Séquençage - 2, rue Gaston Crémieux CP5706 - 91057 Evry Cedex - France
2
INRIA Rhône-Alpes - Groupe HELIX - 655, avenue de l’Europe - 38334 Montbonnot Cedex - France
3
Institut Suisse de Bioinformatique - Groupe SWISS-PROT - 1, rue Michel Servet - CH-1211, Genève - Suisse
4
INRIA Rennes - IRISA - Campus de Beaulieu - 35402 Rennes Cedex - France.
labarre@genoscope.cns.fr

Résumé : Le Syntonizer est un outil dédié à la détection et à l'exploration de groupes de gènes en synténie
conservée entre génomes bactériens. La méthode de calcul mise en oeuvre gère tous les remaniements
possibles et autorise la combinaison de plusieurs critères de correspondance entre gènes. Le serveur web
développé permet le calcul dynamique des syntons et leur analyse à travers une série d’interfaces
élaborées.

Mots-clés : synténie, graphe, contexte génomique, génomique comparative.

1 Introduction :

Le terme "synténie" est issu du monde eucaryote et signifie littéralement “sur le même ruban”. Il est
initialement utilisé pour décrire la localisation physique de gènes sur un même chromosome. Chez les
procaryotes, on parle de “groupe de synténie” pour décrire, dans le cadre de comparaisons entre génomes,
les groupes de gènes co-localisés sur un génome, dont les correspondants, sur un autre génome, sont eux
aussi co-localisés. Caractériser des groupes de synténie (ou syntons) consiste donc à déterminer les
ensembles de gènes dont l'organisation sur le chromosome est restée relativement conservée au cours de
l'évolution. Il est aujourd’hui reconnu que dans de nombreux génomes procaryotes, il existe une corrélation
forte entre l’organisation synténique et l’interaction physique entre les produits des gènes voisins. Les
syntons fournissent alors des indices importants sur le rôle fonctionnel, la co-expression ou la co-régulation
des gènes qui les constituent [1,2]. L’étape d’identification des syntons est également essentielle lorsque l’on
cherche à enrichir les annotations sur un génome, à partir de celles disponibles sur un autre génome considéré
en référence. Différentes approches ont été proposées par le passé [3], mais elles ne traitent pas toujours très
bien les correspondances multiples entre gènes (à l’origine de paralogies) et se limitent souvent à la notion de
colinéarité stricte. Nous présentons le Syntonizer qui est un outil dédié à la détection et à l'exploration de
groupes de gènes en synténie conservée entre génomes bactériens. La méthode de calcul mise en oeuvre gère
tous les remaniements possibles et différents critères de correspondances entre gènes peuvent être utilisés. Le
serveur web du Syntonizer permet le calcul dynamique des syntons et leur analyse à travers une série
d’interfaces élaborées.

2 Méthode :

Nous utilisons le formalisme des graphes mathématiques pour modéliser les groupes de synténie. Dans notre
représentation, les gènes sont considérés comme étant les nœuds d'un graphe, et sont connectés par deux
types d'arêtes : la relation de “correspondance” (entre gènes de génomes différents) et la relation de “co-
localisation” (entre gènes d'un même génome). La relation de correspondance est traditionnellement établie
sur des résultats de comparaison de séquence, avec des contraintes restrictives sur la similitude (e.g. meilleur
correspondant, identité, recouvrement des séquences). Cette relation peut aussi représenter d'autres types de
correspondances entre gènes, comme l'appartenance à une même classe fonctionnelle, la prédiction d'une
même activité enzymatique ou encore la présence de domaines protéiques conservés. Une des particularités
de notre méthode est de gérer les correspondances multiples entre gènes, autorisant ainsi la détection
d'évènements de fusions/fissions et autres duplications de gènes. La relation de co-localisation est définie
par un paramètre d’espacement (‘gap’) (nombre maximum de gènes consécutifs non membres du groupe,
séparant deux membres du groupe). Cette définition permet sans a priori de détecter tous les évènements de
ré-arrangements possibles (inversion, translocation, insertion/délétion) entre les groupes de gènes qui se
correspondent. Elle permet ainsi d'observer des regroupements conservés de gènes plus larges que ceux dus à
la contiguïté et à la colinéarité strictes. L’originalité de notre approche réside dans le fait que nous laissons à
l’utilisateur la possibilité de définir dynamiquement les deux types de relations, autorisant ainsi les
comparaisons en fonction de problématiques particulières : recherche de régulons, de clusters métaboliques
ou de complexes protéiques. L’algorithme implémenté calcule les groupes de synténie en recherchant les
ensembles maximaux de couples de gènes correspondants dont les éléments -sur chacun des deux génomes
comparés- vérifient la relation de co-localisation. La solution est obtenue en effectuant un raffinement de
partition sur l’ensemble des couples de gènes. Par conséquent un couple de gènes ne peut être impliqué que
dans un seul synton, mais un gène peut être impliqué dans différents syntons. Cette méthode a été généralisée
et appliquée à d’autres types de réseaux d’objets biologiques [4].

3 Le serveur web :

L’architecture du serveur web est divisée en trois niveaux distincts : la base de données relationnelle
contenant les informations génomiques, l’application chargée du calcul des groupes de synténie (présentée
dans la section précédente) et une série d’interfaces web dédiées à l’exploration des résultats.
Le Syntonizer est alimenté par une base de données relationnelle conçue pour l’annotation comparative des
génomes bactériens. Elle est divisée en deux parties : (i) Une partie statique qui contient la description des
objets génomiques (eg. CDS, tRNA, rRNA). Les informations de positionnement des CDS sur leur réplicon
permettent d’évaluer leur co-localisation. Elle contient également les éléments de comparaison permettant
d’établir les correspondances entre objets de différents génomes : les résultats d’alignements de séquences
(BlastP), de prédictions de classes fonctionnelles (COG [5]), de prédictions d’activités enzymatiques (Priam
[6]) et de recherches de domaines protéiques (Pfam [7]). Ces comparaisons sont pré-calculées car coûteuses
en temps de calcul. (ii) Une partie dynamique qui gère les sessions utilisateur. Elle permet notamment de
stocker les résultats du calcul des groupes de synténie (tables contenant les syntons détectés et les relations de
correspondance impliquées).
Les interfaces du Syntonizer sont organisées en deux sections: une première destinée au calcul dynamique
des syntons et une seconde dédiée à l’exploration des résultats. L’utilisateur choisit les paramètres
nécessaires au calcul suivant trois étapes : le choix des organismes à comparer (un organisme pivot par
rapport à N autres organismes) ; la définition des critères de correspondance (résultats d’alignements, même
classe fonctionnelle, même domaine protéique ou une combinaison de ces différents types) ; le choix du
critère de co-localisation. Le calcul des synténies achevé (quelques secondes), l’utilisateur accède à un
tableau de statistiques qui résume les résultats. Il peut, à ce stade, ajuster les paramètres et relancer le calcul
ou bien explorer les résultats obtenus. Le Syntonizer fournit une série d’interfaces graphiques (dotplot, n-
plot) ou textuelles (requêtes, filtres) donnant une vue d’ensemble sur les résultats. Ces vues globales sont
aussi des points d’entrée vers des représentations permettant une analyse plus approfondie des syntons : carte
du génome étudié figurant les synténies partagées avec les autres organismes, tableau de gènes en synténie
avec certains organismes mais pas avec d’autres, carte détaillée de chaque synton (éléments et relations qui le
composent). L’utilisateur peut également importer ses propres séquences génomiques afin de les comparer à
celles présentes dans la base et exporter les résultats de la détection des groupes de synténie.

3 Conclusion :

Les résultats du Syntonizer sont systématiquement intégrés à la plateforme d’annotation MaGe développée à
l’Atelier de Génomique Comparative où nous gérons de nombreux projets d'annotation de génomes
bactériens séquencés au Genoscope (eg. Acinetobacter sp. ADP1 [8]). Les fonctionnalités offertes par le
Syntonizer sont actuellement exploitées dans le cadre de l’annotation de Frankia alni, bactérie -symbiote de
plantes et fixatrice d’azote- d’intérêt écologique et environnemental.
Le serveur web est accessible à l’adresse suivante : http://www.genoscope.cns.fr/agc/tools/syntonizer/. Le
programme implémentant la méthode de calcul des groupes de synténie est disponible sous forme d’une
application Java.
Références :

[1] Functional clues for hypothetical proteins based on genomic context analysis in prokaryotes. Doerks T, von Mering
C, Bork P. Nucleic Acids Res. 2004 Dec 1; 32(21):6321-6. Print 2004.
[2] Missing genes in metabolic pathways: a comparative genomics approach. Osterman A, Overbeek R. Curr Opin
Chem Biol. 2003 Apr;7(2):238-51.
[3] Computational approaches for the analysis of gene neighbourhoods in prokaryotic genomes. Rogozin IB, Makarova
KS, Wolf YI, Koonin EV. Brief Bioinform. 2004 Jun;5(2):131-49.
[4] Syntons, Metabolons and Interactons: an exact graph-theoretical approach to merge genomic and functional data.
Boyer F, Morgat A, Labarre L, Pothier J, Viari A. Submitted April 2005.
[5] The COG database: a tool for genome-scale analysis of protein functions and evolution. Tatusov RL, Galperin MY,
Natale DA, Koonin EV. Nucleic Acids Res. 2000 Jan 1; 28(1): 33-36.
[6] Enzyme-specific profiles for genome annotation: PRIAM. Claudel-Renard C, Chevalet C, Faraut T, Kahn D.
Nucleic Acids Res. 2003 Nov 15; 31(22): 6633-6639.
[7] The Pfam protein families database. Bateman A, Coin L, Durbin R, Finn RD, Hollich V, Griffiths-Jones S, Khanna
A, Marshall M, Moxon S, Sonnhammer EL, Studholme DJ, Yeats C, Eddy SR. Nucleic Acids Res. 2004 Jan 1;
32(Database issue): D138-D141.
[8] Unique features revealed by the genome sequence of Acinetobacter sp. ADP1, a versatile and naturally
transformation competent bacterium. Barbe V, Vallenet D, Fonknechten N, Kreimeyer A, Oztas S, Labarre L,
Cruveiller S, Robert C, Duprat S, Wincker P, Ornston LN, Weissenbach J, Marlière P, Cohen GN, Médigue C.
Nucleic Acids Res. 2004; 32(19): 5766-5779. published online before print October 28, 2004