Vous êtes sur la page 1sur 282

tel-00425212, version 1 - 20 Oct 2009

tel-00425212, version 1 - 20 Oct 2009 2009EVRY0017 É LUCIDATION DU METABOLISME DES MICROORGANISMES PAR LA

2009EVRY0017

ÉLUCIDATION DU METABOLISME DES MICROORGANISMES PAR LA MODELISATION ET LINTERPRETATION DES DONNEES DESSENTIALITE DE GENES.

APPLICATION AU METABOLISME DE LA BACTERIE ACINETOBACTER BAYLYI ADP1.

MAXIME DUROT

Thèse de Doctorat

Spécialité : Bioinformatique, biologie structurale et génomique

Université Evry Val d’Essonne

École doctorale : Des génomes aux organismes

Soutenue le 12 octobre 2009 devant le jury composé de :

Soutenue le 12 octobre 2009 devant le jury composé de : Jean-Pierre MAZAT Stefan SCHUSTER Antoine

Jean-Pierre MAZAT Stefan SCHUSTER Antoine DANCHIN Eytan RUPPIN Vincent SCHACHTER Jean WEISSENBACH

DANCHIN Eytan RUPPIN Vincent SCHACHTER Jean WEISSENBACH rapporteur rapporteur examinateur examinateur directeur de

rapporteur rapporteur examinateur examinateur directeur de thèse directeur de thèse

Vincent SCHACHTER Jean WEISSENBACH rapporteur rapporteur examinateur examinateur directeur de thèse directeur de thèse
Vincent SCHACHTER Jean WEISSENBACH rapporteur rapporteur examinateur examinateur directeur de thèse directeur de thèse

tel-00425212, version 1 - 20 Oct 2009

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

RESUME

Thèse de doctorat 2009

Deux échelles d’observations sont traditionnellement utilisées pour étudier le métabolisme des microorganismes: d’une part, à l’échelle locale, la caractérisation individuelle des réactions ayant lieu dans la cellule et d’autre part, à l’échelle globale, l’étude de la physiologie de la cellule. Ces deux échelles ont bénéficié de progrès technologiques récents : l’analyse des génomes séquencés permet d’identifier une large fraction des enzymes catalysant les réactions ; la physiologie des microorganismes peut être étudiée à haut débit pour de nombreux environnements et perturbations génétiques. Cependant, l’exploitation conjointe de ces deux échelles demeure complexe car le comportement physiologique global de la cellule résulte de l’action coordonnée de nombreuses réactions. Les approches de modélisation mathématique ont toutefois récemment permis de relier ces deux échelles à l’aide de modèles globaux du métabolisme. Dans cette thèse, nous explorerons l’utilisation de ces modèles pour compléter la connaissance des réactions à l’aide d’une catégorie particulière de données d’échelle globale : les essentialités de gènes déterminées en observant les phénotypes de croissance de mutants de délétion. Nous nous appuierons pour cela sur la bactérie Acinetobacter baylyi ADP1 pour laquelle une collection complète de mutants de délétion a été récemment constituée au Genoscope. Après avoir présenté les étapes clés et les développements que nous avons effectués pour reconstruire un modèle global du métabolisme d’A. baylyi, nous montrerons que la confrontation entre phénotypes observés et phénotypes prédits permet de mettre en évidence des incohérences entre les deux échelles d’observations. Nous montrerons ensuite qu’une interprétation formelle de ces incohérences permet de corriger le modèle et d’améliorer la connaissance du métabolisme. Nous illustrerons ce propos en présentant les corrections que nous avons réalisées à l’aide des phénotypes de mutants d’A. baylyi. Enfin, dans une dernière partie, nous proposerons une méthode permettant d’automatiser la correction des incohérences causées par des erreurs d’association entre gènes et réactions.

3

tel-00425212, version 1 - 20 Oct 2009

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

ABSTRACT

Thèse de doctorat 2009

Model-based investigation of microbial metabolism to interpret gene essentiality results, illustrated on Acinetobacter baylyi ADP1 metabolism.

Microbial metabolism has traditionally been investigated at two different scales: the finest involves characterizing individually each reaction occurring in the cell; the largest focuses on global cell physiology. Both scales have recently benefited from technological advances: analyzing sequenced genomes identifies a large fraction of reaction-catalyzing enzymes; cell physiology can be determined at high-throughput for several environmental conditions and genetic perturbations. Combining both scales remains, however, especially complex as the global physiological behavior of a cell results from the coordinated action of a large network of reactions. Mathematical modeling approaches have yet shown recently that genome-scale metabolic models could help in linking both scales. In this thesis, we explore the use of such models to expand the knowledge of reactions with a specific type of high-level data: gene essentiality data, assessed using growth phenotypes of deletion mutants. We will use as model organism the bacterium Acinetobacter baylyi ADP1, for which a genome-wide collection of gene deletion mutants has recently been created. Following a presentation of the key steps and developments that have been required to reconstruct a global metabolic model of A. baylyi, we will show that confronting observed and predicted phenotypes highlight inconsistencies between the two scales. We will then show that a formal interpretation of these inconsistencies can guide model corrections and improvements to the knowledge of metabolism. We will illustrate this claim by presenting model corrections triggered by A. baylyi mutant phenotypes. Finally, we will introduce a method that automates the correction of inconsistencies caused by wrong associations between genes and reactions.

5

tel-00425212, version 1 - 20 Oct 2009

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

REMERCIEMENTS

Thèse de doctorat 2009

Je tiens à remercier en premier lieu Vincent Schachter, pour m'avoir tout d'abord convaincu d'entreprendre cette thèse puis guidé scientifiquement ces quatre années. Il aura été le garant de la présence de développements méthodologiques et théoriques dans mes travaux, sachant me faire prendre du recul à bon escient lorsqu’il m’arrivait de me perdre dans les détails de la biochimie d’Acinetobacter baylyi. Professionnellement, je lui suis largement redevable de m'avoir introduit dans la vie scientifique internationale à travers les collaborations, projets européens, séminaires et conférences auxquels il m'a associé.

Je remercie de même Jean Weissenbach pour avoir accepté de diriger ma thèse et permis le développement de mon sujet de recherche, relativement original au Genoscope. Mes travaux se sont fondés sur les nombreux échanges qu’il aura su favoriser avec les équipes expérimentales du laboratoire.

Un très grand merci à tous les membres de l’équipe Nemo, présents et passés, avec qui j’ai travaillé au quotidien et pu échanger des idées sur mes travaux : F. Le Fèvre, B. Pinaud, S. Smidtas, C. Combe, M. Heinig, V. Sabarly, P-Y. Bourguignon, G. Vieira et R. Baran. Merci en particulier à François Le Fèvre avec qui j’ai partagé la lourde tâche de parcourir le métabolisme entier d’A. baylyi et pour ses encouragements de collègue de bureau.

Je remercie vivement l’ensemble de l’équipe Thesaurus Métabolique du Genoscope, et en particulier Véronique de Berardinis et Marcel Salanoubat, pour

7

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

avoir apporté de la « réalité expérimentale » à mes travaux. Merci d’avoir passé de longues heures à m’aider à mieux comprendre les habitudes d’A. baylyi et de ses mutants !

Je remercie également Alain Perret et Christophe Lechaplais pour leurs contributions expérimentales à cette thèse, ainsi qu’Annett Kreimeyer et Georges Cohen pour avoir pris le temps de puiser dans leur formidable connaissance du métabolisme pour répondre à mes questions.

Merci à l’Atelier de Génomique Comparative, et en particulier à David Vallenet pour m’avoir donné une loupe pour explorer les génomes bactériens et à Claudine Médigue pour m’avoir permis de conclure ma thèse dans son équipe.

L’aide de l’équipe informatique du Genoscope m’aura souvent été précieuse, merci à eux pour leur support et leurs conseils.

Je remercie les membres du jury pour m’avoir fait l’honneur de leur présence à ma soutenance et m’avoir aidé, par leur remarques et conseils, à améliorer mon manuscrit.

Je suis très reconnaissant envers le Genoscope et le CEA pour m'avoir permis de réaliser cette thèse conjointement avec mes activités professionnelles.

Enfin, un grand merci pour leur soutien sans faille à mes parents, ma sœur, ma belle-famille et l’ensemble de mes proches que je ne saurai lister ici. Et, plus que tout, merci à ma femme, Marie-Perrine, pour son amour qui aura toujours su me remotiver dans les moments difficiles et pour avoir mené de front avec succès préparation de mariage et soutien de conjoint en rédaction de thèse !

8

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

TABLE DES MATIERES

RESUME

3

ABSTRACT

5

REMERCIEMENTS

 

7

TABLE DES MATIERES

9

AVANT-PROPOS

13

INTRODUCTION

17

1 LE METABOLISME : LA CHIMIE DU VIVANT

17

1.1 QUELQUES FAITS REMARQUABLES

 

17

1.2 LES ACTEURS DU METABOLISME

 

22

1.2.1 Métabolites

22

1.2.2 Réactions

23

1.2.3 Enzymes

24

1.2.4 Cinétique des réactions métaboliques

25

1.2.5 Contrôle des réactions métaboliques

 

28

1.2.6 Aspects thermodynamiques

 

29

1.3 STRUCTURE ET ORGANISATION DU METABOLISME

31

1.3.1 Le réseau métabolique

 

31

1.3.2 Organisation globale du métabolisme

34

1.4 METHODES DEXPLORATION DU METABOLISME

37

1.4.1 Élucidation expérimentale

des

voies métaboliques

37

1.4.2 Méthodes bioinformatiques de reconstruction des réseaux métaboliques

39

1.4.3 Vers une étude globale du métabolisme

41

2 PHENOTYPES DE CROISSANCE ET ESSENTIALITE DE GENES

44

2.1 PHENOTYPES DE CROISSANCE

 

44

2.2 EXPLORATION GENETIQUE DES PHENOTYPES DE CROISSANCE

46

2.2.1 Techniques expérimentales

 

47

2.2.2 Exploitation des données d’essentialité

53

3 MODELISATION DU METABOLISME

 

56

3.1 APPROCHES DE MODELISATION DU METABOLISME

57

3.2 LES MODELES A BASE DE CONTRAINTES : RECONSTRUCTION ET APPLICATIONS

63

3.2.1 Article de revue

 

64

3.2.2 Compléments méthodologiques

 

65

3.3 MODELISATION DU METABOLISME ET PHENOTYPES DE CROISSANCE: ETAT DE LART

71

3.3.1

Modèles à base de graphe

71

9

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

3.3.2

Modèles à base de contraintes

72

4 NOTRE ORGANISME MODELE : ACINETOBACTER BAYLYI ADP1

73

4.1 CARACTERISTIQUES REMARQUABLES

73

4.2 ANNOTATION DU GENOME

76

4.3 COLLECTION DE MUTANTS DE DELETION

79

5 SYNTHESE ET OBJECTIFS DE LA THESE

83

RECONSTRUCTION D’UN MODELE GLOBAL DU METABOLISME D’ACINETOBACTER

BAYLYI ADP1

85

6 PROCESSUS DE RECONSTRUCTION

85

6.1 IDENTIFICATION DES ACTIVITES METABOLIQUES

88

6.2 ADAPTATION AUX « CONTRAINTES » DE MODELISATION

93

6.2.1 Fonctionnement des voies métaboliques

93

6.2.2 Équilibre des équations bilans

95

6.2.3 Conservation de l’énergie

96

6.2.4 Localisation cellulaire

101

6.2.5 Spécificité des métabolites

102

6.2.6 Réversibilité des réactions

105

6.2.7 Associations

gènes-réactions

106

6.2.8 Composition de la biomasse

108

7 LE MODELE D’ACINETOBACTER BAYLYI

116

7.1 COMPOSITION METABOLIQUE GLOBALE

117

7.2 PREDICTIONS QUANTITATIVES DE CROISSANCE

120

7.2.1 Comparaison des prédictions de taux de croissance à des mesures expérimentales

120

7.2.2 Sensibilité des prédictions de taux de croissance aux paramètres énergétiques

124

7.3 DISPONIBILITE DU MODELE

126

EXPLOITATION DES PHENOTYPES DE CROISSANCE DE MUTANTS PAR LE MODELE

129

8 ARTICLE : « ITERATIVE RECONSTRUCTION OF A GLOBAL METABOLIC MODEL OF ACINETOBACTER BAYLYI ADP1 USING HIGH-THROUGHPUT GROWTH

PHENOTYPE AND GENE ESSENTIALITY DATA »

130

9 SYNTHESE

 

131

9.1

LE MODELE CONFRONTE EFFICACEMENT DONNEES PHENOTYPIQUES ET CONNAISSANCE DU

METABOLISME

 

131

9.2 CADRE FORMEL DINTERPRETATION DES INCOHERENCES

133

9.3 EXPLOITATION DES INCOHERENCES NON CORRIGEES

135

9.4 LIMITES

 

137

 

9.4.1 Interprétation des phénotypes de croissance faible

137

9.4.2 Incohérences d’origine métabolique non prises en compte

140

10 EXTENSION DE L’INTERFACE WEB DE PREDICTION A D’AUTRES

ORGANISMES : CYCSIM

142

AUTOMATISATION DE L’INTERPRETATION DES INCOHERENCES D’ORIGINE GENETIQUE

144

11 LA METHODE AUTOGPR

144

11.1 PRINCIPE

 

144

11.2 ALGORITHMES

154

 

11.2.1 Génération exhaustive des corrections GPR

154

11.2.2 Test d’existence de correction GPR

161

12 RESULTATS

 

162

12.1 COMPLEXITE DES GPR DANS LES MODELES METABOLIQUES

164

12.2 STATISTIQUES GLOBALES SUR LES PROPOSITIONS D’AUTOGPR

170

 

12.2.1

Confrontation des modèles aux données d’essentialité

170

10

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

12.2.2 Tests simples d’existence de correction GPR

172

12.2.3 Proposition exhaustive de corrections GPR

176

12.3

COMPARAISON DES CORRECTIONS D’AUTOGPR AUX INTERPRETATIONS EXPERTES

180

12.3.1 Comparaison aux corrections des modèles d’A. baylyi

181

12.3.2 Comparaison aux interprétations expertes des modèles de B. subtilis et S. cerevisiae 186

13

LIMITES ET PERSPECTIVES

191

13.1 REDUCTION DE LA COMBINATOIRE DES PROPOSITIONS DE CORRECTION

191

13.2 AMELIORATION DE LA SPECIFICITE POUR LES CORRECTIONS DE GENES NON-ESSENTIELS

192

13.3 AU DELA DES TROIS HYPOTHESES FONDAMENTALES D’AUTOGPR

193

13.3.1 Associations gène-réaction prédéfinies

193

13.3.2 Composantes RESEAU et BIOMASSE fixes

194

13.3.3 GPR constantes sur tous les milieux

195

13.4

PERSPECTIVES DUTILISATION DES DELETIONS MULTIPLES

195

CONCLUSIONS ET PERSPECTIVES

197

14 CONTRIBUTIONS PRINCIPALES

197

15 REVUE DE TRAVAUX SUR LE MEME SUJET EFFECTUES SUR LA PERIODE DE LA

THESE (2005–2009)

199

16

PERSPECTIVES

202

REFERENCES BIBLIOGRAPHIQUES

205

ANNEXE

227

11

tel-00425212, version 1 - 20 Oct 2009

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

AVANT-PROPOS

Thèse de doctorat 2009

Les organismes vivants sont tous de formidables chimistes aux capacités souvent insoupçonnées. Chaque cellule est le siège d’un nombre considérable de réactions qui lui permettent de créer les molécules nécessaires à sa vie à partir des molécules de son environnement. Cet ensemble de réactions biochimiques, que l’on appelle le métabolisme des cellules, a attiré depuis longtemps la curiosité de l’homme. Non seulement, d’un point de vue fondamental, il est essentiel d’aborder la chimie des cellules pour en comprendre leur fonctionnement et leurs interactions avec le milieu extérieur, mais également, d’un point de vue pratique, l’utilisation de leurs métabolismes occupe une place significative dans les activités humaines. De la fermentation alcoolique à la synthèse de biocarburants en passant par l’épuration des eaux usées, les compétences biochimiques des organismes offrent des solutions technologiques à de nombreux besoins.

Cette thèse aborde l’étude du métabolisme de manière pluridisciplinaire, associant biochimie, génétique et modélisation mathématique. Traditionnellement, deux échelles d’observations sont utilisées pour appréhender le métabolisme. D’une part, les approches classiques de biochimie permettent de caractériser la chimie des réactions ayant lieu dans les cellules. Ainsi au cours des dernières décennies et encore aujourd’hui, un nombre croissant de réactions métaboliques sont élucidées de cette manière, principalement chez les quelques organismes modèles. D’autre part, à une échelle plus grande, l’observation de la physiologie des cellules permet d’en caractériser la biochimie de manière globale : par exemple quelles molécules

13

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

extérieures sont requises et en quelles proportions pour permettre la croissance. Bien que présentant le métabolisme sous deux échelles différentes, associer ces deux types d’observations n’est pas chose simple. Le grand nombre et la complexité des enchaînements de réactions métaboliques rendent en effet difficile la déduction de caractéristiques métaboliques globales à partir de la seule connaissance des réactions le composant. Dans ce but, des modèles mathématiques du métabolisme ont récemment été introduits pour effectuer ce raisonnement de manière appropriée. Cette thèse se propose d’approfondir l’utilisation des modèles du métabolisme dans l’objectif d’élucider au mieux le métabolisme de microorganismes encore peu étudiés en exploitant conjointement données physiologiques globales et caractérisations locales de réactions.

Ce type d’approche est aujourd’hui rendu possible grâce à des avancées technologiques récentes. D’une part, alors que les techniques expérimentales traditionnelles de biochimie ont un débit beaucoup trop faible pour détecter exhaustivement les réactions métaboliques de nouveaux organismes, le séquençage et l’annotation de leurs génomes offrent une solution alternative efficace. L’avènement des méthodes comparatives permet en effet de déduire la fonction biochimique d’une proportion significative des gènes par homologie aux gènes connus chez les autres organismes, et d’inférer ainsi une grande partie de ses réactions métaboliques. Mais l’utilisation exclusive de ces méthodes trouve rapidement ses limites pour des activités biochimiques spécifiques à l’organisme ou encore peu étudiées. D’autre part, le débit des expériences sur la physiologie des organismes a également augmenté récemment, en particulier pour les microorganismes. Nous utiliserons une catégorie particulière de ces expériences, mêlant à grande échelle perturbation génétique et caractérisation physiologique. Elles consistent à créer systématiquement un mutant de délétion pour chacun des gènes d’un organisme. La capacité ou non de croître de chacun de ces mutants dans des environnements chimiques donnés (leurs phénotypes de croissance) offre une information utile quant au rôle du gène délété – et par extension de la fonction biochimique inactivée – dans le métabolisme de la bactérie. Cette thèse explore spécifiquement l’utilisation des modèles du métabolisme pour compléter la connaissance du métabolisme obtenue par les données de séquences avec les phénotypes de croissance expérimentaux. La bactérie Acinetobacter baylyi ADP1

14

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

(que nous nommerons simplement A. baylyi) nous accompagnera tout au long de ce manuscrit, se prêtant comme sujet d’étude à la fois in vivo et in silico.

La première partie de ce manuscrit introduit les notions manipulées dans la thèse :

le métabolisme, les expériences de génétique et la modélisation mathématique du métabolisme. Cette partie cherche à balayer l’état de l’art dans ces trois domaines et à placer la contribution de la thèse dans le contexte des travaux antérieurs pertinents.

Dans une deuxième partie, nous présenterons de manière détaillée la reconstruction du modèle métabolique global d’A. baylyi à partir de son annotation génomique. Cette section décrit naturellement le processus ayant permis d’identifier les activités métaboliques présentes chez cette bactérie, mais également les spécificités associées à la modélisation retenue. Il nous a semblé en effet important de nous attarder sur les hypothèses de modélisation et leurs conséquences sur la construction des modèles. Alors même que de nombreux articles de revue présentent comment reconstruire des voies métaboliques à partir d’une annotation d’un génome, peu d’entre eux détaillent les points clés liés à la modélisation.

La troisième partie du manuscrit aborde l’exploitation des phénotypes de mutants par les modèles métaboliques. Nous montrerons, toujours sur la base du métabolisme d’A. baylyi, qu’en identifiant les incohérences entre les phénotypes prédits par le modèle et les phénotypes observés, des erreurs dans la connaissance du métabolisme peuvent être pointées précisément. Nous verrons dans quelle mesure ces erreurs peuvent être corrigées à l’aide de ces données. Nous discuterons également à cette occasion de la notion d’essentialité des gènes, et de ses liens avec le métabolisme et l’environnement de la cellule.

La quatrième partie traite de l’automatisation de l’interprétation de ces incohérences lorsqu’elles sont d’origine génétique. À travers une formalisation rigoureuse du raisonnement portant sur l’association entre gènes et réactions, nous montrerons qu’il est possible de déduire automatiquement les associations gènes - réactions qui soient compatibles avec les phénotypes de mutants observés. Ces raisonnements retrouvent une partie des interprétations effectuées « manuellement » et forment une brique indispensable à l’interprétation métabolique à grande échelle des phénotypes de mutants.

15

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

Enfin, dans une dernière partie, nous reprendrons les principales conclusions de nos travaux et les mettrons en perspective des évolutions de la discipline. La thématique de la thèse étant en plein essor, nous réeffectuerons un tour d’horizon des travaux similaires publiés à la fin de la thèse. Plus largement, nous discuterons également de la place d’approches de modélisation dans la reconstruction du métabolisme de nouveaux organismes, à l’heure où le débit des nouvelles technologies permet de séquencer un génome bactérien en quelques jours.

16

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

INTRODUCTION

Thèse de doctorat 2009

Ce chapitre a pour but d’introduire au lecteur les concepts biologiques et mathématiques utilisés dans cette thèse et d’effectuer un état de l’art dans les domaines couverts. Nous l’avons divisé en cinq parties. La première s’attache à introduire les notions utiles à la compréhension du métabolisme des microorganismes ainsi qu’à présenter l’état de l’art quant à son exploration. La deuxième partie se concentrera sur l’utilisation des phénotypes de croissance pour étudier le métabolisme et en particulier aux techniques de génétique à haut débit associées. Dans la troisième partie, le lecteur trouvera une revue actuelle des méthodes de modélisation mathématique appliquées au métabolisme, ainsi qu’une présentation détaillée du cadre de modélisation que nous avons retenu : la modélisation à base de contrainte. Dans la quatrième, nous présenterons les caractéristiques et les ressources disponibles sur l’organisme modèle utilisé dans cette thèse, Acinetobacter baylyi ADP1. Enfin, nous effectuerons en dernier lieu une synthèse de l’état de l’art et présenterons le sujet de notre thèse dans ce contexte.

1 Le métabolisme : la chimie du vivant

1.1 Quelques faits remarquables

Une des caractéristiques majeures des organismes vivants est leur aptitude à croître et à se reproduire par eux-mêmes. Pour ce faire, les processus mis en œuvre sont en grande majorité de nature chimique (biochimique), impliquant une grande variété de molécules. On désigne généralement par métabolisme les processus

17

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

biochimiques ayant pour rôle la synthèse et la dégradation de ces biomolécules ainsi

que la transformation d’énergie chimique. Cette définition distingue ainsi le

métabolisme d’autres processus chimiques à l’œuvre dans les cellules, tels que la

signalisation, la réplication et la transcription de l’ADN, ou l’assemblage des

protéines.

Le métabolisme est indispensable à la vie. D’un point de vue thermodynamique,

les organismes vivants sont des systèmes fondamentalement hors d’équilibre qui

nécessitent pour maintenir cet état d’échanger continuellement de l’énergie et de la

matière avec le milieu extérieur (nous aborderons ce point plus en détails section

1.2.6). Le métabolisme joue un rôle essentiel dans cet échange d’énergie et de

matière. Cependant, toutes les entités vivantes ne possèdent pas nécessairement de

métabolisme propre, encore que les nombreuses définitions d’ « être vivant » soient

parfois associées à sa présence 1 . C’est le cas des virus et dans une moindre mesure de

certaines bactéries parasites ; ceux-ci exploitent directement les ressources de leurs

hôtes. À titre d’exemple, la bactérie parasite Rickettsia prowazekii, qui vit

majoritairement dans le cytoplasme de son hôte, dépend très fortement du

métabolisme de ce dernier ; elle ne peut synthétiser elle-même la plupart de ses

constituants et profite dès que possible de l’énergie chimique de son hôte (Andersson

et al. 1998).

Néanmoins, dans leur très grande majorité, les cellules des organismes vivants

consacrent une grande partie de leurs activités à exploiter et à transformer les

molécules de leur entourage (leur environnement) pour en retirer de l’énergie et créer

les molécules qui serviront à leur propre construction. Ce sont ces réactions qui font

des organismes vivants de véritables chimistes.

1 Voir par exemple les nombreuses définitions proposées dans l’article Wikipedia sur les organismes vivants : http://en.wikipedia.org/wiki/Life#Definitions .

18

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 1. Couches d’oxides

Figure 1. Couches d’oxides de fer ayant précipité sous l’action de l’oxygène produit par la photosynthèse. Photographie d’un échantillon issu de la péninsule supérieure du Michigan (source http://en.wikipedia.org/wiki/Banded_iron_formation )

Le volume d’action du métabolisme peut être considérable. Pour ne prendre qu’un exemple, nous rappellerons au lecteur qu’une très grande majorité du dioxygène présent dans l’atmosphère terrestre est d’origine « biologique». L’apparition de la photosynthèse dans l’arsenal métabolique du vivant a en effet modifié significativement la composition de l’atmosphère, il y a environ deux milliards d’années (Knoll 2003). La production massive de dioxygène par les organismes photosynthétiques transforma alors l’atmosphère réductrice en une atmosphère oxydante, laissant des traces visibles dans les couches géologiques de l’époque (voir Figure 1). On estime que le flux actuel de création de dioxygène par la photosynthèse permettrait de régénérer l’ensemble de l’oxygène atmosphérique en 2000 ans (Dole 1965).

Le métabolisme marque également par sa diversité. Certains organismes, et en particulier des bactéries, ont été découverts dans des environnements très variés, au sein desquels les molécules sources d’énergie et de matière diffèrent de manière considérable. À titre illustratif, pour générer leur énergie, les bactéries tirent parti de diverses manières des potentiels d’oxydoréduction des molécules de leur environnement. Tandis que dans les milieux aérobies courants, les molécules organiques sont généralement oxydées en utilisant l’oxygène comme accepteur d’électron, en milieu anaérobie certains organismes remplacent ce dernier par d’autres molécules organiques (par exemple lors de la fermentation) ou des formes oxydées de l’azote (ex. : nitrate, nitrite), du soufre (ex. : sulfate ou sulfite) ou de métaux (ex. : fer, manganèse, voire même certains métaux lourds). À l’inverse, on a découvert des

19

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

organismes pouvant remplacer les molécules organiques par d’autres donneurs

d’électrons 2 . Ces organismes génèrent leur énergie en oxydant par exemple les

molécules réduites de dihydrogène, de soufre (inorganique par ex.), d’azote

(ammoniaque) ou de fer.

Le répertoire des molécules organiques pouvant être « métabolisées » est lui-

même extrêmement large. On estime qu’environ un millier de molécules composent

le métabolisme primaire 3 de la majorité des organismes. À cet ensemble, les

organismes supérieurs – en particulier les plantes et les champignons – ajoutent les

molécules de leur métabolisme secondaire 4 dont on estime la diversité à plusieurs

centaines de milliers (Villas-Boas et al. 2007, pp.25-26). Les structures de ces

molécules sont souvent remarquablement complexes (voir Figure 2), leurs rôles

biologiques dépendant en grande partie de ces structures et se révélant parfois

extrêmement sensibles à tout changement de chiralité 5 . À cet effet, certaines voies de

synthèse du métabolisme sont particulièrement efficaces à produire spécifiquement

certains énantiomères donnés.

2 On les nomme lithotrophes, par opposition aux organotrophes. 3 Le métabolisme primaire regroupe les activités métaboliques participant au développement et à la croissance de l’organisme, telles que la génération d’énergie et la synthèse des constituants de la cellule. Ces activités sont relativement ubiquitaires entre les organismes. 4 Le métabolisme secondaire regroupe les activités de synthèse de molécules ne contribuant pas directement à la croissance de la cellule. Ces molécules ont par exemple des rôles dans la communication ou les interactions écologiques.

5 Une molécule est chirale si elle n’est pas superposable à son image dans un miroir. Les deux molécules images l’une de l’autre sont alors appelées énantiomères. Deux énantiomères ont des formules développées identiques mais ont des structures tridimensionnelles distinctes. Cette différence peut leur conférer des propriétés physiques, chimiques ou biologiques distinctes.

20

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 2. La molécule

Figure 2. La molécule de Taxol, utilisée en chimiothérapie. Cette molécule a été découverte dans l’écorce d’une espèce d’if, Taxus brevifolia.

Similairement à ces capacités de synthèse, les organismes ont développé un ensemble de réactions leur permettant de dégrader et d’utiliser à leur avantage un large spectre de molécules. Ceci est notamment vrai pour les bactéries, lesquelles ont développé un ensemble de stratégies pour croître dans des environnements chimiques variés voire extrêmes. Leurs remarquables capacités d’adaptation les ont même amenées à exploiter des molécules non naturelles produites par l’homme (molécules xénobiotiques), tels que des composés organochlorés ou polyaromatiques (Janssen et al. 2005; van der Meer et al. 1992) .

L’homme utilise depuis longtemps les compétences biochimiques des organismes. Depuis leur utilisation pour la production de fromage, de bière et de vin par fermentation (dont on retrouve des traces de pratique datant de la préhistoire (McGovern et al. 1996)), les applications du métabolisme des microorganismes se sont étendues à de nombreux autres domaines. La pratique de l’ingénierie du métabolisme permet de produire efficacement une large gamme de produits par voie biologique : compléments alimentaires, substances énergétiques, solvants, antibiotiques, vitamines, polymères, pigments (Stephanopoulos et al. 1998, pp.203- 283). La voie de production biologique prend surtout son sens lorsque la synthèse chimique se révèle difficile et coûteuse, comme cela est le cas par exemple pour le 1,3-propanediol (Tong et al. 1991), un précurseur de nombreux polymères à forte valeur ajoutée, ou l’artémisinine (Ro et al. 2006), une molécule active contre le paludisme. Les capacités de dégradation des microorganismes sont également utilisées à des fins pratiques, l’exemple le plus flagrant étant leur utilisation primordiale dans les processus d’épuration des eaux usées. L’aptitude des

21

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

microorganismes à s’adapter pour utiliser des substances variées en fait des candidats

prometteurs pour dégrader des polluants complexes, tels que les polychlorobiphényles

(PCB) ou les mélanges de benzène, toluène et xylène (BTX) (Stephanopoulos et al.

1998, pp.266-273).

1.2 Les acteurs du métabolisme

Avant de présenter plus en détail l’organisation du métabolisme au sein des

organismes, nous allons préalablement définir dans cette section les « acteurs »

impliqués. Nous rappellerons en outre au lecteur quelques notions physiques en

rapport avec les réactions biochimiques. En effet, le comportement du métabolisme

découle in fine de ces notions physiques ; les modèles mathématiques du métabolisme

s’appuient de ce fait de manière fondamentale sur la physique à l’œuvre, aux échelles

à la fois de la molécule (description des réactions) et de la cellule (cinétique et

thermodynamique).

1.2.1

Métabolites

On utilise généralement le terme de métabolite pour désigner les molécules

impliquées dans le métabolisme cellulaire. Ces molécules sont, dans leur grande

majorité, des molécules organiques, composées de carbone et d’hydrogène mais

également d’oxygène et dans une moindre mesure d’azote, de phosphore et de soufre.

À titre illustratif, la composition moyenne de la bactérie Lactobacillus lactis en ces

éléments (relativement au carbone) a été évaluée à C 1 H 1,9 O 0,6 N 0,2 P 0,02 S 0,01 (Oliveira et

al. 2005). Cette composition n’est pas fixe et évolue notamment en fonction de

l’environnement de croissance de l’organisme, mais elle est indicative de l’ordre de

grandeur de la répartition de ces éléments 6 . La forte proportion du carbone dans la

composition des métabolites n’est pas anodine. En effet, les propriétés électroniques

6 On retrouve en réalité d’autres éléments dans la composition des cellules, souvent en moindre quantité. Ce sont principalement des ions jouant le rôle d’électrolytes afin de maintenir une pression osmotique et un pH constants et de favoriser l’import de métabolites (potassium, sodium, calcium, manganèse, chlore). De nombreux métaux de transition (fer, zinc, manganèse, molybdène, cuivre, cobalt, nickel) sont également présents à l’état de trace ; ils sont néanmoins essentiels à l’activité de certaines enzymes. Cependant, dans la très grande majorité des cas, ces éléments n’entrent pas dans la composition des métabolites.

22

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

de l’atome de carbone font qu’il établit facilement jusqu’à quatre liaisons covalentes relativement solides ; cette caractéristique lui permet de générer une combinatoire extrêmement grande de molécules organiques en assemblant plusieurs atomes de carbone entre eux.

1.2.2

Réactions

Les métabolites se transforment chimiquement au cours des réactions métaboliques : des métabolites substrats réagissent entre eux pour donner des métabolites produits. On représente généralement la réaction par son équation bilan, laquelle met en évidence la stœchiométrie de la réaction, c’est-à-dire les proportions dans lesquelles les métabolites sont consommés et produits (voir Figure 3). L’équation bilan répertorie exhaustivement les substrats et produits impliqués par la réaction. De ce fait, et étant donné que les transformations à l’œuvre sont purement chimiques – celles-ci mettent uniquement en jeu des échanges d’atomes ou de groupes d’atomes entre métabolites par modification de leurs liaisons chimiques – la quantité de chaque élément et la charge globale est conservée : l’équation bilan est dite équilibrée.

conservée : l’équation bilan est dite équilibrée . Figure 3. Equation bilan de la réaction catalysée

Figure

3.

Equation

bilan

de

la

réaction

catalysée

par

l’enzyme

isocitrate

dehydrogénase. Extrait de BRENDA (http://www.brenda-enzymes.info).

On distingue souvent deux types de métabolites dans une réaction biochimique :

les substrats et produits principaux d’une part et les cofacteurs (ou coenzymes) d’autre part. Le premier type désigne les métabolites directement transformés par la réaction chimique : il s’agit par exemple de l’isocitrate, du 2-oxoglutarate et du CO 2 dans le cas de la réaction présentée sur la Figure 3. Les cofacteurs désignent quant à eux les métabolites aidant la transformation chimique principale, que ce soit en apportant de l’énergie, en agissant comme accepteur ou donneur d’électron (tels que NADP + et NADPH dans la réaction de la Figure 3) ou en favorisant le transfert de groupements chimiques. Les transformations chimiques des cofacteurs sont réversibles et, comme

23

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

nous le verrons plus loin, une partie des activités métaboliques de la cellule consiste justement à régénérer les cofacteurs en les retransformant dans leur état initial.

1.2.3

Enzymes

Aux cotés des métabolites, les enzymes constituent le deuxième acteur clé du métabolisme. Ces dernières jouent en effet le rôle de catalyseurs sans lesquels la plupart des réactions métaboliques ne pourraient se dérouler à des vitesses compatibles avec la vie de la cellule. Le principe de la catalyse enzymatique repose sur une interaction entre l’enzyme et les substrats qui favorise la stabilisation de l’état de transition de la réaction (Koshland 1958). Cette stabilisation abaisse l’énergie à fournir pour atteindre l’état de transition (énergie d’activation) et, de ce fait, un nombre plus élevé de substrats d’énergie moindre pourront interagir, accélérant ainsi la réaction (voir Figure 4).

interagir, accélérant ainsi la réaction (voir Figure 4). Figure 4. Illustration de la diminution d’énergie

Figure 4. Illustration de la diminution d’énergie d’activation d’une réaction par catalyse

enzymatique. E, enzyme ; S, substrat ; S

, état de transition ; P, produit ; !G, énergie

d’activation avec (!G C ) ou sans ( ! G U ) catalyse. Adapté de Wikipedia 7 .

Des mécanismes enzymatiques relativement différents permettent d’abaisser l’énergie d’activation, allant d’une stabilisation par effet électrostatique au rapprochement forcé des substrats. Nous n’entrerons cependant pas dans leurs détails qui seraient hors du propos de cette thèse.

Il est cependant important de noter que, dans la grande majorité des cas, les enzymes catalysent des réactions spécifiques alors que les métabolites peuvent

7 http://en.wikipedia.org/wiki/Enzyme_catalysis

24

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

généralement réagir entre eux de diverses manières. En abaissant l’énergie d’activation pour un chemin réactionnel donné – en stabilisant par exemple un état de transition particulier – les enzymes favorisent alors spécifiquement une réaction particulière par rapport aux autres. Le caractère spécifique de la catalyse enzymatique est au moins aussi important dans le métabolisme que l’accélération de la vitesse des réactions. Il lui permet en effet d’assurer la transformation des métabolites en des produits particuliers, évitant la production d’autres produits qui en réduiraient le rendement et pourraient s’avérer néfastes. En résumé, le double aspect spécificité et accélération de la catalyse enzymatique donne à l’organisme le contrôle des transformations métaboliques se déroulant dans la cellule.

À la grande variété de réactions métaboliques correspond une grande variété d’enzymes. Afin d’organiser la description des enzymes identifiées, l’International Union of Biochemistry and Molecular Biology (IUBMB) 8 élabore une classification des enzymes basée sur le type de réaction catalysée : la classification EC (pour Enzyme Commission). Bien que mise à jour lentement par rapport aux découvertes de nouvelles activités enzymatiques, la classification EC est largement utilisée pour décrire l’activité des enzymes et souvent, par extension, pour assigner une fonction enzymatique à un gène.

Nombre EC

Type d'enzyme

Type de réactions catalysées

1.-.-.-

Oxidoreductases

2.-.-.-

Transferases

3.-.-.-

Hydrolases

4.-.-.-

Lyases

5.-.-.-

Isomerases

6.-.-.-

Ligases

Réactions d'oxidoréduction Réactions de transfert de groupes fonctionnels Réactions d'hydrolyse d'un substrat en deux produits Réactions de coupure de liaisons covalentes par un procédé autre que l'oxydation ou l'hydrolyse Réactions de réarrangement intramoléculaire, isomérisation Réactions de jonction covalente de deux molécules utilisant l'hydrolyse d'ATP

Tableau 1. Premier niveau de la classification EC. Un nombre EC se compose de quatre nombres représentant quatre niveaux de classification qui caractérisent de plus en plus finement la réaction catalysée. Le premier niveau présenté ici distingue six grandes classes de réactions. Le dernier niveau spécifie généralement les substrats précis de la réaction.

1.2.4 Cinétique des réactions métaboliques

Une bonne grandeur pour décrire le fonctionnement du métabolisme est la vitesse des réactions métaboliques, également appelée flux. En effet, la survie des cellules

8 Voir http://www.chem.qmul.ac.uk/iubmb/

25

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

dépend fortement de leur capacité à transformer en permanence les métabolites pour

produire l’énergie et construire ses constituants. Plus que les concentrations de tels ou

tels métabolites, les flux des réactions renseignent directement sur les conversions

métaboliques ayant lieu dans la cellule ; ils représentent en quelque sorte l’état

fonctionnel du métabolisme. Nous reviendrons plus en profondeur sur la notion de

flux et sa signification pour représenter l’état du métabolisme dans la section

introduisant la modélisation.

La vitesse d’une réaction s’exprime généralement avec l’unité mol.L -1 .s -1 qui

décrit la quantité de substrats transformés par unité de volume de solution et par unité

de temps 9 . Cette unité est bien adaptée à la description des flux lorsque les réactions

se déroulent in vitro, mais l’est moins lorsqu’elle se déroulent dans des cellules ; on

lui substitue alors l’unité mmol.h -1 .(g DW) -1 où DW représente la masse sèche des

cellules. Cette unité rapporte ainsi indirectement la quantité de substrat transformé par

unité de temps à la quantité de cellule.

La vitesse d’une réaction enzymatique dépend de nombreux facteurs :

concentration des substrats et produits, concentration de l’enzyme, efficacité

catalytique de l’enzyme, température, pH, pression, entre autres facteurs… Sans

vouloir exposer ici un état de l’art sur la cinétique enzymatique qui n’est pas le sujet

de cette thèse, nous souhaitons rappeler au lecteur à titre illustratif un modèle simple

de cinétique enzymatique qui permette d’appréhender l’influence de certains de ces

facteurs. Michaelis et Menten déterminèrent, de manière d’abord empirique, une

relation entre vitesse de réaction et concentration en substrat dépendant de deux

paramètres liés à l’enzyme (Michaelis & Menten 1913; Cornish-Bowden 2004) :

v = v max

c S

K m + c S

v est la vitesse de réaction, c S la concentration en substrat et v max et K m les deux

paramètres en question. Le premier paramètre, v max , représente la vitesse maximale

que la réaction peut atteindre en présence d’une quantité fixe d’enzyme et pour un

9 La vitesse de la réaction dépend de l’écriture de son équation bilan. La vitesse de production d’un produit (par la réaction) est en effet égale à la vitesse de la réaction multipliée par le coefficient stœchiométrique du produit dans l’équation bilan.

26

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

quantité saturante du substrat. Ce paramètre dépend linéairement de la quantité d’enzyme et traduit son efficacité à réaliser la transformation chimique. Définie en termes de nombre de molécules de substrat converties par une enzyme en une seconde, cette efficacité peut s’échelonner sur plusieurs ordres de grandeur, de 0.5 s -1 pour le lysozyme à 600 000 s -1 pour la carbonate déshydratase (Stephanopoulos et al. 1998; Barthelmes et al. 2007). Le second paramètre, K m , également appelé constante de Michaelis, est égal à la concentration de substrat pour laquelle la vitesse de la réaction vaut ! v max (voir Figure 5). Ce paramètre est indépendant de la quantité d’enzyme et traduit l’affinité de l’enzyme au substrat (un K m plus faible traduit une affinité plus élevée).

v max

vitesse de

réaction v

1/2.v max

élevée). v max vitesse de réaction v 1/2.v m a x K m concentration de substrat

K m

concentration de substrat c S

Figure 5. Relation entre vitesse de réaction et concentration de substrat pour une cinétique de type Michaelis-Menten.

Aux concentrations élevées de substrat (c S >> K m ), la vitesse de la réaction tend vers v max . L’enzyme est saturée et la vitesse de la réaction dépend linéairement de sa quantité. Aux concentrations faibles de substrat (c S << K m ), la vitesse de la réaction tend vers (v max /K m ).c S auquel cas elle dépend linéairement de la concentration en substrat et en enzyme. La concentration K m délimite en quelque sorte les deux régimes de fonctionnement.

La cinétique de Michaelis-Menten s’interprète avec un modèle de transformation moléculaire simple où le substrat se lie réversiblement à l’enzyme avant d’être transformé irréversiblement en produit (Briggs & Haldane 1925) :

27

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

k

1

k

2

E + S " ES $ E + P

k #1

Thèse de doctorat 2009

En supposant que le complexe enzyme-substrat ES est à l’état stationnaire, la relation de Michaelis-Menten est retrouvée avec :

v max = k 2 .c E ,tot

et K m = k " 1 + k 2

k

1

c E,tot représente la quantité totale d’enzyme.

La cinétique de Michaelis-Menten traduit un mécanisme réactionnel relativement simple et en réalité beaucoup d’enzymes suivent des cinétiques bien plus complexes (Cornish-Bowden 2004). Elle est en revanche illustrative des influences respectives des enzymes et métabolites sur les flux de réaction et elle permet d’introduire les phénomènes de contrôle des réactions.

1.2.5 Contrôle des réactions métaboliques

Que la cinétique d’une réaction enzymatique soit Michaelienne ou non, l’enzyme en elle-même influence largement le flux de la réaction. Celui-ci dépend en effet à la fois de la quantité d’enzymes présentes et de leur efficacité à catalyser la réaction. Cette dépendance est exploitée de manière fondamentale par les organismes pour contrôler leur métabolisme, que ce soit simplement pour activer ou inactiver des réactions ou, de manière plus élaborée, pour ajuster finement la vitesse des réactions en fonction de leurs besoins. Les processus biologiques de contrôle sont généralement désignés sous le terme de régulation métabolique. On distingue typiquement deux grandes catégories de contrôles : (1) l’ajustement de la quantité d’enzymes et (2) la modulation directe de leur activité.

La régulation de la quantité d’enzymes s’opère communément en modulant les vitesses de production et de dégradation des enzymes (Stephanopoulos et al. 1998, pp.173-180). Des mécanismes complexes de régulation permettent en effet d’activer ou d’inhiber la transcription et la traduction de protéines en réponse à un signal particulier (par exemple la présence ou l’absence d’un métabolite particulier). Les microorganismes utilisent largement ce type de mécanisme, notamment pour adapter leur métabolisme aux environnements chimiques qu’ils rencontrent en ne produisant

28

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

que les enzymes appropriées à l’environnement. De même, en adressant les enzymes à des localisations spécifiques dans l’organisme, celui-ci peut contrôler à quel endroit les réactions se dérouleront, permettant par exemple d’éviter des interactions chimiques indésirables entre métabolites.

De nombreux mécanismes permettent également de réguler l’efficacité catalytique des enzymes. D’une part, les enzymes peuvent être totalement inactivées ou activées par des modifications covalentes irréversibles de leur structure ; ces modifications consistent fréquemment à les phosphoryler, ou à leur ajouter ou enlever divers groupes fonctionnels par l’intermédiaire de protéines ou de métabolites particuliers. D’autre part, et il s’agit de la classe de mécanisme la plus courante, des métabolites inhibiteurs ou activateurs peuvent interagir avec l’enzyme – souvent de manière réversible – pour modifier graduellement son activité. Divers mécanismes ont été identifiés, chacun conduisant à des comportements cinétiques souvent distinguables (Cornish-Bowden 2004). Ainsi, le métabolite régulateur peut tout aussi bien être un analogue du substrat et agir en tant que concurrent pour l’accès au site actif de l’enzyme, ou être différent et agir via un autre site sur la conformation de l’enzyme et altérer son efficacité catalytique ou son affinité au substrat (cas des enzymes allostériques).

Ces mécanismes de régulation agissent souvent de manière fine sur les flux des réactions en réponse à des signaux variés. Ceux-ci sont indispensables à l’organisme car ils lui permettent de réellement contrôler son « usine biochimique », pour notamment assurer la stabilité de sa composition chimique, économiser la production d’enzymes inutiles (en programmant par exemple leurs productions uniquement au moments opportuns (Zaslaver et al. 2004)) et répondre aux changements ou stimulus de leurs environnements (voire même les anticiper (Tagkopoulos et al. 2008; Mitchell et al. 2009) !).

1.2.6 Aspects thermodynamiques

Du point de vue thermodynamique, les organismes vivants sont des systèmes particuliers. Ils appartiennent à la classe des systèmes dissipatifs dont la caractéristique principale est de maintenir voire d’accroître leurs états d’ordre interne en prenant de l’énergie au milieu extérieur et lui retransmettant de l’entropie. Pour ce faire, ces systèmes doivent se maintenir en permanence hors de l’état d’équilibre

29

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

grâce à leurs échanges avec leur environnement ; ils sont fondamentalement ouverts 10

et tout arrêt de ces échanges conduit à leur disparition. Dans le cas des cellules

vivantes, le maintien de cet état hors d’équilibre leur permet de croître et d’assurer la

permanence de l’organisation de leur structure. Le métabolisme assure donc l’échange

continuel de matière et d’énergie avec l’environnement : il exploite en général 11

l’énergie de métabolites d’énergie élevée et d’entropie faible importés de

l’environnement en les transformant en métabolites d’énergie plus faible mais

d’entropie plus élevée (von Stockar & Liu 1999; Stephanopoulos et al. 1998). De

manière à assurer un flux de transformation permanent, qui est donc

thermodynamiquement fondamental pour la vie de l’organisme, les réactions du

métabolisme sont également elles-mêmes hors d’équilibre.

L’enthalpie libre de réaction, notée ! r G, permet de décrire le sens d’évolution

spontané des réactions. À température et pression constante, la réaction opère en effet

dans le sens de diminution de l’enthalpie libre, tel que ! r G < 0. Dès lors que ! r G

atteint zéro, le flux net de la réaction devient nul. Le métabolisme doit ainsi s’assurer

que les enthalpies libres des réactions sont bien négatives pour transformer les

métabolites avec un flux net positif.

L’enthalpie libre de réaction dépend de l’enthalpie libre standard de réaction

( ! r ) qui ne dépend que de la température et de la pression, et des concentrations de

ses substrats et produits :

" r G

= " r G ° + R .T .ln(Q)

R la constante des gaz parfaits et Q est le quotient de la réaction :

Q

=

p 1 " p 1 . p 2

" p 2

s 1 " s 1 .s 2 " s 2

10 Un système ouvert peut échanger de l’énergie et de la matière avec le milieu extérieur, au contraire des systèmes isolés. Selon le second principe de la thermodynamique, un système isolé évolue toujours de manière à augmenter son entropie et tend invariablement à rejoindre son état d’équilibre. 11 Dans le cas de la photosynthèse, l’énergie ne provient pas des métabolites mais de la lumière.

30

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

avec s 1 , s 2 les activités 12 des substrats, p 1 , p 2

coefficients stœchiométriques.

Thèse de doctorat 2009

celles des produits et les ! i leurs

Deux « leviers » peuvent ainsi conduire à une enthalpie de réaction négative, le

quotient de réaction et l’enthalpie libre standard de réaction. D’une part, le quotient de

la réaction peut être diminué par un déséquilibre net de concentration dans lequel les

substrats sont en excès par rapport aux produits. En consommant par exemple les

produits au fur et à mesure de leur apparition, le métabolisme peut maintenir le

déséquilibre de concentration et assurer la continuité de la réaction. Cependant,

certaines conversions biochimiques possèdent des enthalpies libres de réaction trop

élevées pour être favorisées uniquement par un déséquilibre de concentrations (en

gardant des niveaux de concentrations « physiologiques »). Ceci est le cas par

exemple de réactions de biosynthèse des constituants de la cellule, pour lesquelles les

produits sont plus « énergétiques » que les substrats, conduisant à une enthalpie libre

standard de réaction élevée. Ces réactions sont rendues réalisables en les couplant

avec une réaction apportant de l’énergie, au premier rang desquelles figure

l’hydrolyse de l’ATP. La réaction combinée, dont le couplage s’effectue d’ailleurs

souvent au sein de la même enzyme (Stephanopoulos et al. 1998, pp.629-694),

possède alors une enthalpie libre standard de réaction moins élevée la rendant

thermodynamiquement réalisable aux concentrations physiologiques. Ce cas de figure

illustre l’importance des cofacteurs énergétiques et des processus métaboliques

associés à leur maintenance.

1.3 Structure et organisation du métabolisme

1.3.1 Le réseau métabolique

D’un point de vue plus global, le métabolisme d’un organisme se compose d’un

nombre élevé de réactions (typiquement plus d’un millier de réactions distinctes pour

une bactérie « de taille moyenne » comme Escherichia coli (Keseler et al. 2009)) qui

12 Dans le cas des réactions en solution aqueuse, les activités s’identifient quasiment aux concentrations, moyennant quelques corrections liées notamment à la force ionique. On effectue également cette approximation dans le cas des réactions biochimiques intracellulaires, bien que le « solvant » constitué par le milieu cytoplasmique soit loin d’être aussi idéal qu’une solution aqueuse. Des corrections sont cependant souvent requises pour corriger les déviations trop importantes (Maskow & von Stockar 2005; Vojinovi" & von Stockar 2009).

31

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

convertissent un nombre tout aussi élevé de métabolites. Cependant, du fait que les métabolites sont partagés par les réactions (produits par certaines et consommés par d’autres), métabolites et réactions se structurent sous la forme d’un réseau, couramment appelé réseau métabolique (voir Figure 6). Au sein de ce réseau, on peut distinguer les enchaînements de réactions qui transforment étape par étape les métabolites, formant en quelques sortes des chemins de conversion dans le métabolisme. Comme mentionné ci-dessus à propos de la thermodynamique, l’enchaînement des réactions a d’ailleurs une réalité bien physique, du fait que pour maintenir les flux de conversion, les produits de chaque réaction doivent en permanence être réutilisés pour maintenir le déséquilibre thermodynamique. Cependant, une représentation complète du réseau métabolique telle que celle présentée sur la Figure 6 illustre uniquement de manière statique le métabolisme. Elle représente en effet l’ensemble des réactions chimiques pouvant avoir lieu, mais pas la réalité des conversions chimiques ayant lieu à un instant t dans la cellule. Toutes les conversions métaboliques possibles ne se réalisent pas toutes ensemble, mais plutôt en fonction des besoins de la cellule. Le contrôle des réactions métaboliques présenté ci-dessus joue à cet effet un rôle primordial pour orienter les conversions métaboliques selon certains chemins bien précis.

Comme illustré sur la Figure 6, certains métabolites sont connectés à un nombre de réactions nettement plus élevé que d’autres. Ceux-ci forment en quelque sorte des points d’embranchement 13 du réseau métabolique, à partir desquels commencent plusieurs branches métaboliques. En contraste, d’autres métabolites ne sont reliés simplement qu’à deux réactions, ne formant que des intermédiaires de voies de conversion. Nous verrons rapidement dans la partie suivante sur la modélisation que de nombreux travaux se sont attachés à étudier les propriétés topologiques des réseaux métaboliques.

13 Le terme consacré en anglais, et parfois par abus en français, est « hub ».

32

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 6. Illustration d’un

Figure 6. Illustration d’un réseau métabolique global. Les nœuds (points) correspondent à des métabolites et les liens (lignes) à des réactions (ou successions de réactions) convertissant les métabolites. Les grandes catégories fonctionnelles du métabolisme sont indiquées dans les encadrés. Dans le cercle : aperçu détaillé d’une partie du réseau

métabolique. Source

des

cartes :

KEGG

(http://www.genome.jp/kegg/atlas/)

et

Roche

Applied

Science

(http://www.expasy.ch/tools/pathways/).

De manière à obtenir une description fonctionnelle claire du métabolisme, les biochimistes ont traditionnellement regroupé les réactions en voies métaboliques, qui peuvent être vues comme des parties du réseau métabolique – souvent des enchaînements linéaires de réactions. La grande majorité des voies métaboliques sont définies pour correspondre à des fonctions métaboliques bien précises, mais cette classification est arbitraire et varie souvent d’une personne à l’autre, reposant parfois

33

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

sur des critères historiques relatifs au contexte de leur découverte, organisationnels ou purement subjectifs. Le découpage du réseau métabolique en voies fournit cependant une vision modulaire du métabolisme qui a permis d’en appréhender le fonctionnement global d’une manière simple.

1.3.2 Organisation globale du métabolisme

Sans chercher à rentrer dans le détail des voies composant le métabolisme, celui-ci peut être décrit de manière simple en distinguant une partie catabolique et une partie anabolique.

Les réactions du métabolisme catabolique ont pour fonction de dégrader (cataboliser) des composés chimiques provenant principalement de l’environnement de l’organisme 14 pour fournir de l’énergie, des cofacteurs réducteurs et des précurseurs nécessaires à la synthèse des constituants de la cellule. On peut y distinguer également deux types de voies en fonction de « l’originalité » des métabolites à cataboliser. D’une part des voies relativement ubiquitaires entre les organismes sont en charge de produire massivement l’énergie de la cellule ainsi que les précurseurs et cofacteurs à partir de métabolites communs ; elles sont parfois désignées par le terme métabolisme central. Parmi les voies métaboliques appartenant à cette première catégorie figurent notamment la glycolyse (produisant de l’énergie, des cofacteurs réduits et des précurseurs par oxydation d’hexoses, généralement glucose et fructose), le cycle de Krebs (ou cycle de l’acide citrique, voie métabolique centrale produisant de l’énergie, des cofacteurs réduits et des précurseurs par oxydation de l’acide citrique (voir Figure 7)), la phosphorylation oxydative (ou respiration, produisant de l’énergie par oxydation des cofacteurs réduit généralement grâce à l’oxygène du milieu) et des voies de fermentation (permettant de générer de l’énergie et de réoxyder les cofacteurs réduits en milieu anaérobie).

14 le catabolisme peut également recycler des métabolites internes à la cellule.

34

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 7. Schéma du

Figure 7. Schéma du cycle de l’acide citrique (citrate), pour E. coli. L’acetyl-coA est condensé avec l’oxaloacetate pour former le citrate. Celui-ci est progressivement oxydé et perd deux carbones sous forme de CO 2 . Au cours d’un cycle, 1 ATP est produit, ainsi que 3 NADH et 1 QH 2 (ubiquinol), potentielles sources d’ATP si oxydées par l’oxygène dans la

chaîne respiratoire. Adapté de Wikipedia (http://en.wikipedia.org/wiki/Citric_acid_cycle)

Lorsque les métabolites du métabolisme central ne sont pas directement disponibles dans l’environnement, ce qui est en réalité majoritairement le cas, des voies plus spécialisées se chargent de les créer en dégradant les composés qui s’y trouvent, tout en collectant l’énergie issue de cette dégradation. La répartition de ces voies dans les organismes est beaucoup plus disparate car elle dépend fortement de leurs milieux habituels de vie. Ainsi, les entérobactéries possèdent des voies de dégradation spécialisées dans l’utilisation de nombreux sucres tandis que les bactéries du sol disposent plutôt de voies de dégradation de composés issus des plantes, comportant par exemple des cycles aromatiques. Alors que le panel de composés « catabolisables » est extrêmement vaste, les voies de dégradation correspondantes ont cependant en commun de produire in fine des métabolites communs (centraux) pouvant être réutilisés ensuite par le reste du réseau métabolique.

Le métabolisme anabolique synthétise quant à lui les constituants de la cellule à partir des précurseurs et cofacteurs créés par le catabolisme ou directement importés de l’extérieur. Les cellules sont en effet constituées d’un assemblage hétérogène de macromolécules aux fonctions nombreuses (voir Tableau 2) , notamment le maintien

35

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

de la structure de la cellule (lipides, peptidoglycane), la conservation et la transmission d’information (ARN, ADN, protéines), la catalyse des réactions biochimiques (protéines, ARN). Ces molécules sont nommées macromolécules car celles-ci sont des molécules de grande taille formés en général par polymérisation de métabolites élémentaires, par exemple les acides aminés pour les protéines, les acides nucléiques pour l’ARN et l’ARN, et l’acetyl-coA pour les lipides. Les molécules synthétisées par l’organisme ne servent pas toutes directement au fonctionnement de la cellule, mais peuvent être utilisées également par l’organisme pour interagir avec son environnement ou d’autres organismes. Certaines peuvent par exemple être excrétées pour solubiliser l’environnement extérieur, aider à se sédentariser sur un support (création de biofilms), ou éliminer des bactéries concurrentes (synthèse d’antibiotiques). En résumé, le métabolisme anabolique comprend l’ensemble des réactions permettant à l’organisme de créer l’arsenal de composés chimiques qui lui seront utiles.

Macromolécule

Fraction de la masse sèche totale

Protéine

55,0%

ARN

20,5%

ARNr

16,7%

ARNt

3,0%

ARNm

0,8%

ADN

3,1%

Lipide

9,1%

Lipopolysaccharide

3,4%

Peptidoglycane

2,5%

Glycogène

2,5%

Fraction soluble

3,9%

Tableau 2. Composition moyenne en macromolécules de cellules d’Escherichia coli.

Données issues de Neidhardt et Umbarger (1996).

Les précurseurs utilisés par le métabolisme anabolique sont quasiment universels et appartiennent au métabolisme central. Cependant, comme mentionné plus haut, certains organismes ne peuvent pas synthétiser par eux-mêmes tous les métabolites requis à leur survie et doivent importer ceux-ci de leur environnement. D’autres organismes sont au contraire extrêmement efficaces pour les synthétiser à partir de molécules très basiques comme des composés à un seul carbone (CO 2 ou CH 4 ). De même que pour les voies cataboliques, une partie des voies anaboliques est relativement universelle entre les organismes – ce sont celles aboutissant aux

36

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

constituants ubiquitaires et vitaux des cellules. L’autre partie des voies anaboliques est, au contraire, répartie très inégalement entre les organismes et brosse un éventail beaucoup plus grand de molécules biologiques. En particulier, on trouve une très grande variété de molécules issues du métabolisme secondaire chez les organismes supérieurs et notamment celui des plantes qui ont développé un vaste arsenal de défense « moléculaire ». Cependant, cette thèse étant focalisée sur le métabolisme des microorganismes, nous ne ferons que l’évoquer occasionnellement.

1.4 Méthodes d’exploration du métabolisme

1.4.1 Élucidation expérimentale des voies métaboliques

Historiquement, l’identification des voies métaboliques débuta peu après la découverte des premières enzymes à la toute fin du 19 e siècle. Le développement de méthodes de purification et de caractérisation des enzymes associées aux techniques d’identification chimique et de marquage radioisotopique des métabolites ainsi qu’à l’étude de la physiologie des microorganismes permit alors rapidement à un grand nombre de biochimistes de découvrir les principales voies métaboliques de divers organismes modèles. Ce travail, qui fut notamment très prononcé au milieu du 20 e siècle, généra une connaissance considérable sur l’enchaînement des réactions dans les voies métaboliques mais aussi sur les caractéristiques catalytiques, cinétiques et régulatoires des enzymes. La classification EC de l’IUBMB (voir 1.2.3) fut d’ailleurs créée à la fin des années 50 pour fournir une classification et une nomenclature uniformisée des enzymes, permettant d’organiser les nombreuses activités enzymatiques déjà identifiées. Dans un deuxième temps (deuxième moitié du 20 e siècle), le développement des techniques de biologie moléculaire permit d’associer des gènes aux enzymes identifiées et apportèrent un angle de vision complémentaire sur le fonctionnement du métabolisme.

La somme des connaissances accumulées sur le métabolisme à la fin du 20 e siècle fut considérable et relativement complète pour quelques organismes modèles, au premier rang desquels Escherichia coli pour les procaryotes (Neidhardt 1996) et Saccharomyces cerevisiae pour les eucaryotes (Strathern et al. 1982). Pour ces organismes modèles, la majeure partie des voies métaboliques fut décrite en détail, permettant aujourd’hui d’appréhender la globalité de leur métabolisme. Cependant, cette connaissance fut accumulée sous la forme d’un nombre tout aussi considérable

37

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

de publications. Pour organiser ces informations disparates, des initiatives de

regroupement de l’information au sein de bases de données ont vu le jour depuis une

vingtaine d’années. Deux grands types de bases de données liées au métabolisme ont

été développés. D’une part, des répertoires de données biochimiques sur les enzymes ;

les ressources les plus significatives sont BRENDA (Barthelmes et al. 2007) et

ENZYME (Bairoch 2000). D’autre part, des bases de données répertoriant selon

diverses organisations la biochimie des voies métaboliques. Parmi ces dernières,

KEGG (Kanehisa et al. 2007) et MetaCyc (Caspi et al. 2008) regroupent les voies

indépendamment des organismes, EcoCyc est spécifique au métabolisme d’E. coli

(Keseler et al. 2009), et UM-BBD se concentre sur les voies de dégradation

microbiennes (Ellis et al. 2006).

Malgré le développement de techniques d’investigation en biochimie de plus en

plus performantes – incluant notamment la chromatographie, la RMN et la

spectrométrie de masse – la découverte de nouvelles activités enzymatiques marqua le

pas à la fin du 20 e siècle. D’une part, la majeure partie des voies métaboliques

principales des organismes modèles cultivables fut déjà élucidée, et d’autre part, les

centres d’intérêts majoritaires en biologie se sont déplacés plutôt sur des sujets de

biologie moléculaire.

Aujourd’hui, la recherche de nouvelles activités enzymatiques bénéficie cependant

d’un regain d’intérêt notable. Tout d’abord, l’augmentation rapide du nombre de

génomes et de métagénomes 15 séquencés identifie une quantité toujours plus

importante de gènes de fonctions inconnues, dont une fraction significative code

vraisemblablement pour des enzymes métaboliques. Inversement, l’étude des

phénotypes de croissance (voir ci-dessous, chapitre 2), de la physiologie des

microorganismes et du contenu métabolomique 16 des cellules (Dunn et al. 2005;

Breitling et al. 2008; Steuer 2006) permet d’identifier, parfois de manière ciblée, des

15 On désigne par métagénome tout matériel génétique d’une communauté microbienne extrait directement d’un échantillon. Il contient ainsi indistinctement les matériels génétiques des divers organismes présents dans cet environnement, permettant leur étude en s’affranchissant de l’isolement des organismes et de leur mise en culture, souvent difficiles voire impossibles. 16 Le métabolome, dans la lignée des termes en -ome (p.ex. génome, transcriptome, protéome), désigne l’ensemble des métabolites présents dans une cellule.

38

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

activités métaboliques dont les gènes et enzymes sont inconnus 17 (Lespinet &

Labedan 2006b; Lespinet & Labedan 2006a; Pouliot & Karp 2007). De nombreux

projets se sont développés récemment pour tenter de relier gènes et activités

enzymatiques sur ces deux bases. Les résultats attendus sont prometteurs, dans la

mesure où la disponibilité du matériel génétique pour de nombreux organismes, qu’ils

soient cultivables ou non, voire non identifiés à l’instar des métagénomes, ouvre la

voie à l’étude de l’activité d’enzymes auparavant difficilement accessibles. Les

méthodes expérimentales mises en œuvre incluent notamment le criblage d’activité de

banques d’enzymes (Kitagawa et al. 2005) sur des ensembles de substrats

(Saghatelian et al. 2004; Saito et al. 2006) et la recherche d’associations entre gènes et

phénotypes métaboliques (Aghaie et al. 2008).

1.4.2 Méthodes bioinformatiques de reconstruction des réseaux métaboliques

La mise en évidence expérimentale des activités métaboliques opérant dans un

organisme constitue la preuve la plus directe de leur existence. Cependant, quand bien

même le débit des techniques expérimentales correspondantes a fortement augmenté

ces dernières années, celles-ci restent encore beaucoup trop lourdes à réaliser pour

élucider globalement le métabolisme de tout nouvel organisme.

La possibilité de séquencer des génomes complets à moindre coût offre

aujourd’hui une solution alternative efficace (Feist et al. 2009). En effet, le

développement du séquençage s’est accompagné de la mise en place de méthodes

bioinformatiques permettant d’une part de détecter les gènes sur la séquence du

génome et d’autre part d’inférer leurs fonctions, processus appelé annotation du

génome (Médigue & Moszer 2007). L’inférence de la fonction des gènes se base

essentiellement sur la recherche d’homologies avec les gènes de fonctions déjà

connues : deux gènes codant pour des séquences protéiques très proches ont de fortes

chances de coder pour des protéines de fonctions similaires. De cette manière, les

activités enzymatiques associées à certains gènes peuvent être propagées par

homologie aux gènes nouvellement séquencés, bien que la transitivité de ce processus

puisse induire des erreurs d’annotation. Afin d’augmenter la fiabilité des annotations

17 Activités orphelines

39

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

prédites, les processus actuels d’annotation automatique combinent les sources

d’informations (Médigue & Moszer 2007). En particulier, ceux-ci étudient par

exemple le contexte génomique 18 des gènes pour confirmer et préciser les annotations

prédites. En moyenne, ces méthodes permettent de prédire une fonction pour 50 à 80

pour cent des gènes d’un organisme bactérien nouvellement séquencé (Serres et al.

2004).

Les fonctions enzymatiques prédites par les méthodes d’annotation constituent

une source primordiale de données permettant de reconstruire le réseau métabolique

de l’organisme étudié. Les méthodes classiquement utilisées pour annoter les

génomes sont cependant généralistes et ne précisent pas nécessairement le détail des

conversions métaboliques associées à une fonction enzymatique. De plus, la

spécificité des conversions catalysées par une enzyme prédite peut se révéler difficile

à établir sur la seule base d’homologie de séquences. Des méthodes dédiées à la

reconstruction du métabolisme à partir de génomes annotés ont été développées pour

répondre à ces faiblesses. Elles reposent sur des bases de données de réactions

métaboliques qui leur permettent d’énumérer les réactions potentiellement catalysées

par les fonctions enzymatiques annotées et d’en détailler la biochimie. Afin de

sélectionner les réactions les plus probables et de préciser leur spécificité, ces

méthodes examinent également leur contexte métabolique : l’existence d’une réaction

prédite peut en effet être confortée par la présence d’autres réactions impliquant ses

substrats et ses produits.

D’autres méthodes bioinformatiques ont été élaborées pour détecter les activités

métaboliques manquant dans le réseau métabolique reconstruit. Une partie d’entre-

elles se base sur la connaissance des voies métaboliques complètes pour détecter les

« trous » dans les voies constitués par les réactions manquantes. De nombreuses

méthodes ont également été développées pour combler ces trous et rechercher des

18 On appelle contexte génomique d’un gène toute information apportée par son voisinage chromosomique. Il peut s’agir par exemple d’un type de fonction biologique lorsque plusieurs gènes voisins possèdent des rôles contribuant à une fonction biologique particulière. L’utilisation du contexte génomique peut être renforcée par la recherche de synténies, c.-à-d. de groupes de gènes voisins co- conservés chez différents organismes. La conservation groupée des gènes peut être un indice du fait que les gènes contribuent ensemble à une fonction biologique.

40

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

gènes candidats, sur la base de leur contexte génomique, de leur occurrence phylogénétique ou de leur expression.

Nous n’avons énuméré ici que les principales idées des méthodes bioinformatiques de reconstruction des réseaux métaboliques. Nous en effectuerons un état de l’art beaucoup plus détaillé plus loin dans le manuscrit, dans la revue consacrée aux modèles globaux du métabolisme (voir section 3.2.1).

1.4.3 Vers une étude globale du métabolisme

L’efficacité des méthodes bioinformatiques de reconstruction du métabolisme dépend directement de la variété de voies métaboliques et d’activités biochimiques préalablement élucidées et de leur « proximité » avec l’organisme étudié. L’accumulation considérable de connaissances sur les voies métaboliques fait qu’aujourd’hui une part significative du métabolisme d’un organisme nouvellement séquencé peut être reconstruite à l’aide de ces méthodes. À l’instar des organismes modèles pour lesquels la majeure partie du métabolisme fut découverte par expérimentation, la reconstruction in silico du métabolisme des organismes dont on dispose de la séquence ouvre la voie à l’exploration globale de leurs voies métaboliques et de leurs capacités de conversions. Il est évident que ces méthodes ne peuvent détecter de novo des fonctions métaboliques originales, ces dernières n’ayant jamais été identifiées auparavant et encore moins associées à un gène. Cependant, en reconstituant rapidement la part déjà connue du métabolisme, ces méthodes contribuent justement à en cerner la partie encore inconnue qui constitue souvent le cœur d’intérêt de l’étude.

Le choix d’étudier le métabolisme d’un organisme en particulier est, dans de nombreux cas, guidé par une caractéristique de sa physiologie : par exemple sa capacité à exploiter un nutriment particulier, son efficacité accrue à survivre dans un environnement donné ou son aptitude à produire un métabolite. Ces observations traduisent généralement à l’échelle cellulaire des caractéristiques particulières de leur métabolisme, caractéristiques dont l’élucidation est le but de ces études. De manière plus générale, effectuer le lien entre des observations macroscopiques du métabolisme d’une cellule – efficacité de conversion, vitesses de croissance ou de consommation/production de métabolites, capacité de survie dans des environnements chimiques donnés – et le détail des activités enzymatiques identifiées présente de

41

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

nombreux intérêts. D’une part, ces observations macroscopiques apportent des informations supplémentaires sur le métabolisme, permettant d’évaluer la pertinence des voies métaboliques reconstruites et de guider leur investigation. D’autre part, ces observations sont la trace du fonctionnement in vivo du métabolisme et des flux de conversions ayant réellement lieu dans la cellule. Elles complètent avantageusement la vision statique des voies métaboliques en donnant des indications sur les conversions réellement à l’œuvre.

Les techniques expérimentales d’investigation des « états cellulaires » ont en outre considérablement progressées dans la dernière décennie, à la fois dans leurs précisions et leurs débits (Joyce & Palsson 2006). Elles permettent ainsi d’étudier à grande échelle le niveau de transcription des gènes (transcriptomique), la concentration intracellulaire des protéines (protéomique), des métabolites (métabolomique) et, pour l’instant dans une moindre mesure, le niveau des flux des réactions métaboliques (fluxomique). Les données générées fournissent des indications directes sur l’état des acteurs du métabolisme, offrant la capacité sans précédent d’accéder aux états physiologiques internes de la cellule. Néanmoins, elles nécessitent d’être intégrées, interprétées et combinées dans le contexte global du métabolisme pour en tirer des conclusions pertinentes sur le fonctionnement biochimique réel de la cellule.

La connaissance à grande échelle du métabolisme offre justement la possibilité d’explorer globalement le fonctionnement du métabolisme et de le relier aux comportements macroscopiques observés.

Afin de réduire la complexité des réseaux métaboliques, les biochimistes et les microbiologistes ont traditionnellement utilisé le regroupement des réactions en voies métaboliques pour raisonner globalement sur les conversions métaboliques (voir 1.3.1). Chaque voie métabolique y est vue indépendamment l’une de l’autre et est caractérisée par son bilan, à savoir la transformation des métabolites d’entrées en métabolites produits. En raisonnant sur les conversions des quelques métabolites clés par ces voies métaboliques, un aperçu global de la physiologie de la cellule pouvait alors être prédit et corroboré avec les observations réelles. De même, ce découpage du métabolisme est régulièrement utilisé pour visualiser les données expérimentales dans

42

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

le contexte du métabolisme global (Kanehisa et al. 2006; Paley & Karp 2006; Shannon et al. 2003).

Cette méthode de raisonnement trouve toutefois rapidement ses limites, pour au moins deux raisons. Premièrement, la juxtaposition de voies métaboliques simplifie souvent de manière exagérée les interconnexions existant entre processus métaboliques. En effet, le bon fonctionnement d’une voie métabolique requiert fréquemment l’exécution de conversions métaboliques « annexes », par exemple la synthèse de précurseurs particuliers ou la régénération de métabolites cofacteurs. Un raisonnement basé uniquement sur l’étude de l’enchaînement des voies métaboliques risque ainsi de laisser de côté certaines interdépendances métaboliques jouant un rôle significatif dans le comportement global. Ensuite, l’étude du fonctionnement réel du métabolisme nécessite dans un grand nombre de cas de tenir compte de ses aspects quantitatifs : comment se répartissent les flux de matière dans les voies métaboliques, quelle quantité d’énergie est consommée par le fonctionnement de ces voies ? Quand bien même il est possible de prendre manuellement en considération ces aspects quantitatifs pour un nombre limité de voies métaboliques, étendre leur usage à l’échelle du métabolisme entier nécessite l’emploi de méthodes plus systématiques.

Les modèles mathématiques du métabolisme répondent justement à ces deux types de difficultés (voir section 3). Ils combinent généralement une description plus ou moins détaillée des activités métaboliques présentes dans la cellule avec la capacité de raisonner sur leurs états fonctionnels (concentrations de métabolites et d’enzymes, flux de réactions) en appliquant les principes physiques déterminants. Ils ont ainsi été particulièrement utilisés pour étudier la dynamique précise de voies métaboliques, intégrer des données métaboliques expérimentales de diverses origines et prédire des comportements métaboliques macroscopiques. Nous effectuerons une revue plus complète des types de modélisation métabolique existant dans la section 3.

Notre thèse s’inscrit directement dans ce schéma. Son objectif est de développer des outils et méthodes permettant au mieux d’interpréter un certain type d’observations métaboliques macroscopiques – les phénotypes de croissance (voir section 2) – à la lumière du réseau métabolique, en utilisant pour cela la modélisation mathématique.

43

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

2 Phénotypes de croissance et essentialité de gènes

2.1 Phénotypes de croissance

On appelle phénotype toute caractéristique observable d’un organisme. Un phénotype de croissance désigne ainsi toute caractéristique propre à la croissance des microorganismes. Par exemple : dans quels environnements sont-ils capables de se développer, à quelle vitesse ; dans quelles proportions les nutriments sont-ils consommés, quels sont les composés produits. Alors que les approches d’exploration du métabolisme présentées ci-dessus sont particulièrement adaptées pour décrire le détail des conversions chimiques à l’œuvre, l’étude des phénotypes de croissance fournit des informations d’échelle plus large mais néanmoins complémentaires sur le fonctionnement du métabolisme.

Les expériences de cultures suivies de microorganismes permettent de mesurer à intervalles de temps réguliers la composition chimique de l’environnement des organismes, ainsi que la quantité de biomasse créée (voir Figure 8). À l’aide de ces mesures, les échanges métaboliques entre les organismes et leur environnement (consommation de substrats, excrétion de produits) peuvent être déterminés quantitativement et reliés à leur vitesse de croissance. Ces observations de la physiologie des organismes fournissent des informations importantes sur le fonctionnement in vivo du métabolisme, quand bien même elles sont d’échelle macroscopique. Par exemple, les suivis de la consommation d’oxygène et de substrat carboné ainsi que de la production de dioxyde de carbone sont traditionnellement utilisés pour évaluer le rendement de production énergétique des microorganismes (Neijssel et al. 1996). De même, lorsque l’ensemble des échanges suivis est suffisamment exhaustif, un bilan « d’utilisation du carbone » par le métabolisme peut être effectué, permettant de déterminer quel usage est fait des nutriments carbonés par les organismes. La répartition du carbone entre les molécules de dioxyde de carbone, produits de fermentation et biomasse fournit des indications quant au régime métabolique en cours dans les microorganismes.

44

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 8. Expérience de

Figure 8. Expérience de croissance suivie pour une population d’Escherichia coli cultivée dans un fermenteur en condition aérobie. Tracé des concentrations de glucose, biomasse, acétate et éthanol en fonction du temps.

Une autre classe d’expériences consiste à cribler à grande échelle la croissance des

microorganismes sur des milieux distincts. En utilisant des milieux minimaux 19 dans

lesquels les métabolites sources de carbone, azote, phosphore et soufre sont testés de

manière systématique, ces expériences permettent de déterminer rapidement quels

métabolites sont exploités par l’organisme. Ces résultats sont utilisés de manière

courante par les microbiologistes pour classer les microorganismes et définir les

espèces 20 ; ils fournissent également des indications quant à leurs environnements

naturels. De plus, le fait d’associer les métabolites aux types de contributions

métaboliques (apport en carbone, azote, phosphore ou soufre ; accepteur d’électron)

guide la recherche des voies métaboliques sous-jacentes.

Habituellement, ces expériences sont réalisées « manuellement » en testant la

croissance sur un ensemble de milieux minimaux préparés séparément. Cependant, la

société Biolog a récemment développé et commercialisé un procédé permettant

d’augmenter le débit de ces tests en utilisant des plaques à 96 puits contenant des

19 Un milieu minimal est un milieu de culture de composition contrôlée, couvrant de manière minimale les besoins en nutriments de la cellule. Généralement, un milieu minimal possède un seul type de métabolite contribuant à chaque apport de carbone, azote, phosphore et soufre. 20 Voir http://www.bacterio.cict.fr/

45

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

milieux minimaux distincts. Ces milieux sont tous des variations autour d’une même

base, permettant de cribler de manière systématique les sources de carbone, azote,

soufre ou phosphore (Bochner 2009). Après inoculation, la croissance et l’activité

métabolique 21 sont automatiquement suivies au cours du temps dans chacun des puits

(voir Figure 9). À l’heure actuelle, Biolog propose 20 plaques de phénotypage

différentes, représentant un ensemble de 1920 milieux. Parmi eux, 190 testent des

sources de carbone, 380 des sources d’azote et 95 des sources de soufre et de

phosphore. Les milieux restants évaluent la sensibilité des cellules à diverses

molécules chimiques, dont une majorité d’antibiotiques, ainsi qu’à des changements

de pH et de force ionique.

ainsi qu’à des changements de pH et de force ionique. Figure 9. Activités métaboliques comparées de

Figure 9. Activités métaboliques comparées de deux souches bactériennes sur 96 sources de carbone distinctes. En rouge et vert, cinétiques de croissance spécifiques à chacune des souches. En jaune, partie commune de leurs cinétiques. Extrait de Bochner (2009)

2.2 Exploration génétique des phénotypes de croissance

Les phénotypes représentent des caractéristiques de l’organisme étudié, qui sont

souvent aisément observables. Le développement de la biologie moléculaire, et

notamment du génie génétique, a fourni des outils permettant d’investiguer ces

phénotypes et de rechercher des associations fonctionnelles entre eux et les gènes.

Une grande classe d’expériences développées dans cet esprit consiste à rechercher les

21 Dans la méthodologie Biolog, un rapporteur coloré de la respiration cellulaire (le tetrazolium) est incorporé aux puits. Son niveau est suivi en parallèle à la quantité de cellule obtenue par mesure de la densité optique (Bochner 2009).

46

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

pertes de phénotypes provoquées par la suppression d’un gène. Pour ce faire, elles

comparent les phénotypes de l’organisme sauvage avec ceux de l’organisme dont le

gène ciblé a été inactivé ou éliminé par génie génétique, organisme mutant. Ces

expériences permettent ainsi de mettre expérimentalement en évidence des liens de

causalité entre la présence d’un gène et l’occurrence d’un phénotype particulier.

S’agissant des phénotypes de croissance, l’altération recherchée la plus

significative est la létalité, c’est-à-dire la perte de la capacité à croître

consécutivement à l’inactivation ou l’élimination d’un gène. Ces gènes sont

généralement désignés comme essentiels 22 . De plus, la létalité peut n’être observée

que pour une partie des environnements testés, on parle dans ce cas de gènes

conditionnellement essentiels.

Dans cette section, nous donnerons un bref aperçu des principales techniques

expérimentales permettant de tester à grande échelle les effets de l’inactivation de

gènes, puis nous présenterons les principales applications de ces méthodes, en

particulier pour l’exploration du métabolisme.

2.2.1 Techniques expérimentales

Deux aspects de ces techniques expérimentales peuvent être distingués (bien qu’ils

ne soient pas complètement indépendants) : d’une part la méthode utilisée pour

inactiver ou éliminer les gènes et d’autre part la stratégie employée pour détecter à

grande échelle les gènes essentiels.

Inactivation des gènes

Trois catégories de techniques expérimentales permettent d’inactiver les gènes :

(1) l’insertion d’un transposon dans le gène, (2) la délétion totale du gène par

recombinaison et (3) l’inactivation des transcrits par ARN interférents.

Le mécanisme de transposition 23 offre un outil d’inactivation génique puissant et

relativement simple à utiliser (Hayes 2003). Le principe de l’inactivation consiste à

22 Par opposition aux gènes non-essentiels. La terminologie principalement utilisée en anglais est « essential genes » et « dispensable genes ». 23 Les transposons sont des séquences ADN pouvant se déplacer, et a fortiori, s’intégrer de manière autonome dans le génome. Le mécanisme de transposition

47

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

insérer le transposon au sein de la séquence du gène ciblé de manière à empêcher la

transcription de sa séquence complète (voir Figure 10). Les sites d’insertion des

transposons étant difficilement contrôlables et modifiables en fonction des gènes

ciblés, les techniques d’inactivation génique emploient des stratégies d’insertion

aléatoire des transposons dans le génome. D’un point de vue pratique, les transposons

utilisés sont donc choisis pour pouvoir s’insérer de la manière la moins biaisée

possible à n’importe quel endroit du génome. Différentes stratégies expérimentales

ont été développées pour favoriser la transposition ; d’une part des stratégies in vivo

utilisant des plasmides ou des phages introduisant les séquences ADN des transposons

dans les cellules, et d’autre part des stratégies in vitro, réalisant tout ou partie de la

transposition hors de la cellule avant intégration dans le génome (Reznikoff &

Winterberg 2008). Les techniques d’inactivation par transposition présentent

l’avantage de pouvoir « inactiver » très facilement de nombreux sites dans le génome,

de manière non ciblée. Combinées avec des méthodes efficaces de sélection des

mutants (voir ci-dessous), ces techniques permettent de révéler rapidement des

altérations chromosomiques délétères. L’interprétation de « l’altération

chromosomique » provoquée par l’insertion d’un transposon n’est cependant pas

forcément évidente. D’une part, l’inactivation du gène par insertion n’est en effet pas

forcément réalisée et, d’autre part, l’insertion peut provoquer des effets polaires

perturbant la transcription de gènes éloignés du site d’insertion, mais présents dans le

même opéron. D’autre part, le biais d’insertion des transposons, même faible, rend

inaccessibles à l’étude certaines régions du génome et perturbe l’analyse statistique

des études par insertion aléatoire (Hayes 2003).

repose sur l’utilisation d’une enzyme, la transposase, capable d’exciser puis d’intégrer le transposon dans la séquence ADN.

48

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 10. Illustration du

Figure 10. Illustration du mode d’action d’un transposon. Le transposon, préalablement excisé de son vecteur et attaché à la transposase, se lie au gène cible. La transposase catalyse alors l’intégration du transposon dans la séquence de l’ADN ciblé, altérant la

structure du gène X. Illustration issue de Reznikoff & Winterberg (2008).

Afin de maîtriser au mieux l’inactivation des gènes, l’excision précise et totale du gène de la séquence génomique est parfois privilégiée, même si le coût humain et matériel est nettement supérieur à celui des méthodes de transposition. Les techniques utilisées à cet effet s’appuient généralement sur les processus de recombinaison homologue permettant de remplacer la région génomique ciblée par une séquence de substitution introduite dans la cellule, portant un marqueur de sélection destiné à identifier les mutants corrects (de Berardinis et al. 2008; Baba et al. 2006; Giaever et al. 2002). La séquence de substitution peut ensuite être éliminée pour réduire les effets polaires et pouvoir répéter le processus de délétion à un autre endroit du génome. Nous détaillerons plus loin dans ce manuscrit un exemple de protocole de délétion utilisé pour la bactérie Acinetobacter baylyi (section 4.3). Bien que très précise, chaque délétion doit cependant être réalisée individuellement, rendant le processus laborieux pour la délétion systématique de nombreux gènes (du fait du nombre important de constructions génétiques spécifiques à réaliser).

Enfin, un dernier grand type de technique utilisé consiste à inactiver, non pas le gène directement, mais ses transcrits à l’aide d’ARN interférents. Largement utilisée dans le cas des cellules eucaryotes et notamment d’organismes supérieurs (Dykxhoorn et al. 2003), cette technique est employée également avec succès chez les bactéries (Engdahl et al. 1997; Ji et al. 2001; Forsyth et al. 2002). Elle permet d’inactiver spécifiquement l’action du gène ciblé avec des risques moindres d’interactions avec celles d’autres gènes. L’inactivation n’est souvent cependant que

49

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

partielle, une petite partie des transcrits pouvant ne pas être détruite et maintenant une expression faible mais bien présente.

Stratégies de détection des gènes essentiels

De manière générale, la recherche d’essentialité des gènes se base sur l’étude des phénotypes de croissance des mutants obtenus par les techniques d’inactivation précédentes. Les méthodes d’étude des phénotypes de croissance (voir la section précédente) s’appliquent donc également au cas des mutants. Des stratégies particulières ont néanmoins été développées pour augmenter l’efficacité de la recherche des gènes ayant un impact significatif sur la croissance.

Il est tout d’abord utile de distinguer deux manières d’évaluer l’aptitude à croître des mutants, dont les différences ont des conséquences significatives sur l’interprétation de leurs résultats (Gerdes et al. 2006). D’une part, la croissance des mutants peut être évaluée de manière clonale, séparément pour chacun d’entre eux. Le phénotype observé correspond alors directement à l’aptitude brute à croître du mutant. Celle-ci peut également être quantifiée (voir partie précédente) afin de comparer non seulement l’aptitude mais aussi l’efficacité à croître. D’autre part, le second type de test consiste à évaluer l’aptitude à croître des mutants au sein de populations de cellules mélangeant mutants et souches sauvages. Dans cette configuration, la croissance s’effectue en compétition avec les autres souches ; on observe les effets des mutations sur la valeur sélective des individus. L’essentialité des gènes est donc définie ici par rapport à leur contribution à l’efficacité de survie de l’organisme (gènes essentiels au succès reproducteur), et non plus seulement par rapport à leur seule capacité à croître (gènes essentiels à la survie). Le choix de la méthode dépend alors de l’exploitation faite des résultats. La première identifie de manière nette les gènes indispensables au phénotype observé, permettant d’investiguer leurs liens, tandis que la seconde, plus large, permet d’identifier des gènes de contributions moindres mais potentiellement importantes du point de vue évolutif.

La stratégie la plus directe de détection des gènes essentiels consiste à inactiver systématiquement chacun des gènes du génome et à tester les phénotypes de croissance des mutants correspondants. Cette approche requiert de pouvoir générer les mutants de manière ciblée. Pour cette raison, les techniques majoritairement utilisées sont les délétions par recombinaison homologue et l’interférence par ARN (Carpenter

50

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

& Sabatini 2004), mais des protocoles ont également été développés sur la base de

transposons (Kang et al. 2004; Reznikoff & Winterberg 2008; Kobayashi et al. 2003).

L’avantage principal de cette stratégie réside dans sa couverture complète du génome,

tous les gènes sont systématiquement testés (aux impossibilités expérimentales près).

De plus, les mutants créés sont généralement conservés et peuvent être aisément

phénotypés ultérieurement pour de nouvelles conditions expérimentales, bénéficiant

par exemple alors du débit apporté par des méthodes du type Biolog. E revanche, la

création systématique d’un mutant pour chaque gène est une opération lourde, de

débit faible.

Afin d’augmenter le débit de l’expérience, des stratégies basées sur l’inactivation

aléatoire (ou « shotgun ») des gènes – par transposon (Reznikoff & Winterberg 2008)

ou ARN interférent (Ji et al. 2001) – ont été développées. Le principe de ces stratégies

consiste à générer un nombre suffisamment élevé de mutants d’inactivation 24 afin

que, statistiquement, chacun des gènes ait une probabilité significative d’avoir été

inactivé (ou plutôt, une probabilité faible de ne pas avoir été inactivé). En observant

ensuite dans les mutants viables à quels endroits sur le génome se retrouvent les

transposons (voir Figure 11) ou correspondent les ARN interférents, les gènes non-

essentiels peuvent être déterminés. La couverture statistique suffisante des

inactivations (appelée saturation) permet alors de déduire que les gènes jamais

impactés sont essentiels dans les conditions de l’expérience. Comme mentionné plus

haut, le test de croissance des mutants peut être réalisé de manière clonale ou au sein

d’une population. La méthode de « genetic footprinting », relativement répandue pour

rechercher les gènes spécifiquement associés à un phénotype particulier, correspond à

ce dernier cas (Smith et al. 1995; Hare et al. 2001). Les lieux d’insertions des

transposons (déterminés par PCR 25 , voir Figure 11) sont comparés pour deux

populations similaires mais cultivées dans des environnements distincts. Les

24 Dans le cas des transposons, la non spécificité de l’insertion garantit dans une certaine mesure la couverture aléatoire des inactivations. Dans le cas des ARN interférents, des banques aléatoires d’ARN antisens sont généralement créées par fractionnement aléatoire de la séquence génomique (Ji et al. 2001). 25 PCR : « Polymerase Chain Reaction ». Méthode d’amplification d’une région précise de l’ADN à partir d’oligonucléotides délimitant les extrémités de la région et servant d’amorces à l’ADN polymérase. La région amplifiée est appelée produit de PCR.

51

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

différences significatives de fréquence d’insertion à certaines localisations du génome révèlent alors l’essentialité conditionnelle des gènes correspondants. Le principal inconvénient des stratégies aléatoires est la faible maîtrise de l’inactivation des gènes, rendant parfois difficile l’interprétation de l’origine de l’essentialité.

l’interprétation de l’origine de l’essentialité. Figure 11. Méthode de « genetic footprinting ». Les

Figure 11. Méthode de « genetic footprinting ». Les lieux d’insertion des transposons sont déterminés par la longueur des produits de PCR entre les amorces choisies à des endroits connus du génome et les amorces placées dans les transposons. Les zones vides du gel d’électrophorèse correspondent aux régions génomiques n’ayant pas retenu d’insertion après sélection des mutants, révélant une possible essentialité des gènes présents à ces loci. Demi-flèches, amorces de PCR ; losanges, lieux d’insertion des transposons. Figure extraite de

Scholle & Gerdes (2008).

Ces stratégies furent appliquées à un nombre pour l’instant relativement restreint d’organismes (voir Tableau 3). Cependant, leur accessibilité est en constante amélioration, et il est probable qu’elles occuperont une place plus importante dans la boîte à outils des biologistes moléculaires (Carpenter & Sabatini 2004). S’agissant des résultats d’essentialités existants, il est utile de mentionner les initiatives ayant pour but de les centraliser (Yamazaki et al. 2008; Zhang & Lin 2009).

52

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

 

Test de

Organisme

Méthode

d’inactivation

Organisme Méthode d’inactivation croissance des mutants Référence

croissance des

mutants

Organisme Méthode d’inactivation croissance des mutants Référence

Référence

A.

baylyi ADP1

Délétion ciblée

Clones

(de Berardinis et al.

 

2008)

M.

genitalium, M.

Transposon,

Population

(Hutchison et al. 1999)

pneumonia

aléatoire

M.genitalium

Transposon,

Clones

(Glass et al. 2006)

aléatoire

M.

pulmonis

Transposon,

Clones

(French et al. 2008)

 

aléatoire

S.

aureus

ARN interférent,

Clones

(Ji et al. 2001)

WCUH29

aléatoire

S.

aureus

ARN interférent,

Clones

(Forsyth et al. 2002)

RN4220

aléatoire

H.

influenzae Rd

Transposon,

Population

(Akerley et al. 2002)

 

aléatoire

S.

pneumoniae

Disruption ciblée

Clones

(Thanassi et al. 2002)

Rx-1

 

S.

pneumoniae

Délétion ciblée

Clones

(Song et al. 2005)

D39

M. tuberculosis

Transposon,

Population

(Sassetti et al. 2003)

H37Rv

aléatoire

B.

subtilis 168

Disruption ciblée

Clones

(Kobayashi et al. 2003) (Gerdes et al. 2003)

E.

coli K-12

Transposon, aléatoire

 

Population

MG1655

 

E.

coli K-12

Transposon, ciblée

Clones

(Kang et al. 2004)

MG1655

 

E.

coli K-12

Délétion ciblée

Clones

(Baba et al. 2006)

MG1655

 

P.

aeruginosa

Transposon, aléatoire

 

Clones

(Jacobs et al. 2003)

PAO1

 

P.

aeruginosa

Transposon, aléatoire

 

Clones

(Liberati et al. 2006)

PA14

 

S.

typhimurium

Disruption aléatoire

Clones

(Knuth et al. 2004) (Salama et al. 2004)

H.

pylori G27

Transposon,

Population

 

aléatoire

F.

novicida

Transposon,

Clones

(Gallagher et al. 2007)

aléatoire Tableau 3. Études expérimentales à grande échelle de l’essentialité des gènes pour des organismes bactériens. Données issues et complétées à partir de Gerdes et al (2006).

2.2.2 Exploitation des données d’essentialité

Historiquement, les premières études d’essentialité de gènes chez les bactéries

furent motivées par la recherche de cibles thérapeutiques pour des médicaments anti-

infectieux (Ji et al. 2001; Thanassi et al. 2002; Forsyth et al. 2002; Hare et al. 2001;

Arigoni et al. 1998; Reich et al. 1999; Chalker & Lunsford 2002). De nombreuses

études furent ainsi conduites pour des bactéries pathogènes, notamment dans le cadre

des recherches de groupes privés.

53

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

Toujours à des fins d’applications pratiques, l’étude des phénotypes d’inactivation de gènes est également utilisée en ingénierie du métabolisme. Elle permet d’identifier des mutations optimisant l’efficacité de production (ou de dégradation, selon l’objectif recherché) de l’organisme utilisé en neutralisant par exemple des voies alternatives en compétition pour les ressources ou des régulations inhibitrices (Park et al. 2008).

Plus fondamentalement, les études portant sur l’évolution des organismes, et notamment de leurs génomes, ont exploité avec intérêt les résultats d’essentialité des gènes. Un grand nombre d’entre elles ont ainsi cherché à établir des corrélations entre l’essentialité des gènes et leurs caractéristiques évolutives, par exemple la vitesse d’évolution ou les biais de leurs séquences, leur conservation entre les espèces ou leur position dans le génome (Fang et al. 2005; Gong et al. 2008; Papp et al. 2004; Harrison et al. 2007; Rocha & Danchin 2003). Ces analyses sont motivées par l’exploration des mécanismes d’évolution ; la distinction entre gènes essentiels et gènes non-essentiels permet d’une part d’estimer l’impact de la valeur sélective des gènes sur leur évolution et d’autre part d’évaluer l’importance de la robustesse aux perturbations génétiques comme caractère marquant de l’évolution. Une autre partie des études liées à l’évolution se sont basées sur l’hypothèse que les gènes essentiels représentent des fonctions universellement requises, devant donc être retrouvées dans chaque organisme. En combinant données d’essentialité et analyses de la conservation des gènes entre organismes, ces études ont cherché à élucider des scénarios évolutifs et à reconstruire des génomes ancestraux (Koonin 2003). De manière connexe, de nombreuses initiatives ont été entreprises pour construire des génomes minimaux, à la fois via des méthodes bioinformatiques ou expérimentales (Koonin 2003; Glass et al. 2006; Mushegian & Koonin 1996).

Enfin, et plus proche du sujet de cette thèse, les phénotypes de croissance de mutants sont aussi largement utilisés pour rechercher les fonctions de gènes et comprendre le fonctionnement de processus biologiques. Ces approches sont basées sur la recherche de liens de causalités spécifiques entre la présence d’un gène et l’occurrence d’un phénotype, afin de guider soit la recherche des gènes impliqués dans la réalisation d’une fonction particulière (approche de génétique classique), soit la recherche de fonctions biologiques associées à un gène particulier (approche de

54

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

génétique inverse, voir Figure 12). À ces deux types d’approches correspondaient traditionnellement des types d’expériences distinctes, par exemple le « genetic footprinting » en génétique classique ou le phénotypage à haut débit en génétique inverse. La réalisation de banques de mutants d’inactivation à grande échelle permet désormais de lier les deux approches, où les phénotypes de chacun des mutants peuvent être systématiquement testés (Carpenter & Sabatini 2004). Ces approches sont utilisées à des fins exploratoires (Aghaie et al. 2008) mais également de confirmation ou d’invalidation de fonctions de gènes, lorsque celles-ci sont attribuées sur la base d’indices faibles (de Berardinis et al. 2008; Joyce et al. 2006; Baba et al. 2006). Les processus métaboliques se prêtent bien à l’utilisation de ces approches (Gerdes et al. 2006), qui ont d’ailleurs largement contribué à l’identification des gènes impliqués dans les voies métaboliques connues. En effet, des tests phénotypiques caractérisant assez précisément une fonction métabolique peuvent être élaborés en combinant complémentation par des substrats et inactivation de voies métaboliques. Une formalisation de cette démarche a d’ailleurs été récemment développée et mise en pratique dans un robot réalisant automatiquement à la fois les raisonnements et les expériences correspondant à ce type d’approche (King et al. 2009; King et al. 2004).

ce type d’approche (King et al. 2009; King et al. 2004). Figure 12. Principes des approches

Figure 12. Principes des approches de génétique classique et de génétique inverse.

Toutes ces études reconnaissent cependant l’existence de difficultés dans l’utilisation des données d’essentialités de gènes. Tout d’abord, comme souligné plus haut, l’effet phénotypique d’une inactivation de gène s’interprète parfois de manière

55

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

ambiguë. La non-viabilité d’un mutant dépend en effet fortement des conditions de croissance de celui-ci et de sa mise en compétition ou non au sein d’une population de cellules. L’environnement de croissance a de plus un effet majeur sur l’essentialité des gènes, surtout pour ceux jouant un rôle dans le métabolisme. Cet aspect est mis à profit pour justement identifier les gènes spécifiques à un environnement dans un organisme donné, mais il brouille les comparaisons d’essentialité entre organismes (Gerdes et al. 2006). Enfin, et surtout, l’essentialité d’une fonction biologique dans un organisme n’implique pas nécessairement l’essentialité du ou des gènes associés à sa réalisation. La présence de mécanismes alternatifs ou de gènes de fonctions redondantes peut en effet rendre chacun des gènes individuellement non-essentiels. Cette robustesse aux perturbations génétiques motive par ailleurs de nombreuses études (Papp et al. 2004; Kuepfer et al. 2005; Deutscher et al. 2006; Stelling et al. 2004; Kitano 2007) mais rend la recherche de fonctions essentielles plus délicate. Le recours aux délétions multiples permet d’aller un cran plus loin dans cette recherche (Tong et al. 2004; Butland et al. 2008), mais l’explosion du nombre de combinaisons à tester rend impossible l’utilisation naïve de ces approches.

Dans le cas du métabolisme, la connaissance des voies métaboliques et des associations entre gènes et activités réactionnelles peut aider à interpréter correctement les résultats d’essentialité au regard de l’environnement et des potentielles redondances (Gerdes et al. 2006). Cependant, comme déjà mentionné plus haut, la complexité du métabolisme et le grand nombre de résultats à interpréter rendent ces analyses souvent difficiles à réaliser. La modélisation du métabolisme peut justement assister l’investigateur dans cette tâche en réalisant ces raisonnements automatiquement. Ceci constitue le sujet des travaux de notre thèse qui s’inscrit dans un mouvement global d’initiatives en ce sens, dont nous effectuerons une revue dans la partie suivante.

3 Modélisation du métabolisme

Dans cette section, nous donnerons tout d’abord une rapide vue d’ensemble des méthodes de modélisation du métabolisme – avec un point de vue orienté vers la prise en compte de l’ensemble du métabolisme de la cellule – avant de présenter plus en détail la méthode de modélisation retenue dans cette thèse. En dernier lieu, nous

56

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

effectuerons un état de l’art à la date du début de la thèse – fin 2005 – sur

l’exploitation des phénotypes de croissance et des essentialités de gènes à l’aide des

modèles métaboliques.

3.1 Approches de modélisation du métabolisme

Largement employées en physique, mécanique ou chimie, la modélisation et la

simulation informatique ne sont en comparaison utilisées que depuis récemment en

biologie, à l’exception notable de l’écologie et de l’épidémiologie dans lesquelles les

mathématiques occupent une place significative depuis longtemps (May 2004). Les

systèmes physico-chimiques étudiés en biologie ont en effet longtemps été jugés

difficiles à aborder par ces approches du fait de leur grande complexité et surtout de la

part importante d’inconnu dans leur fonctionnement. Cependant, depuis quelques

décennies, des progrès considérables ont été effectués dans leur compréhension grâce

notamment aux avancées technologiques qui permettent de caractériser un nombre

toujours croissant de leurs acteurs et interactions. La reconnaissance toujours présente

(et même accrue) de la complexité de ces systèmes associée à la disponibilité

d’informations sur leurs acteurs ont alors motivé le développement d’approches plus

formelles pour la compréhension globale de ces systèmes 26 dans lesquelles les

mathématiques et la modélisation jouent un rôle primordial. Le projet Physiome,

consacré à l’étude du fonctionnement du cœur par la modélisation à différentes

échelles – moléculaire, cellulaire, de l’organe entier – et de différentes composantes –

mécanique, biochimique, électrique –, est un exemple phare de ce type d’approche

(Noble 2002; Hunter & Borg 2003).

S’agissant du métabolisme, une variété relativement large de méthodes de

modélisation ont été élaborées, dont la nature dépend souvent à la fois des questions

posées et de la « culture » scientifique – informatique, mathématique, physique – de

leurs auteurs. En première approximation, on peut distinguer ces méthodes selon le

niveau de détail de leurs prédictions (Figure 13) (Stelling 2004).

26 Désignées communément sous le terme de biologie des systèmes (Kitano 2002; Stelling 2004).

57

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 13. Formalismes de

Figure 13. Formalismes de modélisation du métabolisme classés selon leurs niveaux de détails. (a) modélisation sous forme de graphes, construits à partir d’informations sur les interactions entre les acteurs du métabolisme, (b) modélisation à base de contraintes, tenant compte des relations quantitative entre flux de réaction lorsque le métabolisme opère en régime stationnaire, (c) modélisation cinétique, représentant l’évolution temporelle des quantités d’enzymes et de métabolites. Les illustrations sur la ligne inférieure représentent des résultats typiques de ces méthodes : (a) métabolites centraux (liés à un grand nombre de métabolites) en rouge dans un réseau métabolique, (b) ensemble des valeurs de flux réactionnels possibles en régime stationnaire (pour plus de détails su ce formalisme, voir section 3.2), (c) dynamique de la concentration de métabolites. Figure issue de Stelling (2004).

La méthode de modélisation a priori la plus naturelle pour un physicien consiste à décrire l’évolution dans le temps des quantités de métabolites et d’enzymes ; il s’agit de la modélisation cinétique ou modélisation quantitative (Di Ventura et al. 2006). Pour cela, des modèles mathématiques de la cinétique des enzymes (voir la section 1.2.4 et Cornish-Bowden (2004)) sont utilisés pour représenter les dépendances entre ces grandeurs, le plus souvent sous la forme d’équations différentielles. Leur résolution analytique est le plus souvent impossible sauf dans les cas très simples. On utilise alors la simulation informatique pour obtenir une solution numérique – des courbes d’évolution dans le temps des grandeurs – ou des outils théoriques, tels que les analyses de bifurcation et de stabilité, pour caractériser le comportement du système (Di Ventura et al. 2006). La complexité des modèles cinétiques varie significativement, en fonction des hypothèses simplificatrices formulées et de la taille du réseau métabolique considéré. Ainsi, certains modèles prennent en compte la localisation spatiale des molécules dans la cellule (Lemerle et al. 2005; Moraru et al. 2008) tandis que d’autres (la majorité) supposent une répartition homogène. De même, la sensibilité des processus aux fluctuations aléatoires peut nécessiter un

58

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

traitement stochastique de ces phénomènes, rendant leur résolution plus complexe (Di

Ventura et al. 2006; Gillespie 2007). Les modèles cinétiques ont été employés avec

succès pour analyser le comportement dynamique de petits systèmes métaboliques et

prédire leurs réponses à des perturbations (Klipp et al. 2002; Zaslaver et al. 2004).

Leurs applications les plus significatives jusqu’à présent portent toutefois plutôt sur

les processus de signalisation ou de régulation transcriptionnelle (Di Ventura et al.

2006; Barkai & Leibler 1997; Bonneau et al. 2007).

Les phénotypes de croissance sont une manifestation globale du fonctionnement

du réseau métabolique. Leur étude requiert donc de tenir compte de l’ensemble des

réactions. La modélisation cinétique ne peut satisfaire actuellement cette contrainte.

D’une part, les comportements cinétiques des enzymes ne sont de loin pas tous

caractérisés 27 et reposent sur de nombreux paramètres numériques souvent

inconnus 28 . D’autre part, le nombre de réactions impliquées rend les analyses

extrêmement complexes et souvent difficiles à réaliser, même par simulation

numérique. Pour ces raisons, des cadres de modélisation de moindres capacités

prédictives – prédictions moins précises ou hypothèses plus restrictives – mais aux

formalismes utilisables à des tailles de réseaux métaboliques plus importantes ont été

élaborés.

L’analyse du contrôle métabolique a pour objectif de quantifier les dépendances

entre les différentes grandeurs d’un système métabolique – flux de réaction,

concentrations de métabolites ou d’enzymes – fonctionnant en première

approximation autour d’un régime stationnaire (Kacser & Burns 1973; Heinrich &

Rapoport 1974; Fell 1992). Ce type d’analyse détermine typiquement des coefficients

de contrôle exprimant dans quelle mesure les variations de certaines grandeurs

influent sur les autres grandeurs et le comportement global du système. L’application

de ce type d’analyse à des voies métaboliques linéaires a par exemple pu montrer que

le contrôle du flux à l’état stationnaire d’une voie métabolique de ce type se répartit

entre les différentes enzymes de cette voie et n’est pas simplement déterminé par une

27 Même si des initiatives cherchent à établir des cinétiques « génériques » pour les enzymes (Liebermeister & Klipp 2006). 28 Malgré l’existence de bases de données centralisant les informations sur ces paramètres (Barthelmes et al. 2007; Wittig et al. 2006).

59

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

seule d’entre elle 29 , « l’étape limitante » (Fell 1992). D’un point de vue plus global et

plus proche des phénotypes de croissance, ce type d’analyse a également été utilisé

pour étudier les dépendances entre l’efficacité à se reproduire d’organismes et les flux

dans certaines de leurs voies métaboliques clés (Dykhuizen et al. 1987). Néanmoins,

ces analyses nécessitent toujours de déterminer un nombre relativement élevé de

paramètres numériques (quantifiant les dépendances), bien que plus réduit que ceux

des modèles cinétiques. Pour cette raison, l’analyse du contrôle métabolique est

majoritairement appliquée dans deux cas de figures distincts : (1) la démonstration

théorique d’un type de comportement métabolique et (2) l’étude précise du

comportement d’un ensemble de quelques voies métaboliques en exploitant des

données expérimentales.

À un niveau de simplification supplémentaire se situe la modélisation à base de

contraintes (Price et al. 2004), que nous avons adoptée dans cette thèse et dont nous

présenterons le formalisme et les références majeures dans la section suivante (section

3.2). Ce cadre de modélisation se concentre exclusivement sur l’étude des régimes

stationnaires du métabolisme, mais sans chercher à quantifier leurs dépendances aux

variations des grandeurs du système tel que le fait l’analyse du contrôle métabolique.

Dans un souci de simplicité, il décrit le fonctionnement du métabolisme uniquement

avec les flux de réaction. Plutôt que de chercher à déterminer la valeur précise de ces

flux, tâche difficile et nécessitant une grande quantité d’information (c’est un des

objectifs des modèles cinétiques), le principe de ces modèles consiste au contraire à

exploiter au mieux l’information disponible pour affiner progressivement la

caractérisation des flux métaboliques. Ces modèles raisonnent ainsi sur des ensembles

de valeurs de flux possibles compte tenu de l’information disponible : peu

d’information résulte en de grands ensembles de valeurs possibles tandis que l’ajout

d’information réduit leurs tailles (et affine donc la connaissance des flux).

L’information est prise en compte dans ces modèles sous forme de contraintes

mathématiques sur les flux. Celles-ci peuvent simplement définir des plages de

valeurs connues (ou mesurées) pour certaines réactions ou traduire des dépendances

complexes entre flux. L’hypothèse de régime stationnaire entre dans ce dernier cas ;

29 La répartition du contrôle n’est cependant pas homogène et, quand bien même il n’existe pas une unique étape limitante, le but de l’analyse du contrôle métabolique est de déterminer lesquelles contribuent le plus significativement au contrôle.

60

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

elle se traduit mathématiquement par des relations linéaires entre flux exprimant la

conservation de la matière. Le principal atout de cette méthode est donc de pouvoir

gérer le manque d’information et de pouvoir ainsi être appliquée pour des systèmes de

tailles plus conséquentes que pour les modèles cinétiques. Dans la pratique, son

utilisation pour des réseaux métaboliques globaux permet d’obtenir des prédictions

intéressantes sur la valeur de leurs flux, notamment grâce au fait que la contrainte de

régime stationnaire puisse être appliquée à cette échelle 30 et contribue à affiner

significativement la caractérisation des flux. Nous reviendrons plus en détail sur ce

cadre de modélisation dans la partie suivante.

La représentation du réseau métabolique sous forme de graphe permet d’en

simplifier encore plus sa modélisation (voir Figure 13). Un graphe est un concept

mathématique et informatique permettant de représenter des liens (éventuellement

orientés) entre objets ; il se compose simplement d’un ensemble d’objets et d’un

ensemble de liens entre objets 31 . Les développements de la théorie des graphes ont

apporté un vaste panel de méthodes pour explorer leurs propriétés : recherche de

chemins entre objets à travers les liens du graphe, statistiques topologiques, recherche

de motifs topologiques caractéristiques, décomposition en sous-graphes de densités de

liens plus élevées… De par sa nature, le réseau métabolique se prête bien à

l’utilisation des graphes. Il peut être représenté sous la forme d’un graphe simple où

les objets sont les réactions ou les métabolites et les liens indiquent que les réactions

(respectivement les métabolites) partagent un ou plusieurs métabolites

(respectivement une ou plusieurs réactions). Il peut être également représenté de

manière plus complète en utilisant un graphe à deux types d’objets 32 dans lequel à la

fois les métabolites et les réactions sont représenté ; les liens associent alors les

métabolites aux réactions auxquelles ils participent (voir Figure 14).

30 La seule information requise est la stœchiométrie des réactions, qui est en général connue dans le métabolisme.

31 La nomenclature usuelle appelle les objets nœuds et les liens arêtes.

32 Graphe biparti.

61

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

version 1 - 20 Oct 2009 Maxime DUROT Thèse de doctorat 2009 Figure 14. Représentations sous

Figure 14. Représentations sous forme de graphes d’un réseau métabolique théorique. Les métabolites sont représentés par des cercles et désignés par des nombres, les réactions représentées par des carrés et désignées par des lettres. À gauche, représentation sous forme d’un graphe biparti ; au centre, graphe simple de métabolites ; à droite, graphe simple de réactions.

La simplicité des graphes métaboliques permet leur utilisation dès lors que les réactions du réseau métabolique sont connues. C’est pourquoi ils ont connu un intérêt prononcé au moment où les réseaux métaboliques globaux de plusieurs organismes ont été reconstruits, à la suite du séquençage et de l’annotation de leurs génomes. Une première catégorie d’études s’est principalement attachée à analyser la structure de ces graphes, dans le but de mettre en évidence des propriétés structurelles communes entre organismes (Jeong et al. 2000) ou de décomposer les réseaux en modules fonctionnels similaires à la notion de voie métabolique (Ravasz et al. 2002). Une seconde catégorie d’études a quant à elle été consacrée à élaborer des algorithmes permettant d’explorer les capacités de conversion des réseaux métaboliques en fonction de leurs environnements. Ces études – basées sur des méthodes dites d’expansion de réseau – permettent typiquement de générer l’ensemble des métabolites pouvant être potentiellement synthétisés par un réseau de réactions à partir d’un ensemble initial de métabolites (Handorf et al. 2005; Romero & Karp 2001; Raymond & Segrè 2006). La simplicité extrême des graphes métaboliques limite cependant leurs capacités prédictives. Les aspects quantitatifs, et notamment la

62

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

stœchiométrie des réactions, sont en effet ignorés malgré leur importance dans la

compréhension du fonctionnement métabolique (de Figueiredo et al. 2009). Ils sont

donc majoritairement utilisés lorsque la reconstruction des réseaux métaboliques ne

peut être effectuée que de manière grossière – notamment pour les études

comparatives de nombreux réseaux – ou lorsque la taille des réseaux nécessite une

modélisation « allégée ».

Des initiatives ont cependant cherché à améliorer les capacités prédictives des

graphes métaboliques en les étendant au sein de cadres de modélisation

informatique 33 plus élaborés (Fisher & Henzinger 2007). Parmi ces derniers, les

réseaux de Petri se sont révélés être particulièrement bien adaptés à l’étude du

métabolisme, permettant notamment d’aborder de façon qualitative la dynamique de

certaines voies métaboliques (Simão et al. 2005; Hofestädt 2003; Reddy et al. 1996;

Koch et al. 2005). Ces cadres de modélisation passent toutefois encore difficilement à

l’échelle du métabolisme cellulaire tout entier, pour lequel prédomine l’utilisation des

graphes ou des modèles à base de contraintes.

3.2 Les modèles à base de contraintes : reconstruction et applications

Cette partie présente de manière détaillée la modélisation à base de contraintes.

Elle couvre trois aspects : (1) le formalisme mathématique sous-jacent, (2) la

reconstruction pratique de ces modèles, notamment les méthodes et ressources

bioinformatiques de reconstruction des réseaux métaboliques (évoquées dans la

section 1.4), et (3) ses principales applications. Dans un premier temps, nous invitons

le lecteur à lire un article de revue – que nous avons rédigé au cours de la thèse pour

le journal FEMS Microbiology Reviews (Durot et al. 2009) – traitant des deux

33 Un modèle informatique se distingue d’un modèle mathématique de par son exécution directe par un ordinateur (Fisher & Henzinger 2007). Les modèles mathématiques sont généralement exprimés par des équations dont la résolution n’est pas nécessairement simple à réaliser. L’informatique peut aider à leur résolution en utilisant des programmes dédiés (notamment la simulation numérique). A l’inverse, les modèles informatiques sont exprimés sous la forme d’un langage ou d’un algorithme pouvant être directement exécuté par l’ordinateur. Ils se basent sur la description d’états et spécifient sous quelles conditions ces états évoluent. Ils sont donc par construction de nature qualitative.

63

tel-00425212, version 1 - 20 Oct 2009

Maxime DUROT

Thèse de doctorat 2009

derniers aspects. Nous donnerons dans un deuxième temps des précisions au lecteur sur le cadre mathématique de la modélisation.

3.2.1 Article de revue

64

tel-00425212, version 1 - 20 Oct 2009

R E V I E W A R T I C L E

version 1 - 20 Oct 2009 R E V I E W A R T I

Genome-scale models of bacterial metabolism: reconstruction and applications

Maxime Durot, Pierre-Yves Bourguignon & Vincent Schachter

Genoscope (CEA) and UMR 8030 CNRS-Genoscope-Universit e´ d’Evry, Evry, France

Correspondence: Vincent Schachter,

Genoscope (CEA) and UMR 8030 CNRS- Genoscope-Universit e´ d’Evry, 2 rue Gaston

Cremieux,´

France. Tel.: 1 33 1 60 87 25 92; fax: 1 33 1

60 87 25 14; e-mail: vs@genoscope.cns.fr

CP5706, 91057 Evry, Cedex,

Received 30 July 2008; revised 22 October 2008; accepted 22 October 2008. First published online December 2008.

DOI:10.1111/j.1574-6976.2008.00146.x

Editor: Victor de Lorenzo

Keywords metabolic network; systems biology; computational methods; genome-scale metabolic models; metabolic engineering; omics data integration.

Abstract

Genome-scale metabolic models bridge the gap between genome-derived bio- chemical information and metabolic phenotypes in a principled manner, provid- ing a solid interpretative framework for experimental data related to metabolic states, and enabling simple in silico experiments with whole-cell metabolism. Models have been reconstructed for almost 20 bacterial species, so far mainly through expert curation efforts integrating information from the literature with genome annotation. A wide variety of computational methods exploiting meta- bolic models have been developed and applied to bacteria, yielding valuable insights into bacterial metabolism and evolution, and providing a sound basis for computer-assisted design in metabolic engineering. Recent advances in computa- tional systems biology and high-throughput experimental technologies pave the way for the systematic reconstruction of metabolic models from genomes of new species, and a corresponding expansion of the scope of their applications. In this review, we provide an introduction to the key ideas of metabolic modeling, survey the methods, and resources that enable model reconstruction and refinement, and chart applications to the investigation of global properties of metabolic systems, the interpretation of experimental results, and the re-engineering of their biochemical capabilities.

Introduction

The flow of genome sequencing, metagenome sequencing and other high-throughput experimental efforts aimed at exploring the space of microbial biochemical capabilities has been steadily growing in recent years. At the time of writing, more than 1800 bacterial genome-sequencing projects have been initiated and nearly 650 have been completed (http://www.genomesonline.org, http://www.ebi.ac.uk/integr8). Combined with increasingly efficient annotation methods, these set the stage for the systematic identification of most enzymes encoded in the genomes of the corresponding bacterial species. A variety of so-called ‘-omics’ technologies now routinely provide large-scale functional clues on mole- cular interactions and cellular states, offering snapshots of the dynamic operation of metabolism under specified con- ditions, and adding to the store of accumulated knowledge on microbial biochemistry and physiology. Simultaneously, the expected wealth of new biochemical activities, the progress of metabolic engineering techniques

c

2008 CEA–Genoscope

Journal compilation c 2008 Federation of European Microbiological Societies

Published by Blackwell Publishing Ltd.

aimed at harnessing these activities, and the perspective of applications to white and green biotechnology have triggered

a strong renewed interest in the exploration of bacterial

metabolism. In addition to charting the range of naturally evolved chemical transformations, relevant research ques- tions include the following: How does the global metabolism of a bacterium react to changes in its environment? What kind of joint metabolic operation of distinct species can help sustain a bacterial community? How can genomic and biochemical information be best exploited to gain insights into the relationship between an organism’s genotype and its phenotype? For instance, can we predict changes in metabo- lism-related phenotypic traits caused by simple or complex genotype modifications? How did metabolic processes

evolve? How can metabolic networks be efficiently repro- grammed for a variety of utilitarian purposes?

Investigations of a bacterium’s metabolism are typically fed

by knowledge (ultimately from observations) at two different

scales of description of the chemistry at work within cells. The

larger scale focuses on the physiology of the whole bacterial

FEMS Microbiol Rev 33 (2009) 164–190

Genome-scale models of bacterial metabolism

165

tel-00425212, version 1 - 20 Oct 2009

cell. For instance, which media is it able to grow on? What are the relative quantities of chemical nutrients it requires for growth? How efficient is the cell at converting chemicals from the environment into its own components? Such metabolic capabilities result from the coordinated action of the enzymes expressed in the respective species, the knowledge of which belongs to the finer, molecular scale. Each of the correspond- ing biochemical conversions can be identified either directly by performing enzymatic assays, or indirectly, from the genome sequence, through a homology relationship with proteins whose function has been previously elucidated. To- gether, the reactions that have been demonstrated to poten- tially occur in the cell form the metabolic network of the organism. Metabolic networks can thus be viewed as lists of those molecular mechanisms (reactions) and associated molecular components (enzymes, substrates, and products) that are most directly related to the metabolic capabilities mentioned above. For a given bacterial species, confronting knowledge from these two scales, molecular vs. cellular, can reveal inconsis- tencies. For instance, it may happen that no sequence of identified reactions is capable of producing one of the essential cell components from the set of compounds avail- able in a defined growth medium, even though the species is known to grow on that medium. Furthermore, when the two scales are consistent, their relationship can be investigated further in order to enumerate the possible implementations of the physiology that the metabolic network can achieve. Biochemists have traditionally performed such investigations by modularizing the set of reactions into metabolic pathways, typically grouping together reactions that allow the conver- sion of one or more ‘input’ metabolites into ‘output’ meta- bolites. Pathways boundaries are somewhat arbitrary, even though inputs and outputs tend to be metabolites involved in several reactions. Pathway-based analyses are thus focused on the possible fates of a restricted number of compounds, and are amenable to manual expertise thanks to the simplification brought by the modularized view (Huang et al., 1999; Teusink et al., 2005; Risso et al., 2008). Yet, metabolic pathways typically involve a large number of ‘side metabolites’ such as cofactors and byproducts of chemical reactions, and metabolism is as much about converting nutrient into cell components as it is about regenerating cofactors and recycling (or secreting) ulti- mately unused byproducts. The latter transformations typi- cally involve several pathways, and are dependent on the stoichiometry and rates of the reactions. Manual approaches are insufficient to assess their feasibility by a given network for at least two reasons: metabolic networks are too large, and the question requires a quantitative analysis. Bridging that gap between knowledge of the metabolic network structure and observed metabolic phenotypes is precisely where metabolic models come into play. Generally

speaking, a model of a natural system is one of many possible mathematical representation of that system, explicitly describing some of its features and supporting predictions on some other features, the latter being typically time- or environment dependent. In this particular case, knowledge of the metabolic network alone is not quite sufficient to predict the metabolic capabilities of a cell. Also needed are a structured (mathematical) representation of that network, together with a set of rules and possibly quantitative parameters enabling simulations or predictions on the joint operation of all network reactions in a given environment, and in particular predictions on the values of metabolite fluxes and/or concentrations (Papin et al ., 2003). The above, in short, constitutes a metabolic model. Constraint-based genome-scale models of metabolism (Palsson, 2006) are a category of models precisely aimed at assessing the physiological states achievable by a given meta- bolic network, and at uncovering their biochemical imple- mentation in terms of metabolic fluxes. They offer an idealized view of the cell as a set of ‘pipes,’ with metabolites flowing through each pipe, and biochemical conversions taking place at junctions between pipes. Some metabolites can also be exchanged with the environment, flowing in or out of the system through dedicated pipes that can be opened or shut, and may have upper bounds on their throughput. The cell is required to achieve balanced production and consump- tion of all the intermediate substrates and products involved in its metabolism: what flows in a junction must flow out. Constraint-based models can help investigate in a sys- tematic manner most of the research questions listed at the start of this introduction, because they provide a way to explore the consequences on the operation of the entire metabolic network of the piecemeal information available on each of its parts. They are especially well suited to ‘what if’ experiments involving genetic or environmental pertur- bations, such as: how would the cell behave in an environ- ment with a different chemistry than the ones that have been experimented on? How would one or more deletions affect its metabolic capabilities? Which deletions would maximize the production of both metabolite x and biomass? Before a model for a given species can be used to gain new insights into its metabolic capabilities or evolutionary history, it must first be built from the scattered genomic, biochemical, and physiological information available on that species up to a point where known physiology can be predicted from biochemistry without major mistakes. This process is sometimes known as ‘model reconstruction’; its endpoint is a functional genome-scale model, i.e. a struc- tured representation of the current state of knowledge on the metabolism of the respective species (Reed et al ., 2006a). The model provides a framework to interpret new experimental data gathered at the cellular or molecular scale. That data may be incompatible with the current model, in

166

M. Durot et al .

tel-00425212, version 1 - 20 Oct 2009

which case either or both should be questioned, leading to possible revisions or improvements. If, on the other hand, data and model are compatible, the new evidence may still narrow down the set of possible metabolic behaviors of the cell, thus enriching the model (Covert et al., 2004). This review article covers both the reconstruction of genome-scale metabolic models and their applications to basic and applied research in microbiology. Following a primer on constraint-based models, we will review the state of the art in model reconstruction. Next, we will survey the main applications of metabolic models, from phenotype predictions to data interpretation or metabolic engineering. Practical aspects of direct relevance to the working micro- biologist will be covered by a sketch of the main dedicated database and software resources. We will conclude the review with a discussion on future directions in the field.

Foundations of genome-scale metabolic modeling

The metabolic state of a cell and its variation over time can be described by metabolite concentrations and reaction rates, which can be viewed as the ‘endpoints’ of metabolic operation. These quantities are related by the law of con- servation of matter, which states that the net production rate of a metabolite equals the sum of the rates of the reactions consuming or producing it, weighted by the associated relative stoichiometric coefficients. Conversely, enzyme kinetics express reaction rates as complex functions of metabolite concentrations and enzymatic activities, which vary over time as a result of transcriptional and metabolic regulation (Smallbone et al., 2007). Deriving meaningful predictions from these two types of equations for large metabolic systems is a very challenging proposition, not only because of the mathematics, but also because many of the parameters are not known, difficult to measure, and possibly context dependent. In practice, these pitfalls restrict the use of kinetic modeling to metabolic systems much smaller than ‘whole-cell’ metabolic networks, which typi- cally include hundreds of reactions for a bacterium. Constraint-based models bypass these difficulties by focusing on the average reaction rates achievable by cells grown in steady or slowly varying environmental condi- tions. Rates are typically averaged over minutes, fitting with the typical time scale of uptake or secretion rates measure- ments. Such averages are not affected by transient states because the characteristic relaxation time of metabolic systems – i.e. the time it takes for chemical reactions within the cell to reach a steady state – is much shorter than a minute. Moreover, because environmental changes and variations of enzyme concentrations occur on longer time scales, one need not take into account regulatory changes to assess average reaction rates over minutes. Turnover rates of

c

2008 CEA–Genoscope

Journal compilation c 2008 Federation of European Microbiological Societies

Published by Blackwell Publishing Ltd.

most intracellular metabolites are high in bacterial cells (Stephanopoulos et al ., 1998). At the time scale considered here, their concentrations have therefore generally reached steady levels, and remain constant as long as environmental conditions do not change. As a consequence, the law of conservation of matter constrains the production and con- sumption rates of these metabolites to be balanced. These assumptions are usually summarized under the expression steady-state hypothesis and the corresponding constraint on reaction rates as a mass balance (or stoichiometric) con- straint (Stephanopoulos et al., 1998). Obviously, this rea- soning applies only to metabolites that are neither taken in from an external pool (e.g. nutrients) nor excreted from the cell or accumulated in large quantities (e.g. cell components such as nucleic acids, amino acids, or some lipids). For each metabolite that can be ‘balanced,’ the mass balance con- straint can be expressed mathematically by a linear equation relating reaction rates of the form P s j n j = 0, where s j is the stoichiometric coefficient of the metabolite in reaction j , and n j the rate of reaction j. In addition to mass balance constraints, reactions that are known to be thermodynamically irreversible in vivo are constrained to have a non-negative reaction rate. Similarly, upper bounds on the reaction rates can be known from measurements or theory and included in the model as additional constraints on the reaction fluxes (Reed & Palsson, 2003). Mass balance, irreversibility and upper-bound constraints result from the application of simple laws of physics to individual reactions or metabolites from the network. These constraints propagate from reaction to reaction throughout the metabolic network; the constraint-based modeling framework is designed to automatically compute the result- ing balance. To that end, it makes use of a succinct mathematical representation of all reaction stoichiometries:

the stoichiometric matrix (see Fig. 1). In this matrix, columns represent reactions and rows metabolites. The stoichio- metric coefficient of a metabolite within a reaction is included at the intersection of the corresponding row and column (see Fig. 1). Reaction rates are represented in constraint-based models by single numbers, the reaction fluxes , which are normalized by the weight of the cells harboring the reactions to account for the size of the colony (a reaction flux is typically expressed with the Unit mmol h 1 g 1 dry wt). Because the goal is to describe the joint operation of many metabolic reactions, it is convenient to define a flux distribution as a collection of reaction fluxes covering the entire system. Under the steady-state approx- imation, the concentrations of balanced metabolites being constant, a flux distribution carries sufficient information to completely describe a state of the system. Using the stoichio- metric matrix, a simple matrix equation – summarizing all mass balance equations shown above – can then be used to

FEMS Microbiol Rev 33 (2009) 164–190

Genome-scale models of bacterial metabolism

167

Fig. 1. Genome-scale modeling of metabolism. A metabolic network (top left) is transformed into a
Fig. 1. Genome-scale modeling of metabolism. A metabolic network (top left) is transformed into a model by defining the boundaries of the system, a
biomass assembly reaction, and exchange fluxes with the environment (top right). Using the corresponding stoichiometric matrix (bottom right), the
achievable flux distributions compatible with enforced constraints can be found (a particular one is depicted in the bottom left figure).
tel-00425212, version 1 - 20 Oct 2009

enforce the mass balance constraints on all reactions fluxes:

S . n = 0, where S is the stoichiometric matrix and n the flux distribution represented as a vector.

A precise definition of the boundary of the system to be

modeled is also needed to formulate an explicit mathematical representation. The system typically includes the whole cell and its vicinity, in order to encompass all the exchanges of matter between the cell and its environment. Transport reactions that allow for exchange of specific metabolites with

the extracellular space through the membrane are also in- cluded in the model. Environmental conditions are then modeled by acting on the balance of the external metabolites:

metabolites that are available from the environment can be taken up by transporters while the others can only be excreted.

A flux distribution that is compatible with all the con-

straints in a given environment is considered achievable (or

feasible) by the cell, whereas a distribution that violates at least one of these constraints is not. The simplicity of the system of linear equations that represent constraints is one of the main strengths of the framework, because it permits fast assessments of the feasibility of a flux distribution using a computer and standard algorithms. The simplicity of constraint-based models comes at the expense of a number of limitations in their predictive capabilities. Such models focus solely on reaction fluxes, and completely ignore the influence of metabolites and enzymes. In reality, however, enzyme kinetics, and tran- scriptional or metabolic regulation may significantly influ- ence reaction fluxes. Regulation can for instance limit the use of a pathway by downregulating some of its enzymes when particular environmental conditions are met. These mechanisms, if they could somehow be taken into account,

168

M. Durot et al .

tel-00425212, version 1 - 20 Oct 2009

would eliminate flux distributions otherwise allowed by con- straint-based models. In other words, models may allow ‘false- positive’ metabolic states, which respect the enforced meta- bolic constraints but are inconsistent with other biological processes. Several attempts have been made to extend the constraint-based modeling framework, in order to account for regulatory interactions (Covert et al., 2001), signaling pro- cesses (Lee et al., 2008b), the first and second laws of thermodynamics (Beard et al., 2002, 2004), or metabolite concentrations (Kummel¨ et al., 2006b; Henry et al., 2007). Nevertheless, these extensions require the inclusion of addi- tional experimental data and may result in more complex mathematical formulation hindering their practical use. Some predictions of constraint-based models may be wrong in cases where modeling assumptions do not hold. For instance, some metabolites do accumulate in the cell, and the mass balance assumption clearly does not hold for these. In general, the concentration of specific metabolites may be high enough relatively to the fluxes they are involved in for the mass balance approximation to become clearly false. In practice, many of the analytical methods that have been developed for constraint-based models focus on defin- ing and characterizing sets of feasible flux distributions. Others focus on a single distribution. The diversity of flux distributions compatible with constraints in a given envir- onment can be viewed as reflecting the diversity of the metabolic states the cell may find itself in. Nevertheless, the space of feasible flux distributions features biologically informative properties whose determination requires ade- quate techniques; these will be introduced in the next sections of this review.

Building the models

The level of detail necessary to build a constraint-based model of a bacterium’s metabolism is relatively low; the only information required is the precise reaction stoichiometries and directions, in order to account for mass balance and irreversibility constraints. To reflect the global biochemical capabilities of the organism, the model also needs to encom- pass the complete set of metabolic activities that can occur within it – or a reasonable approximation thereof. This comprehensiveness requirement and the high number of metabolic reactions make the actual construction of such models a challenging task in itself. In this section, we will review the main methods and resources helping in this task. We will first show how information from genome annotation can be used to infer biochemical reactions at large scale, a task commonly called metabolic network reconstruction. We will then review the techniques commonly used to assess the consistency of reconstructed models, and show how missing biochemical activities can be identified to complete the model.

c

2008 CEA–Genoscope

Journal compilation